최신 그누보드5 common.lib.php 내의 정규표현식 관련 풀이 (3)
4. function url_auto_link($str)
이것의 원래 의도는 href 나 src 에 들어가있는 url은 제외하고 http|https|ftp|telnet|news|mms 로 시작되는 url 에 링크를 걸어주는 것입니다.
그러나 이것 역시 이전 것과 마찬가지로 앞부분이 정확히 동작하지 않습니다.
[] 은 문자 하나하나 지정하거나 어디에서 어디까지리 라는 범위를 지정하는 용도로 사용됩니다.
그리고 그것이 포함되지 않는 그 이외의 문자를 표현할때는 [^] 형태와 같이 사용되어집니다.
즉, 문자열을 [] 속에 지정하는 것이 아닙니다.
그리고 [] 속에서는 정규식에서 의미있는 메타 문자라 할지라도 모두 일반문자와 같이 취급됩니다.
일반 문자로 취급되기때문에 정규식 전체를 묶는 " 나 [] 를 제외하고는 \(에스케이프)를 사용하지 않습니다.
결국,
[^(HREF=\"?'?)|(SRC=\"?'?)] 은
[^()=\"'?hrefsrc] 같은 의미가 됩니다.
따라서, href 나 src 가 없을 경우에 매치할려고 하면
[^(HREF=\"?'?)|(SRC=\"?'?)] 이렇게 하는 것이 아니라
(((href|src)\s*=\s*(\"|'|)){0}) 와 같이 사용하여야 합니다.
[a-zA-Z0-9\.-]+ 도메인(서브도메인포함)으로 올수 있는 문자가 하나 이상 있다는 의미입니다.
사실, 도메인이 한자로 이루어 질수 없기 때문에 + 대신에 {4,} 이런식으로 네자 이상이라고 붙여 주는것이 더 좋을것 같습니다.
a.co 라고 해도 4자가 되니까 말입니다.
[가-힣\xA1-\xFEa-zA-Z0-9\.:&#=_\?\/~\+%@;\-\|\,\(\)]+
이부분은 도메인을 제외한 url 부분에 올수 있는 문자들을 나열하고
그것이 하나 이상인것을 의미합니다.
그러나 이부분 역시 검색어 stx=<> 나 다른 특수문자를 걸었을수도 있기 때문에 딱 맞다고는 할수 없습니다.
그리고, 완벽하게 패턴을 만들수도 없는 부분입니다.
원래 원하는 패턴이 href 나 src 와 붙지 않은 모든 url 이니.....
와 같은 패턴을 제안할수 있습니다.
(다음에 ?: 은 () 은 서브패턴으로 이것은 모두 순서대로 매치된것이 번호가 매겨지는데,
?: 을 사용함으로 해서 그부분은 번호로 매기지 않게 됩니다.
따라서 원래 \\5 로 쓰여야 하지만 \\1 로 쓴것입니다.
이메일은 아이디@도메인 이므로
@를 기준으로 앞부분은 아이디에 대한 패턴이고
뒷부분은 도메인에 대한 패턴입니다.
아이디 부분에 . 이 들어갈 일이 있는지는 모르겟지만
아이디 부분의 패턴은 [0-9a-z_-]+ 정도로 하면 될것 같고,
도메인부분은 [a-z0-9._-]{4,} 정도로 하면 될것 같습니다.
따라서
\\0 은 서브패턴으로 지정된 부분 말고 전체 패턴에 매치되는 부분을 뜻합니다.
이것은 이전에도 나왓듯이 단순 문자열 치환의 반복이므로
$str = preg_replace("/([^(HREF=\"?'?)|(SRC=\"?'?)]|\(|^)((http|https|ftp|telnet|news|mms):\/\/[a-zA-Z0-9\.-]+\.[가-힣\xA1-\xFEa-zA-Z0-9\.:&#=_\?\/~\+%@;\-\|\,\(\)]+)/i", "\\1<A HREF=\"\\2\" TARGET='{$config['cf_link_target']}'>\\2</A>", $str);
이것의 원래 의도는 href 나 src 에 들어가있는 url은 제외하고 http|https|ftp|telnet|news|mms 로 시작되는 url 에 링크를 걸어주는 것입니다.
그러나 이것 역시 이전 것과 마찬가지로 앞부분이 정확히 동작하지 않습니다.
[] 은 문자 하나하나 지정하거나 어디에서 어디까지리 라는 범위를 지정하는 용도로 사용됩니다.
그리고 그것이 포함되지 않는 그 이외의 문자를 표현할때는 [^] 형태와 같이 사용되어집니다.
즉, 문자열을 [] 속에 지정하는 것이 아닙니다.
그리고 [] 속에서는 정규식에서 의미있는 메타 문자라 할지라도 모두 일반문자와 같이 취급됩니다.
일반 문자로 취급되기때문에 정규식 전체를 묶는 " 나 [] 를 제외하고는 \(에스케이프)를 사용하지 않습니다.
결국,
[^(HREF=\"?'?)|(SRC=\"?'?)] 은
[^()=\"'?hrefsrc] 같은 의미가 됩니다.
따라서, href 나 src 가 없을 경우에 매치할려고 하면
[^(HREF=\"?'?)|(SRC=\"?'?)] 이렇게 하는 것이 아니라
(((href|src)\s*=\s*(\"|'|)){0}) 와 같이 사용하여야 합니다.
[a-zA-Z0-9\.-]+ 도메인(서브도메인포함)으로 올수 있는 문자가 하나 이상 있다는 의미입니다.
사실, 도메인이 한자로 이루어 질수 없기 때문에 + 대신에 {4,} 이런식으로 네자 이상이라고 붙여 주는것이 더 좋을것 같습니다.
a.co 라고 해도 4자가 되니까 말입니다.
[가-힣\xA1-\xFEa-zA-Z0-9\.:&#=_\?\/~\+%@;\-\|\,\(\)]+
이부분은 도메인을 제외한 url 부분에 올수 있는 문자들을 나열하고
그것이 하나 이상인것을 의미합니다.
그러나 이부분 역시 검색어 stx=<> 나 다른 특수문자를 걸었을수도 있기 때문에 딱 맞다고는 할수 없습니다.
그리고, 완벽하게 패턴을 만들수도 없는 부분입니다.
원래 원하는 패턴이 href 나 src 와 붙지 않은 모든 url 이니.....
$str = preg_replace("`(?:(?:(?:href|src)\s*=\s*(?:\"|'|)){0})((http|https|ftp|telnet|news|mms)://[^\"'\s()]+)`", "<A HREF=\"\\1\" TARGET='{$config['cf_link_target']}'>\\1</A>", $str);
와 같은 패턴을 제안할수 있습니다.
(다음에 ?: 은 () 은 서브패턴으로 이것은 모두 순서대로 매치된것이 번호가 매겨지는데,
?: 을 사용함으로 해서 그부분은 번호로 매기지 않게 됩니다.
따라서 원래 \\5 로 쓰여야 하지만 \\1 로 쓴것입니다.
$str = preg_replace("/([0-9a-z]([-_\.]?[0-9a-z])*@[0-9a-z]([-_\.]?[0-9a-z])*\.[a-z]{2,4})/i", "<a href='mailto:\\1'>\\1</a>", $str);이것은 이메일이 발견 되면 이메일 링크로 치환 해주는 것입니다.
이메일은 아이디@도메인 이므로
@를 기준으로 앞부분은 아이디에 대한 패턴이고
뒷부분은 도메인에 대한 패턴입니다.
아이디 부분에 . 이 들어갈 일이 있는지는 모르겟지만
아이디 부분의 패턴은 [0-9a-z_-]+ 정도로 하면 될것 같고,
도메인부분은 [a-z0-9._-]{4,} 정도로 하면 될것 같습니다.
따라서
$str = preg_replace("/[0-9a-z_-]+@[a-z0-9._-]{4,}/i", "<a href='mailto:\\0'>\\0</a>", $str);정도로 제안 할수 있습니다.
\\0 은 서브패턴으로 지정된 부분 말고 전체 패턴에 매치되는 부분을 뜻합니다.
$str = preg_replace("/\t_nbsp_\t/", " " , $str);
$str = preg_replace("/\t_lt_\t/", "<", $str);
$str = preg_replace("/\t_gt_\t/", ">", $str);
이것은 이전에도 나왓듯이 단순 문자열 치환의 반복이므로
$str = str_replace(array(), araay(), $str);형태로 사용하는 좋습니다.
댓글 7개
11년 전
마지막에
"<", ">" 이두개가 < > 로 변환 되어 버리네요
common.lib.php 소스와 비교해서 보시는게 좋을듯 합니다.
"<", ">" 이두개가 < > 로 변환 되어 버리네요
common.lib.php 소스와 비교해서 보시는게 좋을듯 합니다.
11년 전
좋아요를 많이 눌러주시는데 저는 이제야 오네요...
나중에 시간내서 정말 이 강좌를 꼼꼼히 봐야하는데 말입니다..
감사합니다.
나중에 시간내서 정말 이 강좌를 꼼꼼히 봐야하는데 말입니다..
감사합니다.
11년 전
꿀같은 강좌 감사합니다.
11년 전
네 감사합니다.
11년 전
두고 두고 보겠습니다
정규식에 너무 약한데 위토즈님 글대로 꿀같은 강좌입니다
감사합니다 :)
정규식에 너무 약한데 위토즈님 글대로 꿀같은 강좌입니다
감사합니다 :)
11년 전
네에 고맙습니다.
김군패밀리
11년 전
정말 감사합니다.
게시글 목록
| 번호 | 제목 |
|---|---|
| 20841 | |
| 20840 | |
| 20839 | |
| 20838 | |
| 20835 | |
| 20834 | |
| 7057 | |
| 19668 |
JavaScript
자바스크립트(4)
|
| 19667 |
PHP
자바스크립트(3)
|
| 19666 |
JavaScript
자바스크립트(2)
|
| 19665 |
JavaScript
자바스크립트(1)
|
| 19663 |
PHP
정규 표현식
1
|
| 19662 |
PHP
기타 함수
|
| 19661 |
PHP
수학 연산 함수
|
| 19660 |
PHP
파일 처리 함수(3)
|
| 19659 |
PHP
파일 처리 함수(2)
|
| 19658 |
PHP
날짜 및 시간 함수
|
| 19657 |
PHP
파일 처리 함수(1)
|
| 19656 |
PHP
문자열 함수(5)
|
| 19655 |
PHP
문자열 함수(4)
|
| 19654 |
PHP
문자열 함수(3)
|
| 19653 |
PHP
문자열 함수(2)
|
| 19652 |
PHP
문자열 함수(1)
|
| 19651 |
PHP
사용자 정의 함수(3)
|
| 19650 |
PHP
사용자 정의 함수(2)
|
| 19649 |
PHP
사용자 정의 함수(1)
|
| 19648 |
PHP
그 밖의 제어문
|
| 19647 |
PHP
반복 제어문(2)
|
| 19646 |
PHP
반복 제어문(1)
|
| 19645 |
PHP
조건 제어문(2)
|
| 19644 |
PHP
조건 제어문(1)
|
| 19643 |
PHP
비교 연산자, 논리 연산자
|
| 19642 |
PHP
산술 연산자, 대입 연산자
|
| 19641 | |
| 19640 |
PHP
가변 변수
|
| 19639 |
PHP
정적 변수
|
| 19638 |
PHP
전역 변수
|
| 19637 |
PHP
배열 변수
|
| 19636 |
PHP
변수 사용법
|
| 7051 | |
| 26561 | |
| 19635 | |
| 19634 |
MySQL
mysqlDB export 복원
|
| 27958 | |
| 30952 | |
| 27955 | |
| 19633 | |
| 19632 | |
| 19631 | |
| 7048 | |
| 7033 | |
| 19630 | |
| 7021 | |
| 7018 | |
| 27953 | |
| 7015 | |
| 27951 | |
| 7011 | |
| 19628 | |
| 19627 | |
| 7010 | |
| 27947 | |
| 7009 | |
| 19626 | |
| 19625 | |
| 24635 | |
| 7005 | |
| 27943 | |
| 7000 | |
| 19624 | |
| 6995 | |
| 6992 | |
| 30949 |
HTML
html5 멋진 사이트 1곳
2
|
| 30948 |
CSS
overflow 속성
|
| 19623 | |
| 19620 | |
| 19619 | |
| 6990 | |
| 6986 | |
| 27940 | |
| 30947 | |
| 30945 | |
| 19618 | |
| 19617 | |
| 19616 |
웹서버
wget에 대한 팁
|
| 19615 | |
| 19614 | |
| 19613 | |
| 19612 | |
| 19610 | |
| 30943 | |
| 30942 | |
| 19609 |
JavaScript
GET,POST값 등을 JAVASCRIPT에서 사용할 경우[펌]
|
| 19608 | |
| 19607 |
MySQL
특정 폴더에서 PHP 실행 금지하기[펌]
|
| 24631 | |
| 27935 | |
| 27933 | |
| 24628 | |
| 19604 |
댓글 작성
댓글을 작성하시려면 로그인이 필요합니다.
로그인하기