테스트 사이트 - 개발 중인 베타 버전입니다

최신 그누보드5 common.lib.php 내의 정규표현식 관련 풀이 (2)

· 11년 전 · 2358 · 3
4. function print_r2($var)

$str = preg_replace("/ /", " ", $str);

이부분은 $str 내의 공백(스페이스) 을   치환한다는 뜻입니다.

즉,
[a] => apple

[a] => apple
와 같이 수정해 주는 것입니다.


" 은 그냥 패턴문자열을 감싸는 역활
/ 은 패턴 구분자, 일반적으로 잘 사용 되지 않는 문자를 사용합니다.
/ 과 / 사이의 공백은 보는 그대로 공백하나를 뜻합니다. [:space:] 를 사용해도 됩니다.

단순히, 지금과 같이 공백(스페이스) 하나에 대한 단순 치환이라면
즉, 특별한 정규식패턴이 필요없는 경우에는
$str = str_replace(" ", " ", $str);
와 같이 str_replace 를 사용하는 것이 좋습니다.



2. function url_auto_link($str)

$str = preg_replace("/</", "\t_lt_\t", $str);

이부분은 < 을 탭_lt_탭 으로 치환한다는 뜻입니다.

함수전체에서 다른 치환을 할때 < 을 보호하고 나중에 처리의 마지막에 다시 복원하기 위한 용도입니다.

이것역시 별다른 정규식패턴이 필요하지 않으므로
$str = str_replace("<", "\t_lt_\t", $str);
와 같이 사용하는 것이 좋습니다.

$str = preg_replace("/>/", "\t_gt_\t", $str);
$str = preg_replace("/&amp;/", "&", $str);
$str = preg_replace("/&quot;/", "\"", $str);
$str = preg_replace("/&nbsp;/", "\t_nbsp_\t", $str);

이것들 역시 위의 것과 크게 다르지 않고
각각 >, &amp;, &quot;, &nbsp; 을 탭_gt_탭, &, \", 탭_nbsp_탭 으로
치환하는 것입니다.

이런류의 단순 치환을 여러번 하는 경우에는 str_replace 로 한번에 처리할수 있습니다.
$str = str_replace(array("<", ">", "&amp;", "&quot;", "&nbsp;"), array("\t_lt_\t", "\t_gt_\t", "&", "\"", "\t_nbsp_\t"), $str);


$str = preg_replace("/([^(http:\/\/)]|\(|^)(www\.[^[:space:]]+)/i", "\\1<A HREF=\"http://\\2\" TARGET='{$config['cf_link_target']}'>\\2</A>", $str);

이부분은 http:// 는 없고 www. 로 시작되는 문자열이 있으면, 링크를 걸어 주겠다는 뜻입니다.

"/([^(http:\/\/)]|\(|^)(www\.[^[:space:]]+)/i"

" 은 그냥 패턴문자열을 감싸는 역활
/ 은 패턴 구분자, 일반적으로 잘 사용 되지 않는 문자를 사용합니다.

([^(http:\/\/)]|\(|^) 은 서브패턴 내에 | 가 포함되어 있으므로
[^(http:\/\/)] 이거나 \( 이거나 ^ 셋 중의 하나의 조건만 만족하면 됩니다.

[^(http:\/\/)] 은 http:// 아닌 다른 문자를 의미로 사용한것 같은데......
이것은 제가 알기로는 [^()htp:/] 와 동일하게 작동합니다.
즉, (, ), h, t, p, :, / 가 아닌 그 이외의 문자임을 뜻하게 됩니다.


\( 은 보기 그대로 ( 을 의미하고,
\가 붙은 이유는 ( 은 서브패턴의 시작을 알리는 의미있는 문자이기때문에 단순히 ( 로서 사용하기 위해 붙입니다.

^ 은 문자열의 맨시작임을 나타냅니다.

즉, 문자열의 맨처음에 www. 이 있거나 www. 앞에 ( 가 있거나 www. 앞에 h, t, p, :, / 가 없을때 동작합니다.

[^[:space:]]+ 는 공백이 아닌 문자가 하나 이상 있음을 나타냅니다.

i 는 패턴변경자로서 대소문자를 가리지 않겠다는 뜻입니다.


사실 이부분은 완벽하게 처리 되기 불가능한 부분입니다.
사용자가 띄어쓰기를 안해서 "www.sir.co.kr에서" 라고 작성한다 하면 "에서" 까지 링크가 걸리게 됩니다.
또는 사용자가 "(www.sir.co.kr)" 이런식으로 작성해도 ")" 까지 링크가 걸리게 됩니다.

아무튼, 이러한 문제점을 기본적으로 가지고 있다고 고려하고 패턴이 작성되어야 합니다.
그래서, 저같은 경우는 위의 패턴 보다는

문자열의 처음이 www. 으로 시작하거나
공백, ' , ", ( 등이 온다음 www. 을 시작하는 문자열의 경우에서 치환이 이루어지는 패턴을 만드는것이 낫다고 생각합니다.


따라서
$str = preg_replace("/(^|[\"'\s(])(www\.[^\"'\s()]+)/i", "\\1<A HREF=\"http://\\2\" TARGET='{$config['cf_link_target']}'>\\2</A>", $str);
와 같은 패턴을 제안할수 있습니다.



댓글 작성

댓글을 작성하시려면 로그인이 필요합니다.

로그인하기

댓글 3개

위 내용중 "&lt;", "&gt;" 이두개가 < > 로 변환 되어 버리네요

common.lib.php 소스와 비교해서 보시는게 좋을듯 합니다.
11년 전
좋은 강좌 잘 보고 갑니다 ^^ 정규식은 너무 헷갈려요...ㅠㅠ
네 감사합니다.

사실 정규식은
익숙해지면 편하고 좋습니다.

근데, 이것도 익숙해지다보면
정규식만으로 해결할려고 할때 좀 문제가 되는 것 같습니다.

정규식이 만능은 아니거든요.

게시글 목록

번호 제목
5722
31534
5717
19190
19181
19177
19173
19171
27353
19169
24530
27350
19161
19159
19156
19154
19152
19150
19147
19145
19143
19141
30830
19135
19129
19124
19118
19115
19111
19108
19104
19101
19098
19094
27342
19093
26548
19090
19088
19086
24524
31526
26539
32021
32015
5705
26533
24510
26524
24507
24506
19082
24498
5702
27337
32011
19080
19075
19073
19072
27330
27328
32010
32005
32001
19071
19063
31998
31994
5676
27327
31989
5671
5666
19056
31988
31987
31981
26515
30823
19050
19047
19039
31969
5649
27323
31963
19027
19020
19017
19014
19009
19005
31949
18998
18994
18988
18982
31941
31934