테스트 사이트 - 개발 중인 베타 버전입니다

최신 그누보드5 common.lib.php 내의 정규표현식 관련 풀이 (2)

· 11년 전 · 2356 · 3
4. function print_r2($var)

$str = preg_replace("/ /", " ", $str);

이부분은 $str 내의 공백(스페이스) 을   치환한다는 뜻입니다.

즉,
[a] => apple

[a] => apple
와 같이 수정해 주는 것입니다.


" 은 그냥 패턴문자열을 감싸는 역활
/ 은 패턴 구분자, 일반적으로 잘 사용 되지 않는 문자를 사용합니다.
/ 과 / 사이의 공백은 보는 그대로 공백하나를 뜻합니다. [:space:] 를 사용해도 됩니다.

단순히, 지금과 같이 공백(스페이스) 하나에 대한 단순 치환이라면
즉, 특별한 정규식패턴이 필요없는 경우에는
$str = str_replace(" ", " ", $str);
와 같이 str_replace 를 사용하는 것이 좋습니다.



2. function url_auto_link($str)

$str = preg_replace("/</", "\t_lt_\t", $str);

이부분은 < 을 탭_lt_탭 으로 치환한다는 뜻입니다.

함수전체에서 다른 치환을 할때 < 을 보호하고 나중에 처리의 마지막에 다시 복원하기 위한 용도입니다.

이것역시 별다른 정규식패턴이 필요하지 않으므로
$str = str_replace("<", "\t_lt_\t", $str);
와 같이 사용하는 것이 좋습니다.

$str = preg_replace("/>/", "\t_gt_\t", $str);
$str = preg_replace("/&amp;/", "&", $str);
$str = preg_replace("/&quot;/", "\"", $str);
$str = preg_replace("/&nbsp;/", "\t_nbsp_\t", $str);

이것들 역시 위의 것과 크게 다르지 않고
각각 >, &amp;, &quot;, &nbsp; 을 탭_gt_탭, &, \", 탭_nbsp_탭 으로
치환하는 것입니다.

이런류의 단순 치환을 여러번 하는 경우에는 str_replace 로 한번에 처리할수 있습니다.
$str = str_replace(array("<", ">", "&amp;", "&quot;", "&nbsp;"), array("\t_lt_\t", "\t_gt_\t", "&", "\"", "\t_nbsp_\t"), $str);


$str = preg_replace("/([^(http:\/\/)]|\(|^)(www\.[^[:space:]]+)/i", "\\1<A HREF=\"http://\\2\" TARGET='{$config['cf_link_target']}'>\\2</A>", $str);

이부분은 http:// 는 없고 www. 로 시작되는 문자열이 있으면, 링크를 걸어 주겠다는 뜻입니다.

"/([^(http:\/\/)]|\(|^)(www\.[^[:space:]]+)/i"

" 은 그냥 패턴문자열을 감싸는 역활
/ 은 패턴 구분자, 일반적으로 잘 사용 되지 않는 문자를 사용합니다.

([^(http:\/\/)]|\(|^) 은 서브패턴 내에 | 가 포함되어 있으므로
[^(http:\/\/)] 이거나 \( 이거나 ^ 셋 중의 하나의 조건만 만족하면 됩니다.

[^(http:\/\/)] 은 http:// 아닌 다른 문자를 의미로 사용한것 같은데......
이것은 제가 알기로는 [^()htp:/] 와 동일하게 작동합니다.
즉, (, ), h, t, p, :, / 가 아닌 그 이외의 문자임을 뜻하게 됩니다.


\( 은 보기 그대로 ( 을 의미하고,
\가 붙은 이유는 ( 은 서브패턴의 시작을 알리는 의미있는 문자이기때문에 단순히 ( 로서 사용하기 위해 붙입니다.

^ 은 문자열의 맨시작임을 나타냅니다.

즉, 문자열의 맨처음에 www. 이 있거나 www. 앞에 ( 가 있거나 www. 앞에 h, t, p, :, / 가 없을때 동작합니다.

[^[:space:]]+ 는 공백이 아닌 문자가 하나 이상 있음을 나타냅니다.

i 는 패턴변경자로서 대소문자를 가리지 않겠다는 뜻입니다.


사실 이부분은 완벽하게 처리 되기 불가능한 부분입니다.
사용자가 띄어쓰기를 안해서 "www.sir.co.kr에서" 라고 작성한다 하면 "에서" 까지 링크가 걸리게 됩니다.
또는 사용자가 "(www.sir.co.kr)" 이런식으로 작성해도 ")" 까지 링크가 걸리게 됩니다.

아무튼, 이러한 문제점을 기본적으로 가지고 있다고 고려하고 패턴이 작성되어야 합니다.
그래서, 저같은 경우는 위의 패턴 보다는

문자열의 처음이 www. 으로 시작하거나
공백, ' , ", ( 등이 온다음 www. 을 시작하는 문자열의 경우에서 치환이 이루어지는 패턴을 만드는것이 낫다고 생각합니다.


따라서
$str = preg_replace("/(^|[\"'\s(])(www\.[^\"'\s()]+)/i", "\\1<A HREF=\"http://\\2\" TARGET='{$config['cf_link_target']}'>\\2</A>", $str);
와 같은 패턴을 제안할수 있습니다.



댓글 작성

댓글을 작성하시려면 로그인이 필요합니다.

로그인하기

댓글 3개

위 내용중 "&lt;", "&gt;" 이두개가 < > 로 변환 되어 버리네요

common.lib.php 소스와 비교해서 보시는게 좋을듯 합니다.
11년 전
좋은 강좌 잘 보고 갑니다 ^^ 정규식은 너무 헷갈려요...ㅠㅠ
네 감사합니다.

사실 정규식은
익숙해지면 편하고 좋습니다.

근데, 이것도 익숙해지다보면
정규식만으로 해결할려고 할때 좀 문제가 되는 것 같습니다.

정규식이 만능은 아니거든요.

게시글 목록

번호 제목
19384
27584
6013
6004
27572
5997
5992
5981
5964
5952
5948
5941
5937
5934
5931
19383
5926
5923
5913
24558
5912
30895
27563
5907
5903
5900
27556
5898
24555
5894
5893
5890
5884
27537
5881
5878
30888
30884
5876
5874
27524
27514
19379
19377
27509
5869
5866
27505
5865
5860
5857
27503
27481
27462
5856
19511
27458
24547
19374
19373
19371
27453
19370
27449
27441
19366
24544
19365
19361
19360
19358
19356
19354
19351
19348
19346
19339
19334
5849
27439
5846
27434
27429
19331
19329
19328
5841
5840
19326
5834
5831
5826
19324
5821
32040
27426
19320
5816
32030
5815