개인적인 일로 오랫동안 정규표현식 강좌를 이어가지 못하였습니다.
오랜만에 워밍업 개념으로 간단한 실무 예제를 한번 만들어 보았습니다.
※ 일단, 다음(http://www.daum.net/) 메인의 html 내용이 $html 변수에 저장되어있다고 가정하고 시작합니다.
분석을 할때는 브라우져로 다음을 열어놓고 소스보기를 통해서 보시면 됩니다.
1. 먼저 소스에서 뽑고자 하는 실시간 이슈가 나오는 부분을 찾습니다.
2. 내가 필요한 부분만 짤라내기 위해 html 전체에서 중복되지 않는 조건을 찾습니다.
일반적으로 id 는 문서내에서 중복되지 않는 것이 원칙입니다.
위의 발췌된 부분에서는
id 는 중복되지 않는 부분이므로 반드시 들어가야 하는 부분이고,
class 부분은 디자인이 조금씩 수정될때 마다 추가 될수 도 있고 빠질수도 있는 부분입니다.
문자열 내부에 " 사용되었으므로 \(에스케이프)를 사용하지 않기 위해서 패턴은 ' 으로 감쌉니다.
패턴구분자는 " ' 을 제외하고 나머지 잘 사용되지 않는 문자를 사용합니다.
저같은 경우는 ` 을 주로 쓰는 편입니다.
그리고 내용에 줄바꿈이 있으므로 패턴변경자로는 s 를 사용합니다.
따라서 패턴은
<ol[^>]+id 이렇게 한것은
ol 과 id 사이에 클래스나 다른 것들이 들어올 가능성이 있기 때문입니다.
[^>]* 으로 해도 되지만 [^>]+ 한 이유는 반드시 공백이라도 들어가야 하기 때문이고
olid 이렇게 겹친경우를 방지 하기 위해서 입니다.
(.+?) 이것은 .+ 한것을 찾되 전체 패턴에서 최초로 일치하는 선까지만 찾겟다는 것입니다.
현재 다음 내용에서는 </ol>이 한번밖에 사용되지 않았지만,
다른 내용이 추가 되어 그 뒤로 </ol> 이 여러번 있을 경우를 대비하는 것입니다.
3. 1차적으로 잘라온 문자열에서 자신이 필요한 정보들을 모두 뽑습니다.
필요한 정보들을 모두 뽑으니까 preg_match_all 을 사용합니다.
필요한 정보들은
경우에따라 class 부분이 다르거나 하는 경우가 존재합니다.
첫번째것의 경우에는 <div class="rank first"> 와 같이 first 가 추가로 더 들어간것처럼 말입니다.
패턴은
패턴 문자열을 싸는 것은 위와 마찬가지로 ' 를 사용하고
패턴 구분자는 ` 을 사용하였습니다.
모두 li 로 싸여 있기 때문에 <li[^>]*> 로 했습니다.
li 외에 id 나 class 등이 있던 없던 상관이 없다는 뜻입니다.
<div[^>]*> 이것 역시 마찬가지의 의미입니다.
<a[^>]+href="([^"]+)"[^>]*> 이렇게 한 이유는 링크만 필요하고 나머지 문자열에는 영향을 받지 않기 위해서입니다.
(.+?) 이것역시 위에서 설명했듯이 최초로 일치하는 것까지만 찾기 위해서입니다.
? 를 붙이지 않으면 맨뒤의 </a> 앞에 까지가 매치되어집니다.
<span class="status([^"]*)">(.*?)</span> 이부분은 키워드의 순위 변동사항을 알려주는 부분인데,
변동사항은 클래스로 알려주기 때문에 특정 클래스를 따로 뽑기 위해서 사용하였습니다.
오랜만에 워밍업 개념으로 간단한 실무 예제를 한번 만들어 보았습니다.
※ 일단, 다음(http://www.daum.net/) 메인의 html 내용이 $html 변수에 저장되어있다고 가정하고 시작합니다.
분석을 할때는 브라우져로 다음을 열어놓고 소스보기를 통해서 보시면 됩니다.
1. 먼저 소스에서 뽑고자 하는 실시간 이슈가 나오는 부분을 찾습니다.
......
<div id="realTime" class="issuerank">
<h3 id="issueRankTitle" class="tab"><span class="ir"><span class="ir_desc">실시간 이슈</span></span></h3>
<ol id="issueRank" class="#searchrank">
<li class="rank_li #issue"><div class="rank first"><a href="http://search.daum.net/search?w=tot&rtupcate=issue&q=%EC%98%81%ED%99%94%EB%B0%B0%EC%9A%B0+%EC%9A%B0%EB%B4%89%EC%8B%9D&guide=rissue&rtupcoll=DQP,NNS&DA=ATGF" class="@1">영화배우 우봉식</a><span class="status new">new</span></div></li>
<li class="rank_li #issue"><div class="rank"><a href="http://search.daum.net/search?w=tot&rtupcate=issue&q=kt+%EC%A0%95%EB%B3%B4%EC%9C%A0%EC%B6%9C+%EC%86%8C%EC%86%A1&guide=rissue&rtupcoll=DQP,NNS&DA=ATGF" class="@2">kt 정보유출 소송</a><span class="status up">54</span><span class="daumhide">상승</span></div></li>
<li class="rank_li #issue"><div class="rank"><a href="http://search.daum.net/search?w=tot&rtupcate=issue&q=%EA%B9%80%EA%B8%B0%EC%B2%9C&guide=rissue&rtupcoll=DQP,NNS&DA=ATGF" class="@3">김기천</a><span class="status up">40</span><span class="daumhide">상승</span></div></li>
<li class="rank_li #issue"><div class="rank"><a href="http://search.daum.net/search?w=tot&rtupcate=issue&q=%EA%B0%A4%EB%9F%AD%EC%8B%9C%EB%85%B8%ED%8A%B8+%EB%B0%B0%ED%84%B0%EB%A6%AC%EA%B5%90%ED%99%98&guide=rissue&rtupcoll=DQP,NNS&DA=ATGF" class="@4" title="갤럭시노트 배터리교환">갤럭시노트 배터리..</a><span class="status up">45</span><span class="daumhide">상승</span></div></li>
<li class="rank_li #issue"><div class="rank"><a href="http://search.daum.net/search?w=tot&rtupcate=issue&q=%EC%9D%B4%EB%B3%B4%EC%98%81+%EC%95%BC%EC%83%81&guide=rissue&rtupcoll=DQP,NNS&DA=ATGF" class="@5">이보영 야상</a><span class="status up">44</span><span class="daumhide">상승</span></div></li>
<li class="rank_li #issue"><div class="rank"><a href="http://search.daum.net/search?w=tot&rtupcate=issue&q=%EC%A0%95%EC%95%84%EC%9C%A8&guide=rissue&rtupcoll=DQP,NNS&DA=ATGF" class="@6">정아율</a><span class="status up">46</span><span class="daumhide">상승</span></div></li>
<li class="rank_li #issue"><div class="rank"><a href="http://search.daum.net/search?w=tot&rtupcate=issue&q=%EB%8C%80%EC%A1%B0%EC%98%81+%ED%8C%94%EB%B3%B4&guide=rissue&rtupcoll=DQP,NNS&DA=ATGF" class="@7">대조영 팔보</a><span class="status up">387</span><span class="daumhide">상승</span></div></li>
<li class="rank_li #issue"><div class="rank"><a href="http://search.daum.net/search?w=tot&rtupcate=issue&q=kt+%EC%A0%95%EB%B3%B4%EC%9C%A0%EC%B6%9C+%EC%A7%91%EB%8B%A8%EC%86%8C%EC%86%A1+%EC%B9%B4%ED%8E%98&guide=rissue&rtupcoll=DQP,NNS&DA=ATGF" class="@8" title="kt 정보유출 집단소송 카페">kt 정보유출 집..</a><span class="status up">54</span><span class="daumhide">상승</span></div></li>
<li class="rank_li #issue"><div class="rank"><a href="http://search.daum.net/search?w=tot&rtupcate=issue&q=%EA%B3%B5%EC%9D%B8%ED%96%89%EC%A0%95%EC%82%AC&guide=rissue&rtupcoll=DQP,NNS&DA=ATGF" class="@9">공인행정사</a><span class="status up">27</span><span class="daumhide">상승</span></div></li>
<li class="rank_li #issue"><div class="rank"><a href="http://search.daum.net/search?w=tot&rtupcate=issue&q=%EB%AA%BD%EA%B3%A0%EB%B0%98%EC%A0%90&guide=rissue&rtupcoll=DQP,NNS&DA=ATGF" class="@10">몽고반점</a><span class="status up">25</span><span class="daumhide">상승</span></div></li>
</ol>
......
2. 내가 필요한 부분만 짤라내기 위해 html 전체에서 중복되지 않는 조건을 찾습니다.
일반적으로 id 는 문서내에서 중복되지 않는 것이 원칙입니다.
위의 발췌된 부분에서는
<ol id="issueRank" class="#searchrank"> ~ </ol>부분입니다.
id 는 중복되지 않는 부분이므로 반드시 들어가야 하는 부분이고,
class 부분은 디자인이 조금씩 수정될때 마다 추가 될수 도 있고 빠질수도 있는 부분입니다.
문자열 내부에 " 사용되었으므로 \(에스케이프)를 사용하지 않기 위해서 패턴은 ' 으로 감쌉니다.
패턴구분자는 " ' 을 제외하고 나머지 잘 사용되지 않는 문자를 사용합니다.
저같은 경우는 ` 을 주로 쓰는 편입니다.
그리고 내용에 줄바꿈이 있으므로 패턴변경자로는 s 를 사용합니다.
따라서 패턴은
'`<ol[^>]+id="issueRank"[^>]*>(.+?)</ol>`s';와 같이 만들어 집니다.
<ol[^>]+id 이렇게 한것은
ol 과 id 사이에 클래스나 다른 것들이 들어올 가능성이 있기 때문입니다.
[^>]* 으로 해도 되지만 [^>]+ 한 이유는 반드시 공백이라도 들어가야 하기 때문이고
olid 이렇게 겹친경우를 방지 하기 위해서 입니다.
(.+?) 이것은 .+ 한것을 찾되 전체 패턴에서 최초로 일치하는 선까지만 찾겟다는 것입니다.
현재 다음 내용에서는 </ol>이 한번밖에 사용되지 않았지만,
다른 내용이 추가 되어 그 뒤로 </ol> 이 여러번 있을 경우를 대비하는 것입니다.
preg_match('`<ol[^>]+id="issueRank"[^>]*>(.+?)</ol>`s', $html, $m1);
print_r($m1);
3. 1차적으로 잘라온 문자열에서 자신이 필요한 정보들을 모두 뽑습니다.
필요한 정보들을 모두 뽑으니까 preg_match_all 을 사용합니다.
필요한 정보들은
<li class="rank_li #issue"><div class="rank first"><a href="http://search.daum.net/search?w=tot&rtupcate=issue&q=%EC%98%81%ED%99%94%EB%B0%B0%EC%9A%B0+%EC%9A%B0%EB%B4%89%EC%8B%9D&guide=rissue&rtupcoll=DQP,NNS&DA=ATGF" class="@1">영화배우 우봉식</a><span class="status new">new</span></div></li>이러한 형태를 가지는데,
경우에따라 class 부분이 다르거나 하는 경우가 존재합니다.
첫번째것의 경우에는 <div class="rank first"> 와 같이 first 가 추가로 더 들어간것처럼 말입니다.
패턴은
'`<li[^>]*><div[^>]*><a[^>]+href="([^"]+)"[^>]*>(.+?)</a><span class="status([^"]*)">(.*?)</span>`'이런식으로 만들면 되는데,
패턴 문자열을 싸는 것은 위와 마찬가지로 ' 를 사용하고
패턴 구분자는 ` 을 사용하였습니다.
모두 li 로 싸여 있기 때문에 <li[^>]*> 로 했습니다.
li 외에 id 나 class 등이 있던 없던 상관이 없다는 뜻입니다.
<div[^>]*> 이것 역시 마찬가지의 의미입니다.
<a[^>]+href="([^"]+)"[^>]*> 이렇게 한 이유는 링크만 필요하고 나머지 문자열에는 영향을 받지 않기 위해서입니다.
(.+?) 이것역시 위에서 설명했듯이 최초로 일치하는 것까지만 찾기 위해서입니다.
? 를 붙이지 않으면 맨뒤의 </a> 앞에 까지가 매치되어집니다.
<span class="status([^"]*)">(.*?)</span> 이부분은 키워드의 순위 변동사항을 알려주는 부분인데,
변동사항은 클래스로 알려주기 때문에 특정 클래스를 따로 뽑기 위해서 사용하였습니다.
preg_match_all('`<li[^>]*><div[^>]*><a[^>]+href="([^"]+)"[^>]*>(.+?)</a><span class="status([^"]*)">(.*?)</span>`', $m1[1], $m2);
print_r($m2);
댓글 10개
게시글 목록
| 번호 | 제목 |
|---|---|
| 8265 | |
| 20403 | |
| 20402 | |
| 20401 | |
| 20400 |
웹서버
서버 동시접속자 설정 변경하기
|
| 8259 | |
| 20399 | |
| 20398 | |
| 8255 | |
| 8249 | |
| 8246 | |
| 8242 | |
| 20396 | |
| 8240 | |
| 20395 | |
| 20394 |
MySQL
테이블 복사 쿼리
|
| 31033 | |
| 28385 | |
| 20393 |
PHP
현재 접속중인 사용자 나타내기
|
| 28380 | |
| 20392 |
MySQL
mysql select 후 update 하기
|
| 28377 | |
| 20391 | |
| 20390 |
PHP
한글문자열 자르는 법 입니다.
|
| 20389 | |
| 20388 | |
| 20387 |
PHP
이메일주소 검사하기 입니다.
|
| 20386 | |
| 20385 | |
| 20384 |
node.js
Node js 게시판 프로젝트 소개합니다.
|
| 20383 |
PHP
pc 모바일 체크
1
|
| 20382 |
PHP
계정 사용량(용량) 확인
|
| 8238 | |
| 20380 | |
| 20379 |
MySQL
소수점 반올림 버림
|
| 28376 | |
| 28372 | |
| 20378 | |
| 20377 |
PHP
에러 로그파일 생성하기
|
| 8235 | |
| 20375 | |
| 20374 | |
| 20373 |
PHP
후이즈검색 하기 입니다.
|
| 20372 |
PHP
그래프 그리기 입니다.
|
| 20371 |
JavaScript
자바스크립트로 구현한 number_format() 입니다.
|
| 20370 |
JavaScript
금액 관련 숫자를 한글로 변환하기 입니다.
|
| 28370 | |
| 20369 |
PHP
PHP 날짜 계산 관련 함수
|
| 28366 | |
| 20368 |
jQuery
jQuery 1.x와 2.x 버전 동시에 사용하기
|
| 20367 | |
| 20366 | |
| 20365 |
JavaScript
사업자 등록번호 검사하기 입니다.
|
| 20364 | |
| 20363 |
JavaScript
항상 같은곳에 광고창 만들기 입니다.
|
| 20362 |
JavaScript
부메뉴 나오게 하기 입니다.
|
| 20361 |
JavaScript
특정문자 제거하기 입니다.
|
| 20360 |
JavaScript
휴대폰번호 검사 하기 입니다.
|
| 20359 |
JavaScript
이미지 좌우로 이동 갤러리 입니다.
|
| 8231 | |
| 20358 | |
| 20357 |
JavaScript
쉬운 replaceAll 입니다.
|
| 20356 | |
| 20355 | |
| 20354 | |
| 20353 | |
| 20352 |
JavaScript
콤보스타일 메뉴 입니다.
|
| 20351 |
JavaScript
쿠키를 이용한 레이어 공지창 입니다.
|
| 20350 |
JavaScript
효과있는 텍스트 틱커 입니다.
|
| 20349 | |
| 20348 |
PHP
HTTP 인증 하기 입니다.
|
| 20347 |
JavaScript
외부 문서 불러오기 입니다.
|
| 20346 |
JavaScript
지정한 날짜까지 New 이미지를 띄워주기 입니다.
|
| 20345 | |
| 20344 |
JavaScript
메일 주소 검사하기 체크박스 입니다.
|
| 20343 |
JavaScript
무단링크 금지하기 입니다.
|
| 20342 | |
| 20341 |
MySQL
DB백업 및 복원
|
| 20340 |
JavaScript
페이지가 다른 사이트의 프레임에 갇히는 것을 막기 입니다.
|
| 20339 | |
| 20338 | |
| 20337 |
jQuery
input text 대문자만 받는 Jquery
|
| 20336 | |
| 20335 |
JavaScript
이미지 업로드와 미리보기 입니다.
|
| 20334 |
JavaScript
배경음악 랜덤 재생 하기 입니다.
|
| 20333 |
JavaScript
css 지원 여부 확인해서 다른 페이지로 이동하기 입니다.
|
| 20332 |
JavaScript
하부메뉴가 보였다가 숨겨졌다 하는 토글버튼 입니다.
|
| 20331 |
JavaScript
개별 페이지에 인덱스로 거쳐 들어오게 하기 입니다.
|
| 20330 |
JavaScript
랜덤으로 이미지 출력 되기 입니다.
|
| 20329 |
JavaScript
사용자 해상도 알아내기 입니다.
|
| 20328 |
JavaScript
붙여넣기 금지하기 입니다.
|
| 20327 |
MySQL
대소문자 데이터 조회하기
|
| 20326 |
JavaScript
퇴장시 팝업창 한번한 띄우기 입니다.
|
| 20325 | |
| 20324 | |
| 20323 |
JavaScript
시도, 구군, 동 주소 select
|
| 20322 |
MySQL
커리로 DB 테이블 명세서 출력하기
|
| 20321 |
JavaScript
브라우저 해상도 구분없는 절대 x,y 좌표 값 구하기 입니다
|
| 20320 |
PHP
rss 읽어오기 입니다.
|
| 20319 |
JavaScript
자바스크립트로 Ajax 효과내기 입니다.
|
댓글 작성
댓글을 작성하시려면 로그인이 필요합니다.
로그인하기