테스트 사이트 - 개발 중인 베타 버전입니다

로그인페이지 크롤링 TIP

· 3년 전 · 2341 · 4

크롤링 하다보면 로그인을 해야만 하는 페이지가 꼭 있습니다.

이럴때는 snoopy를 이용하시고 정상적으로 id와 passwd값을 request해도 안된다면 보통 쿠키에 문제가 있는거 같습니다. 로그인 하면서 session도 저장해주시고 다시 페이지에 접근을 하면 해당페이지를 크롤링하실 수 있습니다.

 

$snoopy = new Snoopy;

 

$uri = '로그인 페이지 주소';

$snoopy->httpmethod = "POST";

$auth['loginId'] = 'id';

$auth['password'] = 'passwd';

 

$snoopy->submit($uri,$auth);

$snoopy->setcookies();

$temp_cookie = $snoopy->cookies; // 쿠키 가져오기

 

이후 헤더에 쿠키값 넣고 다시 크롤링 요청을 하시면 됩니다~

댓글 작성

댓글을 작성하시려면 로그인이 필요합니다.

로그인하기

댓글 4개

3년 전
감사합니다!
감사합니다!
3년 전
감사합니다
감사합니다.

게시글 목록

번호 제목
19430
19420
19398
19387
19379
19371
19358
19354
19345
19343
19330
19322
19303
19296
19283
19274
19256
19244
19238
19230
19229
19219
19201
19184
19183
19177
19153
19133
19132
19090