테스트 사이트 - 개발 중인 베타 버전입니다

크롤링(웹로봇) 질문입니다. 채택완료

진강산가재 2년 전 조회 2,011

php로 코딩되는 웹문서는 

웹페이지 보기에서 소스 전체가 표시되어 

그걸 parsing해서 데이타를 가져올 수 있잖아요?

 

그런데 요즘은

jquery나 자바스크립트 방식으로 처리되서 그런지.,

 

웹브라우저에서는 보이는데

페이지 보기에는 자바스크립트 코드만 보입니다.

 

이를 크롤링(웹로봇) 할 수 있는 방법이 있나요?

 

 

댓글을 작성하려면 로그인이 필요합니다.

답변 2개

채택된 답변
+20 포인트
M
2년 전

SPA 페이지들은 파이썬+셀레니움 으로 파싱을 많이 합니다.

로그인 후 평가할 수 있습니다

답변에 대한 댓글 1개

진강산가재
2년 전
감사합니다. 이론상으로 웹페이지에 보여지는 데이타는 거의 다 파싱할 수 있나요?
가령 네이버 블로그 내용이나 네이버의 맛집 정보등이요.

웹페이지 소스보기에서는 보이지 않아서요....

댓글을 작성하려면 로그인이 필요합니다.

M
2년 전

셀레니움을 사용하면 브라우저에서 보는것들을 동일하게 볼수 있고

사용자가 클릭해서 보는것처럼 동작하면서 해당 내용들을 파싱 할수 있습니다.

한번 작업해 놓으시면 디자인이 바뀌기 전까지는 계속 사용하실수 있습니다.

로그인 후 평가할 수 있습니다

답변에 대한 댓글 1개

진강산가재
2년 전
감사합니다.

댓글을 작성하려면 로그인이 필요합니다.

답변을 작성하려면 로그인이 필요합니다.

로그인