테스트 사이트 - 개발 중인 베타 버전입니다

바트파싱에 대해 질문드립니다.

크크지지 7년 전 조회 1,869

안녕하세요?

 

바트파싱을 하고있는데..

 

본문내용 이미지 다운로드실패라는 에러가 자꾸 뜨네요..

 

이게 뭐 디버깅이 가능한것도 아니고..

 

내부적인 구조를 모르니

 

어떤 프로세스를 거쳐서 다운로드 하는지 정말 모르겠습니다..

 

샘플로 작성된것을보면

 

이미지이미지이미지

 

를 추출하게되어있어서 

 

똑같이 해보았는데..

 

정규표현식 도구에서는

 

파싱하려하는 페이지가 다르기때문에

이미지이미지
정도 나오게끔 정규식을 작성하여 던지는데

자꾸 실패를해서..

 

혹시 본문내용 파싱 플로우가 어떻게 이루어지는지 설명좀 부탁드릴수 있을까요?

댓글을 작성하려면 로그인이 필요합니다.

답변 1개

플로우는 아래와 같습니다.

1. 먼저 해당 정규식으로 본문 html 을 가져옵니다

2. 본문 html 에서 같은 이미지 관련 태그를 뽑아옵니다.

3. 이미지의 url 을 뽑아서 다운로드 받습니다.

4. 의 src 부분을 다운로드한 파일경로로 치환합니다.

 

/lib/bart/file_crawler.php 에서 downloadImage() 함수에 해당 태그를 뽑아서 처리하는 부분이 있습니다.

로그인 후 평가할 수 있습니다

댓글을 작성하려면 로그인이 필요합니다.

답변을 작성하려면 로그인이 필요합니다.

로그인