답변 2개
채택된 답변
+20 포인트
8년 전
특정사이트가 새로운 글등록시 알려주지 않고서는
1초에 한번씩 타겟 사이트를 체크 하면서 크롤링해야 합니다.
리눅스 같은경우 1분에 한번씩 crontab 으로 가능하지만 1초에 한번씩 작동 하게 하려면 약간의작업이 더 필요합니다.
https://serverfault.com/questions/246044/how-can-i-schedule-a-cron-job-that-runs-every-10-seconds-in-linux">https://serverfault.com/questions/246044/how-can-i-schedule-a-cron-job-that-runs-every-10-seconds-in-linux
하지만 크롤링 프로그램에서 이전에 돌고있는 프로세스가 있는지 체크해서 안돌고있을때만 돌아가게끔 하는 로직이 필요합니다. 안그러면 크롤링 프로그램이 한번 지연되면 중복으로 여러건이 등록되거나
한번에 크롤링 프로그램이 여러개가 떠서 메모리가 부족해지는 경우도 있습니다.
로그인 후 평가할 수 있습니다
답변에 대한 댓글 1개
f
fear
8년 전
감사합니다!
댓글을 작성하려면 로그인이 필요합니다.
답변을 작성하려면 로그인이 필요합니다.
로그인