공식 합법 승인을 받더라도... 크롤링은 어렵네요 > 자유게시판

자유게시판

공식 합법 승인을 받더라도... 크롤링은 어렵네요 정보

공식 합법 승인을 받더라도... 크롤링은 어렵네요

본문

기술이 어려운게 아니라

이를 처리하는 게 어렵네요

트래픽 때문에 계속 해서 해당 사이트의 자료를 가져오면 안되고

일정 시간 딜레이를 주고 가져와 화면에 뿌리자니...좀 복잡하고....

(결국 화면 새로 고침 하면 위 사이트에 다시 접근 해야 되니)

그래서 택한 방법이 가져온 데이터를 데이터 베이스에 저장 > 레디스 캐싱 > 화면에 뿌리기

그럼 디비 조회 및 해당 사이트 조회가 최소화가 될 것 같더라구요

그리고 데이터 갱신이 필요하면 갱신 버튼을 통해 갱신하기...

 

이 이상의 아이디어는 떠오르지가 않는군요 좋은 아이디어 있으시면 공유 좀 해주세요~

 

해당 게임사에 크롤링은 합법으로 공식 승인은 받았지만,

트래픽 때문에 실시간은 비허용한 상태라서 ㅎㅎ

다른 방법을 택해야만 하거든요...ㅠ (공식 사이트도 그누보드로 개발된 사이트 ㅎ)

추천
2

댓글 10개

@리자 그냥 비회원이 아니라 개개인의 회원 데이터에요

이해를 돕기 위해  sir 의 리자님의 데이터를 가져와야 한다..? 라서

크롤링도 비회원이 접근하는 데이터가 아니여서 더 힘든 것 같습니다.

 

언급하신데로 비회원으로 공개되어있는 랭킹은 크론으로 땡기더라도, 

연동한 회원수가 100명만 되어도 일정시간마다 동시에 100명이 접속하니..이것 또한 문제가 ㅠㅠ

자세한 내용을 올리시면 더더욱 좋은 방안을 받을수 있지 않을가요?
애초에 크롤링을 해서 시스템에 도입하는걸 웬만하면 안하는게 좋긴 하죠..

 애초에 API 를 개발할 수 없다고 못 박았고, 크롤링은 해도 된다...라고 해서요 ㅎㅎ

 

펌프 라고 아시려나요 ? 자기 게임 데이터를 가공 해서 다른 서비스 형태로 보여주려고 합니다.
 

예) 검색 기능 부재  / 정렬 기능 부재 등등

위에 언급 했듯이 크롤링은 허락 받은 상태여서 가져오는 건 문제가 되지 않지만, 실시간 가져오는 방식은 비허용이라고 해서요

 

(그러니깐 해당 페이지 접근 할 때 마다 그 사이트로 로그인 > 페이지 가져오기 > html 가공 > 보여주기)

 

또한, 해당 사이트의 회원 정보도 받아야 하는것도 있구요 

그래서 그 사이트 로그인 > 페이지 접근 > 크롤링 > 데이터베이스 저장 > 캐싱 > 화면에 출력 방식을 택하고 있긴 합니다.

 

혹시 이거 말고 더 좋은 프로세스가 있을까? 해서 조언을 좀 얻고자 남긴 글이였습니다!!

결국 화면 새로 고침 하면 위 사이트에 다시 접근 해야 되니

<==이것이 문제라면 코롤링 시점에 여분필드에 다음 크롤링 시간을 저장하고

현재 시각과 비교해서 크롤링을 실헹하지않도록 하면 되지않나요?

 

 

대상 사이트를 재가공해서 보여주는 형태이기 때문에 쉽지는 않겠네요.

Redis는 유효, 반유효, 만료로 구분
갱신은 큐 + 워커로 처리 (동시에 여러번 못 하게 분산 락 걸기)

원본 요청에 레이트 리밋(예: 분당 N회) 적용

원본이 제공하면 ETag / Last-Modified 활용(변경 없으면 304로 끝)

실패가 반복되면 대상 사이트 보호를 위해 대기 넣기

전체 199,928 |RSS
자유게시판 내용 검색

회원로그인