nginx 에서 크롤러 봇(crawler bot) 막기

리자

· 5년 전 · 조회 4929 4929 · 댓글 5 5

보통 웹사이트의 / 루트 디렉토리에 robots.txt 를 작성하면 크롤러가 잘 알아서 들어오던지, 피해가던지 해야 하는데 그런 기대를 하는 것은 무리인것 같습니다.

작성한대로 따라주지 않으니 방문자 확보에 도움이 안되고 무작정 퍼가기만 하는 크롤러는 막는게 서로(?)에게 좋습니다.

nginx 의 설정 파일에 다음과 같이 작성합니다.

그럼 robots.txt 를 무시하는 크롤러를 막을 수 있습니다.

map $http_user_agent $limit_bots {
default 0;
~*(bingbot|FeedDemon|GrapeshotCrawler|DuckDuckBot|MegaIndex) 1;
~*(VelenPublicWebCrawler|SimplePie|YandexBot|SCMGUARD|DotBot) 1;
~*(AhrefsBot|SemrushBot) 1;
}

server {

location / {
if ($limit_bots = 1) {
return 403;
}

}

location ~ \.php$ {

if ($limit_bots = 1) {
return 403;
}

}

# systemctl reload nginx

nginx 를 reload 한 후 log 를 살펴 보면

[2020-04-06T09:48:27+09:00] 200 - "GET /cma
[2020-04-06T09:48:29+09:00] 403 - "GET /qa/\compatible; SemrushBot/6~bl; +http://www.semrush.com/bot.html)" "-" "-"
[2020-04-06T09:47:58+09:00] 403 - "GET /ds_\ +http://yandex.com/bots)" "-" "-"
[2020-04-06T09:47:58+09:00] 403 - "GET /qa/\"-" "Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensite
[2020-04-06T09:47:59+09:00] 403 - "GET /so_\0; +http://yandex.com/bots)" "-" "-"
[2020-04-06T09:48:00+09:00] 403 - "GET /qa/\Bot/6~bl; +http://www.semrush.com/bot.html)" "-" "-"
[2020-04-06T09:48:01+09:00] 200 - "GET /qa/

위와 같이 잘 막고 있는 것을 확인 할 수 있습니다.

댓글 작성

댓글을 작성하시려면 로그인이 필요합니다.

로그인하기

댓글 5개

뉴욕쌍화차

프로필 보기 이 회원 글보기

5년 전

좋은정보 감사합니다.

우성짱

프로필 보기 이 회원 글보기

5년 전

감사합니다.

DawnDew

프로필 보기 이 회원 글보기

5년 전

감사합니다

헬로에브리원

프로필 보기 이 회원 글보기

5년 전

운영자님 정말 몰라서 궁금해서 질문드립니다

duckduck 이런덴 검색사이트로 아는데
검색엔진에 올라가 홍보에 도움주지않는가요?

구글도있는데 위에 운영자님께서 bot는 없는듯한데
그건 홍보에 도움 되서 뺀건가요??

만수킴

프로필 보기 이 회원 글보기

5년 전

좋은 정보 감사해요~

게시글 목록

번호	제목	글쓴이	조회	날짜
18088	기타 간단한 전자입찰 전략 계산기 3	nekoieye	1,104	1년 전
18080	PHP if문으로 비교할게 여러개일때 (feat array_filter) 1	레오가	764	1년 전
18078	JavaScript document.querySelector 의 상수화 2	비타주리	516	1년 전
18070	JavaScript 로또데이터 자바스크립트 기본함수 7	비타주리	982	1년 전
18061	로또 최신회차 추출하기 16	비타주리	1,217	1년 전
18037	JavaScript 당첨확률 높은 로또번호 추출하기 24	비타주리	1,224	1년 전
18036	순수 CSS로 아코디언 메뉴 구현하기	그누보드이해하기	761	1년 전
18033	직관적인 컬러 찾기 ~ (컬러피커) 3	울러리	1,074	1년 전
18022	자바스크립트 응용배열 10	비타주리	1,084	1년 전
18021	PHP 웹 스크래퍼 만들기 : guzzle + dom-crawler 1	누리컴즈	793	1년 전
18020	토글, 페이지 새로고침 전 상태 유지. (브라우저 쿠키 활용)	울러리	359	1년 전
18018	가벼운 랜더링 클래스 1	BupKuuBro	568	1년 전
18004	유튜브 반응형 강제쇼츠 동영상 14	비타주리	1,046	1년 전
17999	열기 닫기 아코디언(?) 토글(?) 형식 배너 만들기 4	바트컨트롤	690	1년 전
17995	브라우저 줄였을때 브라우저의 가로스크롤 가운데로 이동시키기 3	바트컨트롤	628	1년 전
17987	PHP 메일 사진 첨부하는 방법 2	론지	793	1년 전
17982	PHP 파일업로드시 이미지 파일 특정 크기로 미리 줄여서 업로드 하기	식냥이	560	1년 전
17981	OS 오래된 파일 지우기	누리컴즈	637	1년 전
17980	기타 링크 단축기	Tak2	446	1년 전
17970	기타 파일클립(용량무제한 파일첨부관리 클라우드) 그누보드 플러그인을 써보실분 찾습니다. 7	파일키위	623	1년 전
17965	기타 [7월 개강반 무료 5분 선착순 모집]AWS 클라우드 활용 풀스택 개발자 모집	필수시리	500	1년 전
17964	기타 [7월 개강반 무료 5분 선착순 모집]인공지능,AI 핀테크 서비스 개발자 모집	필수시리	388	1년 전
17963	JavaScript 마우스 아웃시 레이어창이 안닫혀요	까망고양이	419	1년 전
17962	PHP 버튼 오버시 레이어창 1개는 되는데 2개부터 작동안함	까망고양이	487	1년 전
17960	jQuery 카카오 우편번호 jquery로 변환	dbxo	558	1년 전
17956	PHP 계좌번호 복사소스 1	WebProduct	866	1년 전
17953	Mobile br 태그 모바일에만 보여주기	슈퍼스타맨	540	1년 전
17949	기타 불량단어 말고 태그 제한 코드 쎄게 박아넣기	piadream	538	1년 전
17930	카페24서버 php7 에서 mssql 연결 안될때 활용법 3	멀티트리플	1,279	2년 전
17928	기타 유튜브 스크립트, 비메오 7	슈퍼스타맨	1,771	2년 전

이전 다음

1 2 3 4

전체 목록

강좌