nginx 에서 크롤러 봇(crawler bot) 막기

리자

· 5년 전 · 조회 4936 4936 · 댓글 5 5

보통 웹사이트의 / 루트 디렉토리에 robots.txt 를 작성하면 크롤러가 잘 알아서 들어오던지, 피해가던지 해야 하는데 그런 기대를 하는 것은 무리인것 같습니다.

작성한대로 따라주지 않으니 방문자 확보에 도움이 안되고 무작정 퍼가기만 하는 크롤러는 막는게 서로(?)에게 좋습니다.

nginx 의 설정 파일에 다음과 같이 작성합니다.

그럼 robots.txt 를 무시하는 크롤러를 막을 수 있습니다.

map $http_user_agent $limit_bots {
default 0;
~*(bingbot|FeedDemon|GrapeshotCrawler|DuckDuckBot|MegaIndex) 1;
~*(VelenPublicWebCrawler|SimplePie|YandexBot|SCMGUARD|DotBot) 1;
~*(AhrefsBot|SemrushBot) 1;
}

server {

location / {
if ($limit_bots = 1) {
return 403;
}

}

location ~ \.php$ {

if ($limit_bots = 1) {
return 403;
}

}

# systemctl reload nginx

nginx 를 reload 한 후 log 를 살펴 보면

[2020-04-06T09:48:27+09:00] 200 - "GET /cma
[2020-04-06T09:48:29+09:00] 403 - "GET /qa/\compatible; SemrushBot/6~bl; +http://www.semrush.com/bot.html)" "-" "-"
[2020-04-06T09:47:58+09:00] 403 - "GET /ds_\ +http://yandex.com/bots)" "-" "-"
[2020-04-06T09:47:58+09:00] 403 - "GET /qa/\"-" "Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensite
[2020-04-06T09:47:59+09:00] 403 - "GET /so_\0; +http://yandex.com/bots)" "-" "-"
[2020-04-06T09:48:00+09:00] 403 - "GET /qa/\Bot/6~bl; +http://www.semrush.com/bot.html)" "-" "-"
[2020-04-06T09:48:01+09:00] 200 - "GET /qa/

위와 같이 잘 막고 있는 것을 확인 할 수 있습니다.

댓글 작성

댓글을 작성하시려면 로그인이 필요합니다.

로그인하기

댓글 5개

뉴욕쌍화차

프로필 보기 이 회원 글보기

5년 전

좋은정보 감사합니다.

우성짱

프로필 보기 이 회원 글보기

5년 전

감사합니다.

DawnDew

프로필 보기 이 회원 글보기

5년 전

감사합니다

헬로에브리원

프로필 보기 이 회원 글보기

5년 전

운영자님 정말 몰라서 궁금해서 질문드립니다

duckduck 이런덴 검색사이트로 아는데
검색엔진에 올라가 홍보에 도움주지않는가요?

구글도있는데 위에 운영자님께서 bot는 없는듯한데
그건 홍보에 도움 되서 뺀건가요??

만수킴

프로필 보기 이 회원 글보기

5년 전

좋은 정보 감사해요~

게시글 목록

번호	제목	글쓴이	조회	날짜
17316	PHP 제로보드의 메모왔어요의 기법을 다르게 구현하면?	piadream	969	2년 전
17315	JavaScript 시계 스크립트 그런데 페이지 뜨는건 느린게 문제네...	piadream	855	2년 전
17313	PHP php 업로드 소스 4	piadream	1,769	2년 전
17312	웹서버 리눅스 압축풀기 방법 lzip 제외. 일반적 쓰는	piadream	813	2년 전
17305	PHP fopen의 꼼수? 흉내내기. 1	piadream	993	2년 전
17304	PHP happyl 페이징 다시 뜯어 no bug [ 보강 ]	piadream	858	2년 전
17298	node.js 간단한 채팅	tmp	1,291	2년 전
17294	OS 서버호스팅[ubuntu] 에 php-fpm , php5.x를 깔아야할때	지구버스	1,522	2년 전
17291	웹서버 라라벨 설치시 404 오류가 나오는 경우	리자	917	2년 전
17285	PHP ChatGPT API 예제 30	리자	6,901	2년 전
17284	JavaScript 두가지 형태의 페이지 로딩 [ 로딩중, 로딩 프로그레스바 ] 2	예뜨락	1,702	2년 전
17279	PHP 영카트 쇼핑몰 구축과 관련해서 과외해 주실 분 있을까요? 2	아노라니	930	2년 전
17272	PHP 두 날짜 사이의 날 수 구하기 2	우러러	1,416	2년 전
17271	JavaScript 관계에 따른 메뉴 구성방안 1	개노미	816	2년 전
17270	PHP valcmp() 함수 - 지정 범위에 값이 있는지 여부 체크 사용자정의함수	sinbi	906	2년 전
17262	웹서버 소프트링크(심볼릭링크) 잘못 삭제했다가 영업중인 쇼핑몰 관리자 날린 이야기 11	본연	2,405	2년 전
17255	기타 웹방화벽 캐슬 아이피 차단 안먹힐때 1	경천76	1,549	2년 전
17248	JavaScript 엘레먼트 요소에서 data 를 이벤트 핸들러로 사용하기 4	비타주리	1,195	2년 전
17241	PHP foreach()에서 next() 사용하기 3	엑스엠엘	1,507	3년 전
17238	MySQL interval에 쓸 수 있는 값 3	엑스엠엘	1,693	3년 전
17236	PHP 탈퇴합니다. 6	메리7	1,996	3년 전
17220	PHP 영카트 주소검색부분 에러문제 해결법 10	카깡	1,940	3년 전
17217	JavaScript 회원가입 2	오토소프트	1,095	3년 전
17216	PHP 자주 쓰는 제어문 대체 문법 정리해서 올립니다!	코드오타쿠	1,128	3년 전
17214	웹서버 CentOS 7 에서 MariaDB 5.5에서 10.5 업그레이드시 레포지트리 에러발생시 1	하늘뚱	1,288	3년 전
17207	OS 리눅스 Linux Public Key 추가 명령어 5	HLAB	1,923	3년 전
17205	OS 리눅스 Linux df 사용법 1	HLAB	1,406	3년 전
17203	OS 리눅스 Linux du 사용법 1	HLAB	1,792	3년 전
17201	OS 리눅스 Linux md5, sha1 해시값 확인하기 1	HLAB	1,802	3년 전
17198	OS 리눅스 Linux tmux 주요 명령어	HLAB	916	3년 전

이전 다음

7 8 9 10 11

전체 목록

강좌