nginx 에서 크롤러 봇(crawler bot) 막기

리자

· 5년 전 · 조회 4933 4933 · 댓글 5 5

보통 웹사이트의 / 루트 디렉토리에 robots.txt 를 작성하면 크롤러가 잘 알아서 들어오던지, 피해가던지 해야 하는데 그런 기대를 하는 것은 무리인것 같습니다.

작성한대로 따라주지 않으니 방문자 확보에 도움이 안되고 무작정 퍼가기만 하는 크롤러는 막는게 서로(?)에게 좋습니다.

nginx 의 설정 파일에 다음과 같이 작성합니다.

그럼 robots.txt 를 무시하는 크롤러를 막을 수 있습니다.

map $http_user_agent $limit_bots {
default 0;
~*(bingbot|FeedDemon|GrapeshotCrawler|DuckDuckBot|MegaIndex) 1;
~*(VelenPublicWebCrawler|SimplePie|YandexBot|SCMGUARD|DotBot) 1;
~*(AhrefsBot|SemrushBot) 1;
}

server {

location / {
if ($limit_bots = 1) {
return 403;
}

}

location ~ \.php$ {

if ($limit_bots = 1) {
return 403;
}

}

# systemctl reload nginx

nginx 를 reload 한 후 log 를 살펴 보면

[2020-04-06T09:48:27+09:00] 200 - "GET /cma
[2020-04-06T09:48:29+09:00] 403 - "GET /qa/\compatible; SemrushBot/6~bl; +http://www.semrush.com/bot.html)" "-" "-"
[2020-04-06T09:47:58+09:00] 403 - "GET /ds_\ +http://yandex.com/bots)" "-" "-"
[2020-04-06T09:47:58+09:00] 403 - "GET /qa/\"-" "Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensite
[2020-04-06T09:47:59+09:00] 403 - "GET /so_\0; +http://yandex.com/bots)" "-" "-"
[2020-04-06T09:48:00+09:00] 403 - "GET /qa/\Bot/6~bl; +http://www.semrush.com/bot.html)" "-" "-"
[2020-04-06T09:48:01+09:00] 200 - "GET /qa/

위와 같이 잘 막고 있는 것을 확인 할 수 있습니다.

댓글 작성

댓글을 작성하시려면 로그인이 필요합니다.

로그인하기

댓글 5개

뉴욕쌍화차

프로필 보기 이 회원 글보기

5년 전

좋은정보 감사합니다.

우성짱

프로필 보기 이 회원 글보기

5년 전

감사합니다.

DawnDew

프로필 보기 이 회원 글보기

5년 전

감사합니다

헬로에브리원

프로필 보기 이 회원 글보기

5년 전

운영자님 정말 몰라서 궁금해서 질문드립니다

duckduck 이런덴 검색사이트로 아는데
검색엔진에 올라가 홍보에 도움주지않는가요?

구글도있는데 위에 운영자님께서 bot는 없는듯한데
그건 홍보에 도움 되서 뺀건가요??

만수킴

프로필 보기 이 회원 글보기

5년 전

좋은 정보 감사해요~

게시글 목록

번호	제목	글쓴이	조회	날짜
17043	PHP AWS Lightsail 의 PHP 8 버전에서 SSH2 서비스 사용하기 3	리자	1,493	3년 전
17042	JavaScript for 문으로 유사패턴 태그 만들기 4	비타주리	2,121	3년 전
17025	JavaScript with 블럭 사용하기 17	비타주리	2,039	3년 전
17015	기타 4 lines of CSS for a vertical responsive slideshow 3	엑스엠엘	1,413	3년 전
17001	JavaScript event listeners 찾기 3	엑스엠엘	1,959	3년 전
16998	기타 그누보드 첨부파일에서 중간에 파일을 지웠을 때, 재정렬 하기	레드불355	1,314	3년 전
16994	기타 [그누보드] 그누보드 게시판 전체와 해당글 리스트 불러오기 4	레드불355	2,248	3년 전
16988	웹서버 Amazon linux2 에 REMI 저장소를 사용하여 PHP 8.1 버전 설치하기 5	SIR개발팀	3,321	3년 전
16985	JavaScript 자바스크립트 for length / for in / for of 6	비타주리	2,054	3년 전
16983	기타 보드 설치후 메인이 정상이 아닌 원인이 뭔지요.	한길은	1,652	3년 전
16981	웹서버 AWS사용시 추가 계정 생성하여 PUTTY에 접속하는 방법	SIR개발팀	1,696	3년 전
16979	node.js 이지코드, ezcode.kr vue로 웹사이트 만들기 강좌 공유	붉은바람	1,643	3년 전
16978	JavaScript javascript 라이브러리 로다쉬 - 배열,객체, 문자열 관련 유용한 라이브러리	DogFoot개발	1,444	3년 전
16976	웹서버 그누보드 개발환경 설치 기초편 ( nginx + db + php + 그누보드 설치) 3	DogFoot개발	2,982	3년 전
16968	JavaScript javascript 자바스크립트 하루 전/후 날짜 구하기 다음달 이전달 구하기 내년 작년 날짜 구하기 3	DogFoot개발	4,022	3년 전
16967	JavaScript 상위요소 찾기 노드 3	DogFoot개발	2,094	3년 전
16957	JavaScript 자바스크립트 로컬스토리지 사용법 localStorage ( javascript localStorage ) 3	DogFoot개발	2,430	3년 전
16956	기타 윈도우11 익스플로러 11 모드 설정 ie11 ( Internet Explorer ) 4	DogFoot개발	2,486	3년 전
16955	OS 서버 이전시 scp(ssh) 가 허용되지 않은 경우 백업 처리 1	솔그루	1,647	3년 전
16951	웹서버 ubuntu에서 redis설치 와 php redis확장 모듈 설치 Redis Extension	DogFoot개발	1,721	3년 전
16950	기타 [개발환경] VirtualBox ubuntu 21 에서 windows 10, 11 공유폴더 설정	DogFoot개발	1,531	3년 전
16949	기타 GIT 클라이언트 소개 합니다.	DogFoot개발	1,666	3년 전
16932	기타 postman 4	퀀텀리프	2,275	3년 전
16930	기타 테마 및 전역변수 감추기 1	XIES	2,548	3년 전
16913	웹서버 API 제작시, Json Body 로 받는 데이타 배열로 변환해서 쓰기 2	솔루션모아	2,233	4년 전
16909	웹서버 클라우드플레어의 SSL/TLS 암호화 모드 가변을 "가변"으로 사용시 5	리자	3,234	4년 전
16906	PHP G5_SERVER_TIME 오늘, 내일 추가 5	울라프	3,193	4년 전
16905	웹서버 데스크탑에서 나스 쉽게 켜기 2	울라프	2,433	4년 전
16904	기타 2021년 CSS프레임워크 9가지 소개입니다 3	mind7	3,006	4년 전
16894	기타 [Mariadb] 10.7.0 버전에 새로 생긴 natural_sort_key() 6	DogFoot개발	2,676	4년 전

이전 다음

9 10 11 12 13

전체 목록

강좌