nginx 에서 크롤러 봇(crawler bot) 막기

리자

· 5년 전 · 조회 4935 4935 · 댓글 5 5

보통 웹사이트의 / 루트 디렉토리에 robots.txt 를 작성하면 크롤러가 잘 알아서 들어오던지, 피해가던지 해야 하는데 그런 기대를 하는 것은 무리인것 같습니다.

작성한대로 따라주지 않으니 방문자 확보에 도움이 안되고 무작정 퍼가기만 하는 크롤러는 막는게 서로(?)에게 좋습니다.

nginx 의 설정 파일에 다음과 같이 작성합니다.

그럼 robots.txt 를 무시하는 크롤러를 막을 수 있습니다.

map $http_user_agent $limit_bots {
default 0;
~*(bingbot|FeedDemon|GrapeshotCrawler|DuckDuckBot|MegaIndex) 1;
~*(VelenPublicWebCrawler|SimplePie|YandexBot|SCMGUARD|DotBot) 1;
~*(AhrefsBot|SemrushBot) 1;
}

server {

location / {
if ($limit_bots = 1) {
return 403;
}

}

location ~ \.php$ {

if ($limit_bots = 1) {
return 403;
}

}

# systemctl reload nginx

nginx 를 reload 한 후 log 를 살펴 보면

[2020-04-06T09:48:27+09:00] 200 - "GET /cma
[2020-04-06T09:48:29+09:00] 403 - "GET /qa/\compatible; SemrushBot/6~bl; +http://www.semrush.com/bot.html)" "-" "-"
[2020-04-06T09:47:58+09:00] 403 - "GET /ds_\ +http://yandex.com/bots)" "-" "-"
[2020-04-06T09:47:58+09:00] 403 - "GET /qa/\"-" "Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensite
[2020-04-06T09:47:59+09:00] 403 - "GET /so_\0; +http://yandex.com/bots)" "-" "-"
[2020-04-06T09:48:00+09:00] 403 - "GET /qa/\Bot/6~bl; +http://www.semrush.com/bot.html)" "-" "-"
[2020-04-06T09:48:01+09:00] 200 - "GET /qa/

위와 같이 잘 막고 있는 것을 확인 할 수 있습니다.

댓글 작성

댓글을 작성하시려면 로그인이 필요합니다.

로그인하기

댓글 5개

뉴욕쌍화차

프로필 보기 이 회원 글보기

5년 전

좋은정보 감사합니다.

우성짱

프로필 보기 이 회원 글보기

5년 전

감사합니다.

DawnDew

프로필 보기 이 회원 글보기

5년 전

감사합니다

헬로에브리원

프로필 보기 이 회원 글보기

5년 전

운영자님 정말 몰라서 궁금해서 질문드립니다

duckduck 이런덴 검색사이트로 아는데
검색엔진에 올라가 홍보에 도움주지않는가요?

구글도있는데 위에 운영자님께서 bot는 없는듯한데
그건 홍보에 도움 되서 뺀건가요??

만수킴

프로필 보기 이 회원 글보기

5년 전

좋은 정보 감사해요~

게시글 목록

번호	제목	글쓴이	조회	날짜
17591	node.js 노드로 멀티스레드 기능 구현하기 2	swallow	1,096	2년 전
17590	PHP PHP에서 대량의 푸시 메시지를 보내기 위한 팁 5	swallow	2,517	2년 전
17589	PHP PHP로 인쇄명령주기 1	swallow	1,280	2년 전
17588	JavaScript Javascript로 JSON데이터를 보기좋게 만들기	swallow	678	2년 전
17587	node.js NodeJS에서 콘솔명령 실행하고 그 리턴값을 파일로 저장하기	swallow	661	2년 전
17584	node.js NodeJS CORS (Cross-Origin Resource Sharing) 허용하기 2	swallow	770	2년 전
17583	MySQL MySQL과 PostgreSQL의 우단점	swallow	793	2년 전
17582	MySQL 프로시저 cursor 사용 예	하얀감자	770	2년 전
17581	JavaScript 바닐라 ajax 파일업로드 예제	비타주리	972	2년 전
17579	웹서버 PHP에서 CORS (Cross-Origin Resource Sharing) 허용하기 1	swallow	3,981	2년 전
17577	PHP PHP로 AES-256-GCM 복호화	swallow	892	2년 전
17575	PHP PHP와 NodeJS의 강점 2	swallow	1,372	2년 전
17574	기타 트래픽 로그(실시간?) 그래프로 보기?	Tak2	746	2년 전
17573	jQuery jquery datepicker 선택한 날짜의 요일을 얻기	swallow	2,025	2년 전
17572	크롤러 *업데이트	Tak2	608	2년 전
17569	게시글 본문에서 qr코드 출력 (gpt) 3	Tak2	1,162	2년 전
17564	웹사이트 크롤러 4	Tak2	1,064	2년 전
17560	PHP PHP에서 가상 게이트웨이를 구현하여 패킷 라우팅 1	swallow	1,017	2년 전
17559	MySQL 프로시저 기본편	하얀감자	718	2년 전
17555	PHP PHP에서 특정 네트워크 인터페이스(망카드)를 선택하여 통신 2	swallow	833	2년 전
17554	PHP PHP로 웹소켓서버를 창조하는 방법 한가지 1	swallow	1,806	2년 전
17553	PHP MSSQL서버에 접속하지 못할때	슈퍼디브	571	2년 전
17552	node.js NodeJS로 ffmpeg 사용하여 rtsp 데이터를 websocket 으로 방송하기 2	swallow	4,074	2년 전
17549	PHP PHP로 백그라운드 서비스를 실행하는 방법 1	swallow	1,310	2년 전
17548	기타 이전글,다음글 기능이 안되는 경우	techstar	553	2년 전
17547	PHP 아파치, PHP에서 MSSQL 리용할때	슈퍼디브	644	2년 전
17542	MVC구조의 PHP프레임워크들이 꼭 사용하는 spl_autoload_register() 4	swallow	898	2년 전
17533	mp4 미디어바 중앙정렬 8	비타주리	867	2년 전
17531	Laravel에서 php artisan migrate --seed 실행시 "Specified key was too long error" 오류발생 1	슈퍼디브	515	2년 전
17524	상단으로 를 상하 이동 및 퍼센트 표시 하기 6	들레아빠	989	2년 전

이전 다음

4 5 6 7 8

전체 목록

강좌