특정 봇(검색봇)으로 인한 트래픽 발생을 방지
IP 차단이 아닌 특정 봇(검색봇) 만 차단하시고자 하는 경우
PHP 리눅스 서버에서는 .htaccess , robot.txt 각각 설정 파일들을 통해 특정 봇만 차단할 수 있습니다.
[주요 검색봇 명칭]
페이스북 : facebookexternalhit/1.1
ByteDance : Bytespider
Anthropic : ClaudeBot/1.0
구글: Googlebot
구글 이미지 : googlebot-image
네이버 : Yeti
야후 : Slurp
[.htaccess 차단방법]
SetEnvIfNoCase User-Agent "[차단할 봇명칭 입력]" go_out
예) 구글봇 차단
SetEnvIfNoCase User-Agent "Googlebot" go_out
※검색 로봇이 들어오지 못하게 할 경우 검색 포탈 사이트에 해당 홈페이지가 검색이 안될 수 있습니다.
(직접 포털 검색 사이트에 검색 등록을 했을 경우는 검색이 가능합니다.)
[robot.txt 차단방법]
[소스코드]
User-agent:* (봇명칭이 입력됩니다.)
Disallow:/ (접근제한될 디렉토리명입니다. /로 입력되는 경우 모든 페이지에 접근이 불가능합니다.)
1. 구글봇만 www/hompage 디렉토리 접근을 차단하고자 하는 경우
-----------------------------------
User-agent: Googlebot
Disallow: www/hompage
-----------------------------------
2. 구글은 허용하고, 네이버는 차단하는 경우
-----------------------------------
User-agent: Googlebot
Disallow:
User-agent: Yeti
Disallow:/
-----------------------------------