屏蔽Baidu等搜索引擎的爬虫

正当我为SEO忧心重重的时候,有朋友竟然问我如何做到禁止Baidu等爬虫来收录网站,也就是说反SEO。真是林子大了什么鸟都有啊~

最简单的手段主要是通过robots.txt以及.htaccess文件,来禁止某些spider的User-Agent标识。当然前提是这些Spider都是正规的搜索引擎,不会耍流氓去伪装别的User-Agent标识。

※对付那些经常伪装User-Agent的恶意爬虫,这些正规套路并不管用,一般需要采用封堵IP地址等更严厉的办法。

方法1. 在网站的根目录下的robots.txt文件中增加以下代码:

User-agent: Baiduspider
User-agent: Baiduspider-video
User-agent: Baiduspider-image
Disallow: /

User-agent: sogou spider
Disallow: /

User-agent: YoudaoBot
Disallow: /

方法2. 在网站的根目录下的.htaccess文件中增加以下代码:

#屏蔽百度,搜狗,有道的爬虫
RewriteBase /
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Sogou
RewriteCond %{HTTP_USER_AGENT} ^YoudaoBot
RewriteRule ^.*$ - [F]

还有更彻底的办法就是通过iptables之类的防火墙软件,将这些爬虫的ip地址全部屏蔽。但是这个方法的难点在于不太好掌握所有爬虫的IP地址,而且这些IP地址会不定期的发生变化。

参考网站:http://searchenginewatch.com/article/2067357/Bye-bye-Crawler-Blocking-the-Parasites

Share Comments
comments powered by Disqus