屏蔽百度爬虫的方法_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

屏蔽百度爬虫的方法

威海Spider 威海Baiduspider
1725

在百度C2C产品“百度有啊”即将上线的时候，淘宝网站曾经屏蔽百度搜索爬虫，禁止百度搜索引擎抓取淘宝网站的网页内容，淘宝官方的解释是“杜绝不良商家欺诈”。

在技术层面，淘宝屏蔽百度的方法是，在网站的robots.txt文件中加上如下内容：

User-agent: Baiduspider

Disallow: /

但实际上这种方法并不能完全屏蔽百度的爬虫，至今在百度上输入site:taobao.com还是可以看到内容，要不要索引网站，还是由百度说了算，要是遵守robots协议，那才不会索引，因此要想完全屏蔽百度的爬虫，需要在.htaccess中加入一些语句才可以，下面介绍两种方法。

方法1：

RewriteEngine on

RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]

RewriteRule .* - [F]

方法2：

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

Order Allow,Deny

Allow from all

Deny from env=bad_bot

</Limit>

当然，对于普通中文网站来说，还是不建议屏蔽百度的爬虫，通常情况下做一些大型的英文网站，才有必要这么做，以节省流量。

来源：月光博客

Public @ 2012-08-15 15:56:41

进入移动时代，同学们肯定会发现，百度官方和各知名SEO大拿们都在不断强调一个词：速度！最重要的莫过于，从用户点击搜索结果到页面完全加载完毕，不可超过3秒，否则有可能被限制展现（因为百度做过测试，当页面在3秒以上还无法打开的话，用户会选择关闭该网页）。于是大家各种针对速度的问题也多了起来，在深圳VIP大讲堂中，我们看到了这样一个简单的对话：同学问：站点遇到百度蜘蛛抓取，应该在多长时间内给出反馈？时间

Public @ 2015-11-08 15:38:40

BaiDuSpider百度蜘蛛占用流量,robots.txt设置

威海Spider 威海Baiduspider
1912

BaiDuSpider（百度蜘蛛）是百度搜索引擎的爬虫程序，它会访问网页并获取其中的信息，从而建立网站的索引和排名。由于百度蜘蛛需要频繁访问网站，因此它会占用网站的流量和带宽资源。为了控制百度蜘蛛的访问，网站管理员可以使用robots.txt文件进行设置。robots.txt是一个文本文件，位于网站根目录下，用于告诉搜索引擎爬虫哪些页面可以访问，哪些页面不允许访问。具体来说，可以在robots

Public @ 2023-06-10 09:00:15