Categories


Tags


BaiDuSpider百度蜘蛛占用流量,robots.txt设置

注:以下BaiDuSpider等于百度蜘蛛、Googlebot等于google蜘蛛、Sogou Spider等于搜狗蜘蛛

一、问题

因某些原因,搜索引擎蜘蛛抓取网站占用很大流量,如图:

网站访问日志也可看见很多蜘蛛爬行记录。

如果是正常的搜索引擎蜘蛛访问,不建议对蜘蛛进行禁止,否则网站在百度等搜索引擎中的收录和排名将会丢失,造成客户流失等损失。可以优先考虑升级虚拟主机型号以获得更多的流量或升级为云服务器(不限流量)。

二、认识、学习

我们知道,搜索引擎都遵守互联网robots协议,可通过robots.txt来进行限制。先对robots.txt一些实例说明,然后根据上面网站情况进行规则设置,通过上面截图可以看出BaiDuSpider占用流量非常大,首先在网站跟目录下面建立一个robots.txt文件。

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)

User-agent: *

Allow:

例3. 禁止某个搜索引擎的访问(禁止BaiDuSpider)

User-agent: BaiDuSpider

Disallow: /

例4. 允许某个搜索引擎的访问

User-agent: Baiduspider

allow:/

例5.禁止二个目录搜索引擎访问

User-agent: *

Disallow: /admin/

Disallow: /install/

例6. 仅允许Baiduspider以及Googlebot访问

User-agent: Baiduspider

Allow: /

User-agent: Googlebot

Allow: /

User-agent: *

Disallow: /

例7. 禁止百度搜索引擎抓取你网站上的所有图片

User-agent: Baiduspider

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

三、     问题解决(规则设置)

根据以上实例,经过分析网站日志,主要是百度抓取图片占用了流量,他还有两个目录也不希望搜索引擎抓取,设置规则如下解决:

User-agent: *

Disallow: /admin/

Disallow: /install/

User-agent: Baiduspider

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

因为搜索引擎索引数据库的更新需要时间。虽然蜘蛛已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。也就是说设置限制之后日志还会看见蜘蛛爬行,逐渐会降低抓取直到完全生效,这种问题会持续一段时间。如果您需要尽快屏蔽,访问以下帮助中心进行投诉,搜索引擎就会较快处理。

如果设置后无效(或部分蜘蛛不遵守robots协议,可以用:使用伪静态规则拦截蜘蛛访问 http://www.west.cn/faq/list.asp?unid=662 )

四、Baiduspider抓取次数太多造成的带宽堵塞,影响网站正常访问如何解决?

访问百度站长工具http://zhanzhang.baidu.com/ ,注册用户名登录,先添加网站通过验证。

然后到网页抓取》抓取频次》当前抓取频次过大如何解决?提示内容:

您可以按照如下方法依次进行排查及解决频次过大问题:

1、如果您觉得Baiduspider 抓取了您认为的无价值链接, 请更新网站robots.txt进行屏蔽抓取,然后到robots工具页面操作生效。

2、如果Baiduspider的抓取影响了您网站的正常访问,请到抓取频次上限调整页面进行抓取频次上限下调。

3、若以上方法均不能解决问题,请到反馈中心反馈

建议采用第二个方法,调整百度抓取频次上限。以下截图为“频次上限调整页面”,如影响访问,可把值适当调整小。

1.png

五、     知识加强

为更详细了解蜘蛛爬行原理和robots.txt写法,建议详细阅读以下标准资料:

其他办法: 使用伪静态规则拦截蜘蛛访问  http://www.west.cn/faq/list.asp?unid=662

BaiDuSpider帮助中心    http://www.baidu.com/search/spider.html

Googlebot帮助中心    http://support.google.com/webmasters/bin/answer.py?hl=zh-Hans&answer=182072

Sogou Spider帮助中心  http://www.sogou.com/docs/help/webmasters.htm

Robots.txt 详细介绍:http://baike.baidu.com/view/1280732.htm

baidu提供标准robots.txt写法:http://www.baidu.com/search/robots.html

如果按流程禁止了百度蜘蛛访问但是仍有百度蜘蛛访问的,请直接反馈给百度公司调查处理:

http://tousu.baidu.com/webmaster/suggest#1

http://zhanzhang.baidu.com/feedback/index

来源:西部数码


Public @ 2009-04-20 15:56:40

360搜索蜘蛛IP段及蜘蛛ip被拦截的问题解决方法

搜索蜘蛛IP段 1、百度蜘蛛:220.181.100-220.181.111 2、360搜索蜘蛛:36.110.0-36.110.255 3、新浪蜘蛛:61.135.160-61.135.160 4、搜狗蜘蛛:182.118.7-182.118.15 蜘蛛IP被拦截的问题解决方法 1、根据不同的蜘蛛IP段添加搜索蜘蛛的IP白名单,以免被拦截; 2、根据不同的蜘蛛访问网站的添加Us

Public @ 2023-02-24 20:00:29

Baiduspider对一个网站服务器造成的访问压力如何?

为了达到对目标资源较好的检索效果,Baiduspider需要对您的网站保持一定量的抓取。我们尽量不给网站带来不合理的负担,并会根据服务器承受能力,网站质量,网站更新等综合因素来进行调整。如果您觉得baiduspider的访问行为有任何不合理的情况,您可以反馈至反馈中心

Public @ 2020-03-29 15:56:49

百度Spider升级HTTPS抓取公告

8月份百度Spider升级了对HTTPS数据的抓取力度,HTTPS数据将更快被Spider抓取到。如网站还在做HTTPS的改造,且网站数据未搭建好,建议网站采取以下措施,避免Spider抓取,以免造成网站流量损失1、把HTTPS的协议封掉,可把443端口关掉;2、做HTTPS到http的301;3、建议站点在改HTTPS没改造好之前,不要提供超链接指向,以免被Spider抓到HTTPS。4、针对一

Public @ 2011-03-28 15:38:47

更多您感兴趣的搜索

0.101970s