【官方说法】百度蜘蛛抓取流量暴增的原因_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

【官方说法】百度蜘蛛抓取流量暴增的原因

威海Spider 威海Baiduspider
2150

Spider对网站抓取数量突增往往给站点带来很大烦恼，纷纷找平台想要Baiduspider IP白名单，但实际上BaiduSpider IP会随时变化，所以并不敢公布出来，担心站长设置不及时影响抓取效果。百度是怎么计算分配抓取流量的呢？站点抓取流量暴增的原因有哪些呢？

总体来说，Baiduspider会根据站点规模、历史上网站每天新产出的链接数量、已抓取网页的综合质量打分等等，来综合计算抓取流量，同时兼顾站长在抓取频次工具里设置的、网站可承受的最大抓取值。

从目前追查过的抓取流量突增的case中，原因可以分为以下几种：

1， Baiduspider发现站内JS代码较多，调用大量资源针对JS代码进行解析抓取

2，百度其他部门（如商业、图片等）的spider在抓取，但流量没有控制好，sorry

3，已抓取的链接，打分不够好，垃圾过多，导致spider重新抓取

4，站点被攻击，有人仿冒百度爬虫（推荐阅读：如何正确识别百度蜘蛛）

如果站长排除了自身问题、仿冒问题，确认BaiduSpider抓取流量过大的话，可以通过反馈中心来反馈，切记一定要提供详细的抓取日志截图。

来源：百度搜索资源平台百度搜索学堂

Public @ 2011-07-18 15:38:37

【官方说法】只需两步，正确识别百度蜘蛛（User-Agent）

威海Spider 威海Baiduspider
2189

步骤一：查看 User-Agent 信息在你的网站后台查看日志或者使用网站统计工具，可以查到每次访问你网站的 User-Agent 信息。百度蜘蛛的 User-Agent 格式如下： Baiduspider/数字（+版本信息）例如：Baiduspider/2.0、Baiduspider/2.0b等。步骤二：验证 IP 地址验证访问你网站的 IP 是否是百度蜘蛛的 IP。可以在百度

Public @ 2023-04-11 07:50:16

为什么我的网站已经加了robots.txt，还能在百度搜索出来？

威海Spider 威海Baiduspider
2668

因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页，但百度搜索引擎数据库中已经建立的网页索引信息，可能需要数月时间才会清除。另外也请检查您的robots配置是否正确。如果您的拒绝被收录需求非常急迫，也可以通过投诉平台反馈请求处理。

Public @ 2020-06-13 15:56:47

什么是Baiduspider

威海Spider 威海Baiduspider
2262

Baiduspider是百度搜索引擎的一个自动程序，它的作用是访问互联网上的网页，建立索引数据库，使用户能在百度搜索引擎中搜索到您网站上的网页。

Public @ 2013-09-01 15:56:51

如何判断是否冒充Baiduspider的抓取？

威海Spider 威海Baiduspider
2970

判断是否冒充Baiduspider的抓取可以通过以下步骤进行： 1. 查看User-Agent：Baiduspider是百度搜索引擎的爬虫程序，其User-Agent通常以"Baiduspider"开头，后面跟着版本号。如果请求的User-Agent不是以"Baiduspider"开头，就可能是冒充Baiduspider的抓取。 2. IP地址验证：冒充Baiduspider的抓取可能使用不属

Public @ 2023-07-28 05:00:22

Categories

Tags