Categories


Tags


如何正确识别Baiduspider移动ua

百度站长平台发布公告宣布新版Baiduspider移动ua上线,同时公布了PC版Baiduspider UA,那么该如何正确识别移动UA呢?我们百度站长平台技术专家孙权老师给出了答案:

新版移动UA:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

PC UA:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

之前通过“+http://www.baidu.com/search/spider.html”进行识别的网站请注意!您需要修改识别方式,新的正确的识别Baiduspider移动ua的方法如下:

1. 通过关键词“Android”或者“Mobile”来进行识别,判断为移动访问或者抓取。

2. 通过关键词“Baiduspider/2.0”,判断为百度爬虫。

另外需要强调的是,对于robots封禁,如果封禁的agent是Baiduspider,会对PC和移动同时生效。即,无论是PC还是移动Baiduspider,都不会对封禁对象进行抓取。之所以要强调这一点,是发现有些代码适配站点(同一个url,PC ua打开的时候是PC页,移动ua打开的时候是移动页),想通过设置robots的agent封禁达到只让移动Baiduspider抓取的目的,但由于PC和移动Baiduspider的agent都是Baiduspider,这种方法是非常不可取的。

更多相关问题讨论,欢迎移步【学堂同学汇】《如何正确识别Baiduspider移动ua》讨论帖

来源:百度搜索资源平台 百度搜索学堂


Public @ 2010-04-10 15:38:45

如何提高spider抓取网站?提高spider抓取策略(1)

SEO网站优化SEOER,每天都要时刻关注百度蜘蛛有没有来抓取网站,抓取了网站哪些内容,没有抓取网站哪些内容,再没有抓取的页面上观察调整网站的问题。想要提高爬虫抓取频率可以从几个方面着手,简单介绍提高spider抓取网站的策略。提高spider抓取策略有哪些?一、抓取友好性:抓取压力调配降低对网站的访问压力带宽造成访问压力大,会直接影响网站的正常用户访问,为了不影响网站的正常用户访问,又能让spi

Public @ 2010-03-31 16:22:35

屏蔽百度爬虫的方法

要屏蔽百度爬虫,可以采取以下方法: 1. 使用robots.txt文件:在网站的根目录下创建一个名为robots.txt的文件,并在其中设置百度爬虫的访问限制。例如,可以使用以下指令来禁止百度爬虫访问整个网站: User-agent: Baiduspider Disallow: / 2. 使用meta标签:在网站的HTML代码中添加以下meta标签,告诉百度爬虫不要访问当前页面: 3. 使

Public @ 2023-07-27 07:50:18

如何判断是否冒充Baiduspider的抓取?

建议您使用DNS反查方式来确定抓取来源的ip是否属于百度,根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:5.1 在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.b

Public @ 2022-04-26 15:38:41

如果快照显示网页不完整,是不是说明BaiduSpider没有完整收录网页?

不一定。快照显示网页不完整可能是由于网络连接问题、快照生成错误或者网页存在动态元素等原因造成的。BaiduSpider是搜索引擎的爬虫程序,其收录网页是有一定策略和算法的,收录的网页并不是百分百完整的。因此,虽然快照显示网页不完整,但并不一定说明BaiduSpider没有完整收录网页。

Public @ 2023-06-03 22:00:09

更多您感兴趣的搜索

0.418263s