Categories


Tags


如何提高spider抓取网站?提高spider抓取策略(2)

上一篇文章中,给大家简单介绍了提高spider抓取网站策略的两大方法,另外还有五个策略接着给分享给大家。

如果没有浏览上篇文章,可以通过以下链接查看:

【如何提高spider抓取网站?提高spider抓取策略(1)】

提高spider抓取策略有哪些?

三、多种URL重定向的识别

为了让spider能够对多种URL重定向的识别,重定向分别有三类:HTTP 30x重定向、Meta refresh重定向和JS重定向。百度目前也支持Canonical标签。

四、抓取优先级调配

想让搜索引擎抓取网站全部页面,是没有百分百的。所以需要在抓取系统设计抓取优先级调配。

抓取优先级调配包含:宽度优先遍历策略、PR优先策略、深度优先遍历策略等等。根据实际情况结合多种策略使用完善抓取效果。

五、重复URL的过滤

网站出现重复的URL过多,会引发被降权。

重复页面可以使用301重定向,在服务器端对标准URL进行定义。把不标准的URL都301重定向到标准的URL上。

六、暗网数据的获取

暗网数据指的是搜索引擎无法抓取的数据。主要因为网站上的数据都在网络数据库中,spider很难抓取中获得完整内容;其次网络环境和网站本身不符合规范等问题,导致搜索引擎无法抓取。

解决暗网数据的问题,可以通过百度站长平台数据提交的方式来解决。

七、抓取反作弊

Spider在抓取过程中会抓取到低质量页面或者是被黑的页面。通过分析URL特征、页面的大小等等原因,完善的抓取反作弊。

来源:搜外网


Public @ 2013-03-16 16:22:34

360搜索蜘蛛IP段及蜘蛛ip被拦截的问题解决方法

360搜索蜘蛛的IP段为:180.153.236.0/22 和 101.227.12.0/24,具体的IP地址视情况而定。 如果您的网站遇到了360搜索蜘蛛IP被拦截的问题,可以尝试以下解决方法: 1.检查是否误判 有些安全软件或防火墙可能会将360搜索蜘蛛误判为恶意IP,因此导致被拦截。您可以通过查看安全软件或防火墙的日志来确认是否误判,并将360搜索蜘蛛的IP地址添加到白名单中。 2.

Public @ 2023-03-31 20:00:30

搜索引擎蜘蛛劫持是什么?怎么判断是否被劫持

搜索引擎蜘蛛劫持是seo黑帽中常用的一种手法,需要一定的技术支持getshell,然后上传恶意的代码到网站根目录下面或者修改网站的一些文件,搜索引擎蜘蛛劫持的原理就是判断来访网站的是用户还是蜘蛛,如果是蜘蛛就推送一个事先准备的恶意网站,如果是用户就推送一个正常的网页1:蜘蛛判断判断访问的是用户还是蜘蛛,如果是用户就推送一个正常网页,如果是蜘蛛就推送一个恶意网页,判断方式有两种,一种是判断蜘蛛的UA

Public @ 2017-05-29 16:22:36

什么是模拟蜘蛛抓取

站长可以输入自己网站上的任何一个网址,网管工具会发出Google蜘蛛,实时抓取页面内容,并显示出抓取的HTML代码,包括服务器头信息和页面代码。另外工具也可以用来检查页面是否被黑。有时候黑客放入的代码会检查浏览器类型,如果是用户使用普通浏览器访问则返回正常内容,如果是搜索引擎蜘蛛访问,才返回黑客加上去的垃圾内容和垃圾链接。所以站长自己访问网站看不出异样,Google蜘蛛抓取到的却不是站长自己看到的

Public @ 2011-01-25 16:22:34

更多您感兴趣的搜索