Categories


Tags


Google爬行缓存代理(crawl caching proxy)

前两天人们注意到Google Adsense蜘蛛所抓取的网页会出现在搜索结果中。Matt Cutts在他的博客里迅速的做出了回应,对这种现象做了进一步解释。

简单来说,Google在完成大爸爸数据中心升级后,各种蜘蛛抓取网页的机制产生了变化。不是各个蜘蛛直接抓取网页,而是由一个爬行缓存代理crawl caching proxy抓取网页,然后不同的蜘蛛从这个缓存中获取内容,从而节省了带宽。

Matt Cutts的帖子比较完整的翻译可以在幻灭和小添的博客里看到。

我要补充的是:第一:Matt Cutts特意指出,这个新的抓取机制不会让你的网页被抓取的更快,也不会对排名有任何影响。这个爬行缓存代理也不影响各个蜘蛛本来应该爬行的频率和时间表。只不过各个蜘蛛不直接爬行网页,而是从缓存中获取。

第二:更引起我注意的是,Matt Cutts说这个爬行缓存代理是大爸爸更新之后才有的。因为运行的很顺利,在其他人发现这种现象之前,Matt Cutts自己没意识到这种新的机制已经运行了。这说明Matt Cutts并不能掌握所有各个部门的最新情况,那么还有什么是Matt Cutts也还不知道的呢?

第三:Matt Cutts讲这个机制的目标是节省带宽,而不是隐藏页面(cloaked page)检测。我觉得弦外之音是,利用同样的技术,Google完全可以用其他的蜘蛛来检测隐藏页面。当然也可能是我过度敏感了。

另外,最近很多网站出现被收录的页面数目急剧下降的现象,我怀疑和这个新的页面抓取方法造成的混乱有关。很显然不是排名算法改变导致收录的网页数目下降,而是蜘蛛爬行的问题。

来源:SEO每天一贴 Zac 昝辉


Public @ 2019-08-28 16:22:27

【干货】简单两步,教你识别百度蜘蛛

”近期,小编经常收到开发者关于“哪些蜘蛛是百度搜索的”、“如何才能正确识别百度蜘蛛”的提问。今日干货带你简单两步即可识别百度蜘蛛一、查看UA信息如果UA信息不对,可以直接判断该蜘蛛为非百度搜索的蜘蛛。目前UA分为移动、PC、和小程序三个应用场景,分别如下:【移动UA】1、Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KH

Public @ 2019-09-16 15:38:37

吸引蜘蛛抓取的影响因素

1、网站和页面权重。质量高,资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会比较高,所以会更多内页被收录。2、与首页点击距离。一般来说网站上权重最高的是首页,大部分外部链接是指向首页的,蜘蛛访问最频繁的也是首页。离首页点击距离近,页面权重越高,被蜘蛛爬行的机会也越大。3、导入链接。无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本没有机会知道

Public @ 2017-12-02 16:22:35

apache、iis6、ii7独立ip主机屏蔽拦截蜘蛛抓取(适用vps云主机服务器)

针对apache、iis6、iis7独立ip主机屏蔽拦截蜘蛛抓取的方法如下: 1. 在网站根目录下新建一个robots.txt文件,添加以下代码: User-agent: * Disallow: / 这样可以禁止所有蜘蛛抓取你的网站。 2. 在服务器端安装mod_security模块并配置,可以使用以下命令: sudo apt-get install libapache-mod-secu

Public @ 2023-03-30 01:00:40

更多您感兴趣的搜索

0.499046s