搜索引擎收录网页的四个阶段_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

搜索引擎收录网页的四个阶段

作为SEO从业者，不仅要被搜索引擎抓取，还要被收录，最重要的是在收录后有良好的排名，本文将简单分析下搜索引擎收录网页的四个阶段。每个网站、每个网页的排名都是不一样的，看看你的网站处于哪个阶段呢?

搜索引擎收录网页的四个阶段 PageRank 搜索引擎建站教程第1张

网页收录第一阶段：大小通吃

搜索引擎的网页抓取都是采取「大小通吃」的策略，也就是把网页中能发现的链接逐一加入到待抓取URL中，机械性的将新抓取的网页中的URL提取出来，这种方式虽然比较古老，但效果很好，这就是为什么很多站长反应蜘蛛来访问了，但没有收录的原因，这仅仅是第一阶段。

网页收录第二阶段：网页评级

而第二阶段则是对网页的重要性进行评级，PageRank是一种著名的链接分析算法，可以用来衡量网页的重要性，很自然的，站长可以用PageRank的思路来对URL进行排序，这就是各位热衷的「发外链」，据一位朋友了解，在中国「发外链」这个市场每年有上亿元的规模。

爬虫的目的就是去下载网页，但PageRank是个全局性算法，也就是当所有网页有下载完成后，其计算结果才是可靠的。对于中小网站来讲，服务器如果质量不好，如果在抓取过程中，只看到部分内容，在抓取阶段是无法获得可靠的PageRank得分。

网页收录第三阶段：OCIP策略

OCIP策略更像是PageRank算法的改进。在算法开始之前，每个网页都给予相同的「现金」，每当下载某个页面A后，A将自己的「现金」平均分给页面中包含的链接页面，把自己的「现金」清空。这就是为什么导出的链接越少，权重会越高的原因之一。

而对于待抓取的网页，会根据手头拥有的现金多少排序，优先下载现金最充裕的网页，OCIP大致与PageRank思路一致，区别在于：PageRank每次要迭代计算，而OCIP则不需要，所以计算速度远远快于PageRank，适合实时计算使用。这可能就是为什么很多网页会出现「秒收」的情况了。

网页收录第四阶段：大站优先策略

大站优先的思路很直接，以网站为单位来衡量网页的重要性，对于待抓取的URL队列中的网页，根据所述网站归类，如果哪个网站等待下载的页面最多，则优先下载这些链接。其本质思想是「倾向于优先下载大型网站URL」。因为大型网站往往包含更多的页面。鉴于大型网站往往是名站，其网页质量一般较高，所以这个思路虽然简单，但有一定依据。

实验表明这个算法虽然简单粗暴，但却能收录高质量网页，很有效果。这也是为什么许多网站的内容被转载后，大站却能排到你前面的最重要原因之一。

来源：卢松松博客

Public @ 2012-08-25 16:22:23

Categories

Tags

搜索引擎收录网页的四个阶段

搜索引擎工作的基础流程与原理

爬行和抓取

搜索引擎中各关键功能模块功能简介

搜索引擎网页去重算法分析

更多您感兴趣的搜索