Categories


Tags


搜索引擎收录网页的四个阶段

作为SEO从业者,不仅要被搜索引擎抓取,还要被收录,最重要的是在收录后有良好的排名,本文将简单分析下搜索引擎收录网页的四个阶段。每个网站、每个网页的排名都是不一样的,看看你的网站处于哪个阶段呢?

搜索引擎收录网页的四个阶段 PageRank 搜索引擎 建站教程 第1张

网页收录第一阶段:大小通吃

搜索引擎的网页抓取都是采取「大小通吃」的策略,也就是把网页中能发现的链接逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来,这种方式虽然比较古老,但效果很好,这就是为什么很多站长反应蜘蛛来访问了,但没有收录的原因,这仅仅是第一阶段。

网页收录第二阶段:网页评级

而第二阶段则是对网页的重要性进行评级,PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序,这就是各位热衷的「发外链」,据一位朋友了解,在中国「发外链」这个市场每年有上亿元的规模。

爬虫的目的就是去下载网页,但PageRank是个全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。

网页收录第三阶段:OCIP策略

OCIP策略更像是PageRank算法的改进。在算法开始之前,每个网页都给予相同的「现金」,每当下载某个页面A后,A将自己的「现金」平均分给页面中包含的链接页面,把自己的「现金」清空。这就是为什么导出的链接越少,权重会越高的原因之一。

而对于待抓取的网页,会根据手头拥有的现金多少排序,优先下载现金最充裕的网页,OCIP大致与PageRank思路一致,区别在于:PageRank每次要迭代计算,而OCIP则不需要,所以计算速度远远快于PageRank,适合实时计算使用。这可能就是为什么很多网页会出现「秒收」的情况了。

网页收录第四阶段:大站优先策略

大站优先的思路很直接,以网站为单位来衡量网页的重要性,对于待抓取的URL队列中的网页,根据所述网站归类,如果哪个网站等待下载的页面最多,则优先下载这些链接。其本质思想是「倾向于优先下载大型网站URL」。因为大型网站往往包含更多的页面。鉴于大型网站往往是名站,其网页质量一般较高,所以这个思路虽然简单,但有一定依据。

实验表明这个算法虽然简单粗暴,但却能收录高质量网页,很有效果。这也是为什么许多网站的内容被转载后,大站却能排到你前面的最重要原因之一。

来源:卢松松博客


Public @ 2012-08-25 16:22:23

搜索引擎检索系统概述

前面简要介绍过了搜索引擎的索引系统,实际上在建立倒排索引的最后还需要有一个入库写库的过程,而为了提高效率这个过程还需要将全部term以及偏移量保存在文件头部,并且对数据进行压缩,这涉及到的过于技术化在此就不多提了。今天简要给大家介绍一下索引之后的检索系统。检索系统主要包含了五个部分,如下图所示:索引&检索.jpg(1)Query串切词分词即将用户的查询词进行分词,对之后的查询做准备,以“1

Public @ 2011-11-07 16:21:49

爬行和抓取

爬行和抓取在计算机领域中都指数据采集的过程。 爬行是指使用网络爬虫程序,通过抓取网页上的数据来建立一个数据集。例如,搜索引擎就使用网络爬虫程序来收集网页上的内容,以便用户进行搜索。 抓取则是指通过编写程序从特定的网站或数据源上抓取数据,以便进行分析或者处理。例如,电商平台可以使用抓取程序从竞争对手的网站上抓取商品价格信息,以便制定自己的价格策略。 总的来说,爬行和抓取都是数据采集的方式,只是

Public @ 2023-04-07 23:50:49

搜索引擎检索系统概述

搜索引擎检索系统是指实现引用文献资源检索、特定学科知识检索等服务的系统。包括主要用于进行引文检索的数据库管理系统、多元综合检索系统,浏览引擎,等。 其主要功能包括:引文的资源的收集、索引、目录和存储;对文献进行分类和检索;检索系统中相关检索结果的排序和显示;浏览系统中各式学术服务,比如新闻信息、拥有特定学科内容的网站;支持Web检索、模糊检索、多备份系统等功能,以确保检索准确性;在线的文献的

Public @ 2023-02-24 07:48:33

数据分析:如何追踪访客初始来源

追踪访客初始来源是非常重要的,因为它可以帮助你了解哪些渠道可以为你的网站带来最多的流量和转化。以下是一些跟踪访客初始来源的方法: 1. Google Analytics:使用Google Analytics可以轻松地追踪访客从哪个渠道进入你的网站,比如有机搜索、付费广告、社交媒体、电子邮件或直接输入URL。 2. UTM参数:使用UTM参数可以追踪特定的营销活动,比如电子邮件、社交媒体广告或G

Public @ 2023-04-11 12:50:44

更多您感兴趣的搜索

0.701345s