Categories


Tags


搜索引擎抓取系统概述(一)

编者按:站长朋友们,今后定期都将在这里跟大家分享一些有关搜索引擎工作原理及网站运营相关的内容,今天先简单介绍一下关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。

互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被叫做:Baiduspdier、Googlebot、Sogou Web Spider等。

Spider抓取系统是搜索引擎数据来源的重要保证,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。

1、spider抓取系统的基本框架

如下为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。

2、spider抓取过程中涉及的网络协议

搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的 内容推广出去获取更多的受众。spider抓取系统直接涉及互联网资源提供者的利益,为了使搜素引擎与站长能够达到双赢,在抓取过程中双方必须遵守一定的 规范,以便于双方的数据处理及对接。这种过程中遵守的规范也就是日常中我们所说的一些网络协议。以下简单列举:

http协议:超文本传输协议,是互联网上应用最为广泛的一种网络协议,客户端和服务器端请求和应答的标准。客户端一般情况是指终端用户,服务器端即指网 站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送http请求。发送http请求会返回对应的httpheader信息,可以看到包括是否成功、服务 器类型、网页最近更新时间等内容。

https协议:实际是加密版http,一种更加安全的数据传输协议。

UA属性:UA即user-agent,是http协议中的一个属性,代表了终端的身份,向服务器端表明我是谁来干嘛,进而服务器端可以根据不同的身份来做出不同的反馈结果。

robots协议:robots.txt是搜索引擎访问一个网站时要访问的第一个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的。 robots.txt必须放在网站根目录下,且文件名要小写。详细的robots.txt写法可参考 http://www.robotstxt.org 。百度严格按照robots协议执行,另外,同样支持网页内容中添加的名为robots的meta标 签,index、follow、nofollow等指令。

3、spider抓取的基本过程

spider的基本抓取过程可以理解为如下的流程图:

如果大家对搜索引擎抓取还有别的疑问,大家可以到[学堂同学汇][学习讨论] 《 搜索引擎抓取系统概述(二)》讨论帖中发表自己的看法,我们的工作人员会关注这里并与大家进行探讨。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2014-01-21 16:12:36

数据分析:如何追踪访客初始来源

了解网站的运营情况、了解用户构成是保证网站健康持续发展的重要基础,所以看数据做分析是网站优化人员每日必做的工作。上周平台发布了《网站分析白皮书(站长版)》,本周小编又发现了一篇非常好的实战型文章《在Google Analytics中如何跟踪访客的初始来源》,作者马骏是已获得GOOGLE Analytics IQ认证的网站访客行为分析师,得知平台要转载此文章后很贴心地将原文中的英文内容都做成了中文的

Public @ 2020-09-06 16:21:48

搜索引擎怎样判断文章或网页的原始出处?

复制内容网页有的时候会影响网页排名。比如说原本是你写的文章,本来应该排名很好,但是其他人抄袭或转载你的文章,而且搜索引擎不幸的判断那篇被抄袭或转载的网页是原始出处的话,你应有的排名就会被那个网页夺走。那么搜索引擎怎样才能从多个网页中挑出哪一个是原始出处呢?可能有以下几个考虑:1)网页PR值。网页PR值越高,被认为是原始版本的可能性就越大。2)网页第一次被收录的时间。网页被搜索引擎收录的时候越早,相

Public @ 2017-04-29 16:21:50

搜索引擎抓取系统概述(二)

编者按:之前与大家分享了关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程的内容,今天将于大家分享搜索引擎抓取系统第二部分内容—spider抓取过程中的策略。spider在抓取过程中面对着复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下简单介绍一下抓取过程中涉及到的主要策

Public @ 2020-03-26 16:12:37

搜索引擎抓取系统概述(一)

编者按:站长朋友们,今后定期都将在这里跟大家分享一些有关搜索引擎工作原理及网站运营相关的内容,今天先简单介绍一下关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被

Public @ 2014-01-21 16:12:36

更多您感兴趣的搜索

0.409659s