Categories


Tags


搜索引擎工作原理

基本流程

抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(Spider)。爬虫顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

搜索引擎的自动信息搜集功能

提交网站搜索。站长主动向搜索引擎提交网址,它在一定时间内定向向你的网站派出爬虫,扫描你的网站并将有关信息存入数据库,以备用户查询。由于搜索引擎索引规则相对于过去已发生很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此站长应该在网站内容上多下功夫,并让搜索引擎有更多机会找到你并自动将你的网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置、频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

我们想说的是您应该将您优化的重心和出发点主要放在用户体验上,因为用户才是您网站内容的主要受众,是他们通过搜索引擎找到了您的网站。过度专注于用特定的技巧获取搜索引擎自然搜索结果的排名不一定能够达到您想要的结果。

来源:搜狗资源平台


Public @ 2015-11-08 16:21:49

百度搜索引擎工作原理-4-外部投票

外部投票是指其他网站链接到你的网站的数量和质量。百度搜索引擎通过外部投票来判断你网站的权威性和可信度,因为如果其他网站链接到你的网站,说明你的内容具有一定的价值和权威性。而且,如果链接到你网站的其他网站本身也是权威性和可信度高的网站,那么你的权威性和可信度也会被提升。因此,外部投票对于提高自己网站在百度搜索引擎中的排名非常重要。 同时,需要注意的是,如果你的网站有过多的低质量或垃圾站点链接到你

Public @ 2023-05-31 01:50:17

搜索引擎抓取系统概述(一)

编者按:站长朋友们,今后定期都将在这里跟大家分享一些有关搜索引擎工作原理及网站运营相关的内容,今天先简单介绍一下关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被

Public @ 2014-01-21 16:12:36

搜索引擎排名的人工干预

虽然搜索引擎排名技术和算法一直在提高,但我相信所有搜索引擎都或多或少有人工干预,就算最标榜一切以算法和自动化为目标的Google,也肯定有人工因素。去年就曾经有人报道(http://www.searchbistro.com/index.php?/archives/19-Google-Secret-Lab,-Prelude.html),Google在很多国家的大学招募学生,进行搜索引擎结果的评价工作

Public @ 2022-08-25 16:21:50

搜索引擎检索系统概述

搜索引擎检索系统是一种利用计算机程序和算法为用户提供信息检索服务的系统。其作用是在海量的信息中快速准确地找到用户需要的信息并返回给用户。 搜索引擎检索系统包括以下几个基本部分: 1. 爬虫:负责收集互联网上的网页等信息,并将其保存到搜索引擎的数据库中。 2. 索引器:通过对网页内容进行分析和加工处理,建立一张包含关键词和网页链接的索引表,以便搜索引擎能够快速地响应用户的检索请求。 3. 检

Public @ 2023-06-09 01:50:15

更多您感兴趣的搜索

0.567457s