Categories


Tags


搜索引擎中各关键功能模块功能简介

(1)爬虫:从互联网爬取原始网页数据,存储于文档知识库服务器。

(2)文档知识库服务器:存储原始网页数据,通常是分布式Key-Value数据库,能根据URL/UID快速获取网页内容。

(3)索引:读取原始网页数据,解析网页,抽取有效字段,生成索引数据。索引数据的生成方式通常是增量的,分块/分片的,并会进行索引合并、优化和删除。生成的索引数据通常包括:字典数据、倒排表、正排表、文档属性等。生成的索引存储于索引服务器。

(4)索引服务器:存储索引数据,主要是倒排表,通常是分块、分片存储,并支持增量更新和删除。数据内容量非常大时,还根据类别、主题、时间、网页质量划分数据分区和分布,更好地服务在线查询。

(5)检索:读取倒排表索引,响应前端查询请求,返回相关文档列表数据。

(6)排序:对检索器返回的文档列表进行排序,基于文档和查询的相关性、文档的链接权重等属性。

(7)链接分析:收集各网页的链接数据和锚文本(Anchor Text),以此计算各网页链接评分,最终会作为网页属性参与返回结果排序。

(8)网页去重:提取各网页的相关特征属性,计算相似网页组,提供离线索引和在线查询的去重服务。

(9)网页反垃圾:收集各网页和网站历史信息,提取垃圾网页特征,从而对在线索引中的网页进行判定,去除垃圾网页。

(10)查询分析:分析用户查询,生成结构化查询请求,指派到相应的类别、主题数据服务器进行查询。

(11)页面描述/摘要:为检索和排序完成的网页列表提供相应的描述和摘要。

(12)前端:接受用户请求,分发至相应服务器,返回查询结果。


Public @ 2017-08-24 16:22:25

搜索引擎抓取系统概述(二)

在上一篇文章中,我们了解了搜索引擎抓取系统的基本组成和流程。本篇文章继续介绍搜索引擎抓取系统中的重要概念和技术。 1. 爬虫算法 搜索引擎抓取系统中最核心的算法就是爬虫算法。爬虫算法是指搜索引擎的爬虫程序根据一定的策略从互联网上抓取网页信息的过程。作为搜索引擎的核心技术之一,爬虫算法需要具备以下特点: (1)高效性:爬虫算法需要尽可能快地抓取尽可能多的页面。 (2)准确性:爬虫算法需要准确

Public @ 2023-06-21 00:50:40

百度搜索引擎工作原理-5-结果展现

结构化数据——助力站点获得更多点击网页经历了抓取建库,参与了排序计算,最终展现在搜索引擎用户面前。目前在百度搜索左侧结果展现形式很多,如:凤巢、品牌专区、自然结果等,一条自然结果怎样才能获得更多的点击,是站长要考虑的重要一环。目前自然结果里又分为两类,见下图,第一个,即结构化展现,形式比较多样。目前覆盖80%的搜索需求,即80%的关键词下会出现这种复杂展现样式;第二个即一段摘要式展现,最原始的展现

Public @ 2021-09-11 16:21:45

搜索引擎工作的基础流程与原理

搜索引擎的工作流程和原理可以概括为以下几个步骤: 1. 网络爬虫。搜索引擎会使用网络爬虫(也称为“蜘蛛”、“爬虫”或“机器人”)来自动地浏览互联网上的网页,并将这些网页内容存储到搜索引擎的数据库中。爬虫会按照一定的规则和策略遍历互联网上的所有链接和页面。 2. 网页索引。搜索引擎会解析存储在数据库中的网页内容,并对这些内容进行分类、标记和排序,以便更好地对用户的搜索请求进行匹配。搜索引擎会对网

Public @ 2023-05-27 12:00:22

搜索引擎收录网页的四个阶段

作为SEO从业者,不仅要被搜索引擎抓取,还要被收录,最重要的是在收录后有良好的排名,本文将简单分析下搜索引擎收录网页的四个阶段。每个网站、每个网页的排名都是不一样的,看看你的网站处于哪个阶段呢?搜索引擎收录网页的四个阶段 PageRank 搜索引擎 建站教程 第1张网页收录第一阶段:大小通吃搜索引擎的网页抓取都是采取「大小通吃」的策略,也就是把网页中能发现的链接逐一加入到待抓取URL中,机械性的将

Public @ 2012-08-25 16:22:23

更多您感兴趣的搜索

0.530576s