搜索引擎检索系统概述_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

搜索引擎检索系统概述

前面简要介绍过了搜索引擎的索引系统，实际上在建立倒排索引的最后还需要有一个入库写库的过程，而为了提高效率这个过程还需要将全部term以及偏移量保存在文件头部，并且对数据进行压缩，这涉及到的过于技术化在此就不多提了。今天简要给大家介绍一下索引之后的检索系统。

检索系统主要包含了五个部分，如下图所示：

索引&检索.jpg

（1）Query串切词分词即将用户的查询词进行分词，对之后的查询做准备，以“10号线地铁故障”为例，可能的分词如下（同义词问题暂时略过）：

10 0x123abc

号 0x13445d

线 0x234d

地铁 0x145cf

故障 0x354df

（2）查出含每个term的文档集合，即找出待选集合，如下：

0x123abc 1 2 3 4 7 9…..

0x13445d 2 5 8 9 10 11……

……

（3）求交，上述求交，文档2和文档9可能是我们需要找的，整个求交过程实际上关系着整个系统的性能，这里面包含了使用缓存等等手段进行性能优化；

（4）各种过滤，举例可能包含过滤掉死链、重复数据、色情、垃圾结果以及你懂的；

（5）最终排序，将最能满足用户需求的结果排序在最前，可能包括的有用信息如：网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等，之后会详细给大家介绍。

如果大家对搜索引擎检索还有别的疑问，大家可以到[学堂同学汇][学习讨论]《搜索引擎检索系统概述》讨论帖中发表自己的看法，我们的工作人员会关注这里并与大家进行探讨。

来源：百度搜索资源平台百度搜索学堂

Public @ 2011-11-07 16:21:49

百度搜索引擎工作原理

百度搜索引擎工作原理大致如下： 1. 爬虫抓取网页：百度的爬虫程序会从互联网抓取网页并将其存入数据库中。 2. 预处理：百度对所有网页进行预处理，这个过程会去除无用信息、提取关键词、计算每个网页的PageRank等。 3. 查询处理：当用户输入关键词进行搜索时，百度会将查询处理成一组词条，并进行分类别处理，比如确定搜索意图是找资讯、图片、视频等。 4. 检索匹配：百度搜索引擎会对数据库中的

Public @ 2023-06-20 19:50:19

百度搜索引擎工作原理-4-外部投票

外部投票是指其他网站链接到你的网站的数量和质量。百度搜索引擎通过外部投票来判断你网站的权威性和可信度，因为如果其他网站链接到你的网站，说明你的内容具有一定的价值和权威性。而且，如果链接到你网站的其他网站本身也是权威性和可信度高的网站，那么你的权威性和可信度也会被提升。因此，外部投票对于提高自己网站在百度搜索引擎中的排名非常重要。同时，需要注意的是，如果你的网站有过多的低质量或垃圾站点链接到你

Public @ 2023-05-31 01:50:17

搜索引擎基本结构一般包括：搜索器、索引器、检索器、用户接口等四个功能模块。1、搜索器：搜索器也叫网络蜘蛛，是搜索引擎用来爬行和抓取网页的一个自动程序，在系统后台不停歇地在互联网各个节点爬行，在爬行过程中尽可能快的发现和抓取网页。2、索引器。它的主要功能是理解搜索器所采集的网页信息，并从中抽取索引项。3、检索器。其功能是快速查找文档，进行文档与查询的相关度评价，对要输出的结果进行排序。4、用户接口。

Public @ 2018-03-04 16:22:54

搜索引擎工作原理

搜索引擎是一种用来搜索巨大的获取到的信息的技术，它根据用户输入的关键字或问题，再搜索索引库中获取到的信息，以便提供相关网站页面、新闻文档、图片和其他形式的信息来回答用户提出的问题。搜索引擎的一般工作原理是，将信息经过索引化存在索引库中，用户通过输入一定的关键字搜索时，搜索引擎从索引库中搜索符合条件的结果项并返回；或者通过抓取网页技术在搜索引擎开发过程中，根据搜索引擎的网络爬虫技术逐一抓取网

Public @ 2023-02-24 00:23:15

Categories

Tags