Categories


Tags


搜索引擎体系结构

搜索引擎基本结构一般包括:搜索器、索引器、检索器、用户接口等四个功能模块。

1、搜索器:

搜索器也叫网络蜘蛛,是搜索引擎用来爬行和抓取网页的一个自动程序,在系统后台不停歇地在互联网各个节点爬行,在爬行过程中尽可能快的发现和抓取网页。

2、索引器。

它的主要功能是理解搜索器所采集的网页信息,并从中抽取索引项。

3、检索器。

其功能是快速查找文档,进行文档与查询的相关度评价,对要输出的结果进行排序。

4、用户接口。

它为用户提供可视化的查询输入和结果输出的界面。


Public @ 2018-03-04 16:22:54

搜索引擎有多聪明?

使用黑帽SEO的人,心里或多或少都存在一个假设,那就是搜索引擎没自己聪明。在前几天的搜索引擎怎样判断垃圾留言这个帖子里,就有读者认为我把搜索引擎快说成神了。我想很多人都会抱有这种想法,理由也很简单,搜索结果中含有大把大把的作弊网站,垃圾网站。如果搜索引擎真的那么聪明的话,这些网站怎么还会排名不错呢?对搜索引擎到底有多聪明,今天谈谈自己的想法。首先从常理上来说,主要搜索引擎内部的工程师,大多都是博士

Public @ 2009-07-02 16:22:40

搜索引擎网页去重算法分析

相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的!搜索爬虫抓取会产生网页重复的类型:1.多个URL地址指向同一网页以及镜像站点如:www.sina.com 和www.sina.c

Public @ 2020-07-15 16:21:55

爬行和抓取

爬行是指动物的行动方式,通常涉及身体的爬行和爬行的动作,如爬行动物(如蛇和蜥蜴)和爬行昆虫(如蚂蚁和蜘蛛)。 抓取是指通过握住或接触来获取动物或物体的行动。抓取可以包括动物的牙齿、爪子、手指、手掌和指甲等器官或物品如工具或表面。抓取通常是为了获取食物或其他资源,或者以进行自我保护或攻击。

Public @ 2023-04-16 07:00:07

更多您感兴趣的搜索

0.474840s