Categories


Tags


HITS算法

HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

英文全称

Hyperlink-Induced Topic Search

算法由来

HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

具体解释

按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。

一个网页重要性的分析的算法。

通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。

在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。

Hits算法

描述

HITS(Hyperlink – Induced Topic Search) 算法是利用HubPAuthority的搜索方法,

具体算法如下:

将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合中取前n个网页(如n=200),作为根集合(root set),记为S,则S满足:

1.S中的网页数量较少

2.S中的网页是与查询q相关的网页

3.S中的网页包含较多的权威(Authority)网页

通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。

V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。

开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u),h ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u),h(v)收敛 。

其中I操作:a ( u) = Σh ( v) ;O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)/Σ[ a ( q) ]2 ; h ( v) = h ( v)/Σ[ h ( q) ]2 。

伪代码

HITS算法伪代码如下:

1G:= set of pages

2for eachpagepinGdo

3p.auth = 1 //p.auth is the authority score of the pagep

4p.hub = 1 //p.hub is the hub score of the pagep

5functionHubsAndAuthorities(G)

6forstepfrom1tokdo// run the algorithm for k steps

7 norm = 0

8for eachpagepinGdo// update all authority values first

9p.auth = 0

10for eachpageqinp.incomingNeighborsdo//p.incomingNeighborsis the set of pages that link top

11p.auth +=q.hub

12 norm += square(p.auth) // calculate the sum of the squared auth values to normalise

13 norm = sqrt(norm)

14for eachpagepinGdo// update the auth scores

15p.auth =p.auth / norm // normalise the auth values

16 norm = 0

17for eachpagepinGdo// then update all hub values

18p.hub =

019for eachpagerinp.outgoingNeighborsdo//p.outgoingNeighborsis the set of pages thatplinks to

20p.hub +=r.auth

21 norm += square(p.hub) // calculate the sum of the squared hub values to normalise

22 norm = sqrt(norm)

23for eachpagepinGdo// then update all hub values

24p.hub =p.hub / norm // normalise the hub values


Public @ 2022-03-03 15:39:12

HITS算法

HITS算法(Hypertext-Induced Topic Selection),也称为Hubs and Authorities algorithm,是一种用来计算图中节点相对重要性的算法。它是Larry Page and Sergey Brin 在1998年首次提出,以提高他们搜索引擎Google的网页检索准确性。HITS算法通过分析不同节点间的连接关系来鉴定节点的重要性分数:一个节点

Public @ 2023-02-27 07:00:50

搜索引擎链接分析中的链接优化

感谢Lenny投稿在网站优化中,常常提到的“内容为王,链接为皇”现在已经不止是这么两点了,另外还有用户体验综合因素在内,内容为王,链接为皇,加上用户体验其实就是三代搜索引擎的各自看重点,其中链接分析也算是运用得最火的技术,在很多黑帽SEO中也有许多技巧都是根据链接分析的漏洞来放大利用。今天成都SEO就来总结一下搜索引擎链接分析的算法。搜索引擎链接分析中最重要的两个算法要属于PageRank和HIT

Public @ 2011-02-22 16:21:57

HITS链接分析算法

HITS(Hyperlink - Induced Topic Search)链接分析算法诞生在1997年,该算法是由康奈尔大学中的一位博士提出,并且该算法沿用于全球多个搜索引擎当中。当然,不同的搜索引擎针对于该算法的侧重点和内部公式都有不一的算法结构调整,并且HITS算法也是链接分析中最为重要的基础算法之一。对于目前国内的整体搜索引擎而言,百度作为国内的搜索引擎领头羊,我会带着HITS的公开文档针

Public @ 2009-11-28 15:39:11

更多您感兴趣的搜索

0.146534s