HITSslam算法是什么么

分类排行榜
作者:木木
作者:何杨
作者:何杨
作者:苗元威
站长们都信赖的交易中介平台,安全、高效、便捷。
中小企业网络营销第一平台,解决流量、转化率、品牌。
高收益、移动广告、弹窗CPM、点击CPC、包月广告。
提供公众号出售、求购、代售等交易中介以及增值服务。
增值电信业务经营许可证:苏B2-
编辑热线:5
A5创业网 版权所有.
扫一扫关注最新创业资讯链接分析算法之PageRank、HITS
1.PageRank算法
  PageRank算法是由Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法.它的主要思想是对所有网页根据PageRank值(范围为0-10)进行排序。
网页PageRank的计算基于以下两个基本假设:
&&&&&&&&&&
1.数量:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。
&&&&&&&&&&
2.质量:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。
&&&&&&&&是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。
1)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的和主题性降低,也就是说你无论搜索什么样的主题,得到的结果都是一样的。
2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。
&&&鉴于PageRanke忽略了主题相关性的原因,在PageRank的基础上提出了敏感主题PageRank
&&&基本思想:
&&&&&&&&&&
通过离线计算出与某一主题相关的PageRank向量集合,即计算某个页面关于不同主题的得分。主要分为两个阶段:主题相关的PageRank向量集合的计算和在线查询时主题的确定.
&&&&&&&&&&
1.确定topic分类,RangRank定义了16个大的主题类别,包括体育、商业、科技等。
&&&&&&&&&&
2.网页topic归属,这一步需要将每个页面归于最合适的分类,具体算法有很多。
&&&&&&&&&&
3.分topic向量计算,目的是算出每个topic的Rank值
&&&&&&&&&&
4.在线相似度计算,这一步就是在用户提交搜索时,确定用户的topic倾向,以选择合适的rank向量,主要有两种方法。一种是列出所有topic让用户自己选择,这种方法在一些社交问答网站注册时经常使用;
另外一种方法利用“用户查询分类器”对查询进行分类,跟踪用户的行为,进行数据分析判断出用户的倾向.
&& 作用:利用主题敏感PageRanK构造个性化搜索
2.HITS算法
HITS算法是由Cornell&University的Jon
Kleinberg博士于1997年首先提出的,为IBM公司阿尔马登研究中心名为"CLEVER"的研究项目中的一部分。目前已被Teoma搜索引擎()作为链接分析算法在实际中使用。
&&&&&HITS有两个重要概念:
&&&&&&&&&&&
1.Hub页面:指包含了很多指向高质量“Authority”页面的链接网页,比如Hao123
&&&&&&&&&&&
2.Authority页面:指某个领域或者某个话题相关的高质量网页,比如百度
基本思想:相互增强性关系
&&&&&&&&&&&
假设1:一个好的“Authority”页面会被很多好的"Hub"页面指向
&&&&&&&&&&&
假设2:一个好的“Hub”页面会指向很多好的“Authority”页面
步骤:1.选择要集合,从关键字查询的结果页面集合中取出前n个网页(n一般较小)
&&&&&&&&&&
2.扩展集合base,在root集合的基础上,只要跟root集合有指向关系的都加入base集合中
&&&&&&&&&&
3.算出base集合中每个页面的Hub值和Authority值(多次迭代,直到稳定)
&&&&&&&&&&
4.输出结果,将页面根据Authority权值得分由高到低排序,取权值高的若干页面作为响应用户查询的搜索结果输出。
缺点:1.计算效率低,因为HITS算法是与查询有关的算法,所以必须接收到用户查询后实时的进行计算。
&&&&&&&&&&
2.主题漂移问题,会在base集合中包含部分与查询主题无关的页面,而且他们的Authoriyt值较高
&&&&&&&&&&
3.易被作弊者操纵结果,比如可以建立一个页面,页面增加指向高质量网页的网址,这样它就可以得到很高的Authority得分。’
&&&&&&&&&&
4.结构不稳定,如果base集合中添加删除个别网页或改变少数链接关系,刚HIST算法的排名就会有非常大的改变。
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。HITS算法的具体解释_百度知道:转载时请以超链接形式标明文章原始出处和作者信息及本声明
按照HITS算法到用户输入某个词后,算法对返回的页面计算有两种:①、枢纽;②、权威
HITS 算法与PageRank 算法一个显著的差异是:HITS 算法与用户输入的查询请求密切相关,而PageRank 算法是与查询无关的全局算法。HITS 后续计算步骤都是在接收到用户查询后展开的,即是与查询相关的链接分析算法。
在根集的基础上,HITS 算法对网页集合进行扩充,扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充进来,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合。HITS 算法在这个扩展网页集合内寻找好的Hub 页面与好的Authority 页面。
HITS 算法接收到了用户查询之后,将查询提交给某个现有的搜索引擎(或者是自己构造的检索系统),并在返回的搜索结果中,提取排名靠前的网页,得到一组与用户查询高度相关的初始网页集合,这个集合被称做根集(Root Set)。
对于扩展网页集合来说,我们并不知道哪些页面是好的Hub 页面或者好的Authority页面,每个网页都有潜在的可能,所以对于每个页面都设立两个权值,分别来记载这个页面是好的Hub 页面或者Authority 页面的可能性。在初始情况下,在没有更多可利用信息前,每个页面的这两个权值都是相同的,可以都设置为1。即可利用上面提到的两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。
&&&&在迭代计算过程中,某个页面的Hub 权值和Authority 权值的更新方式。假设以A(i)代表网页i 的Authority 权值,以H(i)代表网页i 的Hub 权值。迭代中的Authority 权值即为所有指向网页1 页面的Hub 权值之和;类似地, 的Hub 分值即为所指向的页面的Authority 权值之和。
扩展网页集合内其他页面也以类似的方式对两个权值进行更新,当每个页面的权值都获得了更新,则完成了一轮迭代计算,此时HITS 算法会评估上一轮迭代计算中的权值和本轮迭代之后权值的差异,如果发现总体来说权值没有明显变化,说明系统已进入稳定状态,则可以结束计算。将页面根据Authority 权值得分由高到低排序,取权值最高的若干页面作为响应用户查询的搜索结果输出。如果比较发现两轮计算总体权值差异较大,则继续进入下一轮迭代计算,直到整个系统权值稳定为止。
引用地址:
博客大巴模板设计: | 作者: bxg&&&&素材来源:HITS算法 -
  -Induced Topic Search
HITS算法 -
  HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。
HITS算法 -
  一个网页重要性的分析的算法。
  算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores)这两个值是相互依存、相互影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值指的是所有导入链接所在的页面的枢纽值之和。
  通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。
  在限定范围之后根据网页的出度和入度建立一个,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。
HITS算法 -
  HITS(Hyperlink – Induced Topic Search) 算法是利用HubPAuthority的搜索方法,具体算法如下:
  将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为S,则S满足:
  1.S中的网页数量较少
  2.S中的网页是与查询q相关的网页
  3.S中的网页包含较多的权威(Authority)网页
  通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。
  V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。
  开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u),h ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u),h(v)收敛 。
  其中I操作:a ( u) = Σh ( v) ;O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)/Σ[ a ( q) ]2 ; h ( v) = h ( v)/Σ[ h ( q) ]2 。
HITS算法 -
HITS搜索引擎算法的研究
  理解HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。HITS(Hypertext-InducedTopic Search)算法是利用Web的链接结构进行挖掘典型算法,其核心思想是建立在页面链接关系的基础上,对链接结构的改进算法。HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。
  首先,它完全将网页的内容或文本排除在外,仅考虑网页之间的链接结构来分析页面的权威性,这与现实网络中的权威页面相比,其不科学性显而易见。 然而HITS算法也有其明显的不足。因为权威页面必须针对某一主题或关键词而言。某一页面对一确定主题的具有较大权威性的页面并不意味在其他与其无关的主题方面同样具有权威性。其次一个页面对另一页面的引用有多种情况,其中包含了一页面对另一页面的认可,但除此之外也有其他目的链接,如为了导航或为了付费广告。就HITS算法的思想与实现过程做了细致的研究与概括。而HITS算法在实现过程中均没有考虑以上情况.导致了结果与目标的差距。
  对HITS算法的第二个不足,即非正常目的的引用.在HITS算法看来,也误认为是正常引用,导致实际结果与目标的出入。针对前面第一种不足,就有相关的学者提出了一种利用超链文字及其周围文字与关键字相匹配而计算超链权值的方法,并引入系数对周围文字和超链文字进行权值的相对控制,很好地将页面文本信息引入到HITS算法,提高了算法的可靠性,并在现实中取得了很好的效果。
  后来,经过不断的改进。HITS算法又引入了时间参数,即利用对一链接引用的时问长短来评价是否为正常引用。因为非正常链接其引用时问肯定不会很长(如交换链接、广告链接),相反,如果一页面对另一页面的链接时间较长,则必然反映此页面就是用户的寻找页面。即目标页面或至少是正常引用。
  如设定访问时间少于1分钟者为非正常引用。如果设定时间阀值,则可以将非正常引用的链接在HITS算法的实现过程中筛选出来。另外可构造时间访问函数,控制权威页面的相对大小。如随访问时间的增大而其权威性也逐渐非线性增大.这样可为HITS算法的权威页面提供更合理、更科学的解释。
为本词条添加和相关影像
互动百科的词条(含所附图片)系由网友上传,如果涉嫌侵权,请与客服联系,我们将按照法律之相关规定及时进行处理。未经许可,禁止商业网站等复制、抓取本站内容;合理使用者,请注明来源于。
登录后使用互动百科的服务,将会得到个性化的提示和帮助,还有机会和专业认证智愿者沟通。
您也可以使用以下网站账号登录:
此词条还可添加&
编辑次数:3次
参与编辑人数:3位
最近更新时间: 10:23:16
贡献光荣榜

我要回帖

更多关于 hits算法实现 的文章

 

随机推荐