csdn下载 https://download.csdn.net/download/chinaweixin.net_

排序学习是推荐、搜索、广告的核心方法排序结果的好坏很大程度影响用户体验、广告收入等。
排序学习可以理解为机器学习中用户排序的方法这里首先推荐一本微軟亚洲研究院刘铁岩老师关于LTR的著作,Learning to Rank for Information Retrieval书中对排序学习的各种方法做了很好的阐述和总结。我这里是一个超级精简版

排序学习是一个囿监督的机器学习过程,对每一个给定的查询-文档对抽取特征,通过日志挖掘或者人工标注的方法获得真实数据标注然后通过排序模型,使得输入能够和实际的数据相似

     单文档方法的处理对象是单独的一篇文档,将文档转换为特征向量后机器学习系统根据从训练數据中学习到的分类或者回归函数对文档打分,打分结果即是搜索结果下面我们用一个简单的例子说明这种方法。 

       图2是人工标注的训练集合在这个例子中,我们对于每个文档采用了3个特征: 査询与文档的Cosme相似性分值、査询词的Proximity值及页面的PageRank数值而相关性判断是二元的,即要么相关要么不相关当然,这里的相关性判断完全可以按照相关程度扩展为多元的本例为了方便说明做了简化。

如果小于设定闽值則可以认为不相关通过训练实例,可以获得最优的a、b、c、d参数组合当这些参数确定后,机器学习系统就算学习完毕之后即可利用这個打分函数进行相关性判断。对于某个新的查询Q和文档D系统首先获得其文档D对应的3个特征值,之后利用学习到的参数组合计算两者得分当得分大于设定的闽值,即可判断文档是相关文档否则判断为不相关文档。

对于搜索系统来说系统接收到用户査询后,返回相关文檔列表所以问题的关键是确定文档之间的先后顺序关系。单文档方法完全从单个文档的分类得分角度计算没有考虑文档之间的顺序关系。文档对方法则将重点转向量对文档顺序关系是否合理进行判断

        之所以被称为文档对方法,是因为这种机器学习方法的训练过程和训練目标是判断任意两个文档组成的文档对<D0C1,D0C2>是否满足顺序关系即判断是否D0C1应该排在DOC2的前面。图3展示了一个训练实例:査询Q1对应的搜索結果列表如何转换为文档对的形式因为从人工标注的相关性得分可以看出,D0C2得分最高D0C3次之,D0C1得分最低于是我们可以按照得分大小顺序关系得到3个如图3所示的文档对,将每个文档对的文档转换为特征向量后就形成了一个具体的训练实例。

图3  文档对的方法训练实例

版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明

发布了98 篇原创文章 · 获赞 19 · 访问量 1万+

我要回帖

更多关于 chinaweixin.net 的文章

 

随机推荐