[发明专利]一种基于点击特征重构的检索结果排序方法有效

专利信息
申请号: 201810057751.5 申请日: 2018-01-22
公开(公告)号: CN108460086B 公开(公告)日: 2022-02-08
发明(设计)人: 杨震;李成 申请(专利权)人: 北京工业大学
主分类号: G06F16/338 分类号: G06F16/338;G06F16/335;G06F17/16
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了一种基于点击特征重构的检索结果排序方法,属于信息检索领域。本方法在利用非负矩阵分解减少数据稀疏性的同时,通过引入同质性系数正则约束相似查询下相似文档的关系。它能根据相似查询下相似文档的点击数据重构出没有点击数据的特征,使得点击特征更丰富、更有效,检索结果的排序性能更好。实验结果表明,重构完成的点击特征对检索结果的排序性能提升明显。
搜索关键词: 一种 基于 点击 特征 检索 结果 排序 方法
【主权项】:
1.一种基于点击特征重构的检索结果排序方法,其特征在于,包括以下步骤:步骤(1)获取学术搜索数据集获取学术搜索数据集,数据集需要有用户点击文档的特征,即用户点击次数,并且有文档在查询下的得分标签;步骤(2)数据清洗部分选取了一个查询下至少有20篇文档出现在别的查询下的数据;;步骤(3)构建点击矩阵构建点击矩阵G,其中每一行代表的是一个唯一的查询,每一列代表的是一个唯一的文档,G矩阵是一个稀疏矩阵,它的元素(i,j)的值代表的是第i个查询下第j个文档被用户点击的次数;步骤(4)点击特征重构使用螺旋非负矩阵分解算法B‑NMF对点击矩阵进行重构;步骤(4.1)矩阵分块算法首先将原矩阵G分块成2个子矩阵X和Y,之后分别对两个分块矩阵进行分解,得到X的分解矩阵W和Hh,以及Y的分解矩阵Wm和H,最后利用X的分解项W和Y的分解项H对原矩阵G进行重构,得到重构矩阵Z;B‑NMF分块了四次,最后将四次结果融合起来;分块的变换公式为(1):X=GS,Y=RG  (1)其中R和S是一个对角矩阵和一个零矩阵拼接的矩阵,目的是对原始矩阵G进行分块,具体形式如下:步骤(4.2)矩阵分解通过公式(2),将原始G矩阵变换为特征增强过的矩阵E:E(i,j)=f[G(i,j)]  (2)这里f函数为平方函数表现出了最优的性能;在分块过程中,E矩阵同样要经过上面的四次分块过程变换,变换后得到矩阵P和矩阵Q;为了保持分解过程中块间数据的一致性,加入了Wm=RW,Hh=HS两项的正则项,使得在优化过程中X和Y保持数据的一致性;同质性系数项:对两个查询或者两个文档来说,他们在一个空间中向量的距离越近,表示他们之间越相似,而相似的两个查询下,文档越相似,那么它们被点击的次数也应该越相似;同质性系数项定义为公式(3):其中n表示查询的个数,U向量代表的是查询矩阵,也就是分解出的矩阵W,i和j表示的是U矩阵中的某两行,ε(i,j)表示两个查询之间的相似性,它的值越大,表示两个查询越相似,反之,值越小,表示两个查询越不相似,它通过求两个查询的余弦相似度得到;公式3通过推到得到Rr(UTLU),其中L=D–Z是拉普拉斯矩阵,D是同一个对角矩阵,对角线上的元素Z是n个样本之间的同质性系数组成的矩阵,定义为:因此,建模的最终优化目标为公式(4):其中α,β,γ表示对正则项约束程度调节参数,λ1和λ2分别是对查询和文档两个同质性系数项的约束,L1和L2分别是查询和文档两个同质性系数项的拉普拉斯矩阵;步骤(4.3)矩阵重构G矩阵分解完成后会得到四个重构的矩阵Zi,然后采用将四次结果平均得到最终的重构矩阵Z;步骤(5)Learning to rank排序通过将重构完成得到的点击矩阵与原数据进行对接,把重构完成的点击特征代替原来的点击特征,进行模型的训练和调优。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810057751.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top