[发明专利]一种微博排序模型的建立及微博多样性检索方法有效
| 申请号: | 201610866433.4 | 申请日: | 2016-09-29 |
| 公开(公告)号: | CN106484829B | 公开(公告)日: | 2019-05-17 |
| 发明(设计)人: | 罗准辰;王莹;于洋;罗威;韦博;陈钧 | 申请(专利权)人: | 中国国防科技信息中心 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/335;G06F16/33;G06F16/36 |
| 代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;王蔚 |
| 地址: | 100142 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种微博排序模型的建立方法,所述方法包括:步骤S1)构建训练数据集;所述训练数据集包括一系列查询词,每个查询词对应的若干个微博,通过人工标注的方式得到这些微博的排列顺序,作为训练标准答案;步骤S2)提取训练数据集中每个查询词对应的微博的属性;步骤S3)利用每个查询词对应的微博的属性,提取每条博文的相关性特征和相似性特征;步骤S4)构建并训练排序模型。基于上述模型,本发明还提供了一种微博多样性检索方法,该方法使得用户在微博检索相关信息时,返回多样化的检索结果,降低信息冗余,可有效提升检索系统检索结果的准确性和覆盖性,提升用户体验。 | ||
| 搜索关键词: | 一种 排序 模型 建立 多样性 检索 方法 | ||
【主权项】:
1.一种微博排序模型的建立方法,所述方法包括:步骤S1)构建训练数据集;所述训练数据集包括一系列查询词,每个查询词对应的若干个微博,通过人工标注的方式得到的这些微博的排列顺序;步骤S2)提取训练数据集中每个查询词对应的微博的属性;步骤S3)利用每个查询词对应的微博的属性,提取每条博文的相关性特征和相似性特征;步骤S4)构建并训练排序模型;所述步骤S4)具体包括:步骤S4‑1)所述训练数据集包括查询词集合Q={q1,...,qn},qi为第i个查询词,n为查询词的个数;每个查询词qi都有对应一个博文集合Ti={tweeti1,...,tweetim};m为博文的个数;对每条博文tweetij进行人工标注:是否与对应的查询词qi相关及其对应的子话题,通过这些标注信息生成博文集合Ti排序的标准答案ranki;步骤S4‑2)提取衡量博文集合Ti中的每条博文tweetij与查询词qi间相关性特征向量
以及博文tweetij与排在其前面的博文集合的相似性特征矩阵
将相似性特征矩阵rj(i)转化为相似性特征向量,h(x)为函数,用于将每个特征对应的多个值求平均值;步骤S4‑3)构建排序模型,输入为一个查询词对应的每个博文相关性特征向量组成的矩阵和每个博文相似性特征向量组成的矩阵,
和
分别表示相关性特征向量权重和相似性特征向量的权重;输出为博文的排序;排序函数表示为:
步骤S4‑4)利用步骤S4‑1)的样本数据,对排序函数进行训练,得到最优权重值
和
从而得到最优排序函数,排序模型训练完毕。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国国防科技信息中心,未经中国国防科技信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610866433.4/,转载请声明来源钻瓜专利网。





