[发明专利]微博检索方法和微博检索装置有效
申请号: | 201410197262.1 | 申请日: | 2014-05-12 |
公开(公告)号: | CN105095271B | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 强闰伟;梁丰;杨建武 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种微博检索方法,包括:预处理步骤,对查询语句和微博文档进行预处理;第一模型创建步骤,根据预处理结果创建原始查询模型和原始文档模型;第二模型创建步骤,创建伪相关文档模型;模型更新步骤,将所述伪相关文档模型和所述原始查询模型进行线性叠加,得到扩展查询模型;文档确定步骤,确定候选结果文档;排序步骤,根据分解机排序模型公式计算所述候选结果文档中的每个文档的得分,并根据所述得分对所述候选结果文档进行排序,以得到最终检索结果。相应地,本发明还提出了一种微博检索装置。通过本发明的技术方案,可以解决微博检索中的词汇匹配不精准的问题,同时可以辨别微博的质量,过滤掉低质量的微博。 | ||
搜索关键词: | 检索 方法 装置 | ||
【主权项】:
1.一种微博检索方法,其特征在于,包括:预处理步骤,对查询语句和微博文档进行预处理,以得到初步处理结果;第一模型创建步骤,根据所述初步处理结果创建原始查询模型和原始文档模型,并计算所述原始查询模型和所述原始文档模型之间的相似度;第二模型创建步骤,根据所述相似度确定所述查询语句对应的伪相关文档,并根据所述伪相关文档创建伪相关文档模型;模型更新步骤,将所述伪相关文档模型和所述原始查询模型进行线性叠加,以得到扩展查询模型;文档确定步骤,计算所述扩展查询模型和与所述扩展查询模型对应的扩展文档模型之间的相似度,以确定候选结果文档;排序步骤,根据分解机排序模型公式计算所述候选结果文档中的每个文档的得分,并根据所述得分对所述候选结果文档中的文档进行排序,以得到最终检索结果;其中,所述分解机排序模型公式为:
其中,w0为常数,xi和xj为任一微博文档的所述查询特征、所述扩展查询特征和/或所述博文质量特征对应的特征向量,wi、vi为任一模型参数,其中wi刻画了xi的权重,刻画了xi和xj交互的权重,
其中k为分解机模型的分解维度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京北大方正电子有限公司,未经北京大学;北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410197262.1/,转载请声明来源钻瓜专利网。