[发明专利]一种基于问题主题和焦点的问题相似度计算方法在审
申请号: | 201510270876.2 | 申请日: | 2015-05-25 |
公开(公告)号: | CN104899188A | 公开(公告)日: | 2015-09-09 |
发明(设计)人: | 鲁伟明;余瑶;吴江琴;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于问题主题和焦点的问题相似度计算方法。利用分词工具对问题数据进行分词等基本的预处理,在此基础上基于最短描述长度的树裁剪模型将每个问题划分成问题主题和问题焦点;针对两个问题的主题结构和焦点结构分别采用语言模型和基于翻译的语言模型计算相似度得分,并通过加权求和得到联合相似度;采用基于BTM主题模型的方法计算两个问题之间的主题相似度,两个相似度最后通过加权求和得到最终的问题相似度。本发明将问题的结构特征和主题信息引入到问题相似度计算当中,对问题信息利用更加充分,通过将单词统计信息之外的问题主题信息引入到问题相似度计算,提高了问题相似度计算的准确率。 | ||
搜索关键词: | 一种 基于 问题 主题 焦点 相似 计算方法 | ||
【主权项】:
一种基于问题主题和焦点的问题相似度计算方法,其特征在于包括以下步骤:1)预处理常问问题集数据:通过自然语言处理工具将问题集数据分词,去除无效词,记录每个问题所属的类别;2)划分问题的主题和焦点结构:根据分词结果构建词空间,并计算其中每个单词的specificity得分,根据问题所包含单词的specificity得分大小对单词进行重排序形成问题的topic链;然后基于最短描述长度的树裁剪模型将目标问题和相关问题的topic链进行划分,得到每个问题的主题结构和焦点结构;3)基于问题主题和焦点计算问题间的联合相似度:针对目标问题和相关问题的主题结构,采用语言模型的方法计算联合相似度;针对目标问题和相关问题的焦点结构,采用基于翻译的语言模型的方法计算联合相似度;最后通过计算上述两个相似度的加权和得到问题主题和焦点的联合相似度;4)计算问题相似度:基于BTM主题模型计算目标问题和相关问题之间的主题相似度,通过将主题相似度和步骤3)中计算得出的联合相似度进行加权求和得到最终的问题相似度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510270876.2/,转载请声明来源钻瓜专利网。