[发明专利]一种基于问题主题和焦点的问题相似度计算方法在审
申请号: | 201510270876.2 | 申请日: | 2015-05-25 |
公开(公告)号: | CN104899188A | 公开(公告)日: | 2015-09-09 |
发明(设计)人: | 鲁伟明;余瑶;吴江琴;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 问题 主题 焦点 相似 计算方法 | ||
技术领域
本发明涉及了一种问题相似度计算方法,尤其涉及了一种基于问题主题和焦点的问题相似度计算方法。
背景技术
随着互联网的迅速发展,人们获取信息和知识的途径越来越多样化,基于常问问题集(FAQ)的问答系统便是其中一个有效的方式。问题相似度计算的研究对基于常问问题集问答系统具有很重要的意义,而问题相似度计算的准确率对问答系统性能也有很重要的作用。那么如何提高问题相似度计算的准确率自然地成为了当前研究的热点。
目前问题相似度的计算主要分为四种方法:基于单词统计信息检索模型的方法;基于语义词典的计算方法;基于大规模文档集的计算方法;基于编辑距离的计算方法。
TF-IDF方法基于单词词频的统计信息计算问题之间的相似度,不需要对语句进行深度的理解。由于问题长度很短,导致特征向量稀疏,因此TF-IDF对于问题相似度计算的效果并不是很好。
基于语义词典的方法将问题文本分成一系列的单词,基于语义词典去计算单词之间的相似度,然后基于单词的相似度去计算问题之间的相似度。对于英文,常用的语义词典有WordNet,对于中文,常用的语义词典是HowNet。基于语义词典的相似度计算方法有使用简单,计算快速等优点。但是也有两个明显的缺点:语义词典不可能包含所有的单词;有的是一词多意,导致不好选择哪个意思去做单词相似度计算。
基于大规模文档集进行统计的方法是近些年研究比较多的计算短文本相似度的方法之一。Deerwester SC提出的latent Semantic Analysis(LSA)就是一种流行的基于文本集的相似度计算方法。通过LSA方法计算问题相似度也有一些问题。例如,用户输入的问题包含了一些不在语义空间的新词,另外由于构造的概念空间是固定的,因此表示问题的向量的维度也是固定的,可能会导致描述问题的向量非常稀疏,影响计算相似度的精度。
编辑距离最初处理的是不考虑语义的字符,它在字符串相似度计算、数据清理、拼写检查等众多领域有着广泛的应用。在计算语句相似度方法,也有一定的应用。例如,Leusch等人利用编辑距离计算语句相似度,而且还用于机器翻译。后来又有人提出了将编辑距离和语义词典相结合的方法。主要内容是:以普通编辑距离算法为基础,采用词作为基本的编辑单元而不是单个的汉字,然后采用语义距离作为单词之间的替换代价并且赋值插入、删除和替换三种操作不同的权重。这种方法考虑了词汇的顺序和语义等信息,计算和实现都比较简单,也能得到不错的效果。但是这些方法都是基于文本的统计属性,不能很好的体现文本的语义相似度。
发明内容
本发明是为了克服目前计算问题相似度方法的不足之处,提高问题检索的准确率,提供一种基于问题主题和焦点的问题相似度计算方法,用于问答系统中计算用户提出的问题和常问问题集中问题的相似度,对问题回答和常问问题集的更新都有着重要意义和作用。
本发明解决其技术问题采用的技术方案包括以下步骤:
1)预处理常问问题集数据:通过自然语言处理工具将问题集数据分词,去除无效词,记录每个问题所属的类别;
2)划分问题的主题和焦点结构:根据分词结果构建词空间,并计算其中每个单词的specificity得分,根据问题所包含单词的specificity得分大小对单词进行重排序形成问题的topic链;然后基于最短描述长度的树裁剪模型将目标问题和相关问题的topic链进行划分,得到每个问题的主题结构和焦点结构;
3)基于问题主题和焦点计算问题间的联合相似度:针对目标问题和相关问题的主题结构,采用语言模型的方法计算联合相似度;针对目标问题和相关问题的焦点结构,采用基于翻译的语言模型的方法计算联合相似度;最后通过计算上述两个相似度的加权和得到问题主题和焦点的联合相似度;
4)计算问题相似度:基于BTM主题模型计算目标问题和相关问题之间的主题相似度,通过将主题相似度和步骤3)中计算得出的联合相似度进行加权求和得到最终的问题相似度。
所述的步骤2)包括:
2.1)根据步骤1)中的分词结果构建词空间,并根据问题数据所属类别的统计信息采用以下公式计算词空间中每个单词的specificity得分,构建计算单词specificity得分的公式:
S(w)=1/(-∑c∈CP(c|w)logP(c|w)+ε)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510270876.2/2.html,转载请声明来源钻瓜专利网。