[发明专利]一种基于问题主题和焦点的问题相似度计算方法在审
申请号: | 201510270876.2 | 申请日: | 2015-05-25 |
公开(公告)号: | CN104899188A | 公开(公告)日: | 2015-09-09 |
发明(设计)人: | 鲁伟明;余瑶;吴江琴;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 问题 主题 焦点 相似 计算方法 | ||
1.一种基于问题主题和焦点的问题相似度计算方法,其特征在于包括以下步骤:
1)预处理常问问题集数据:通过自然语言处理工具将问题集数据分词,去除无效词,记录每个问题所属的类别;
2)划分问题的主题和焦点结构:根据分词结果构建词空间,并计算其中每个单词的specificity得分,根据问题所包含单词的specificity得分大小对单词进行重排序形成问题的topic链;然后基于最短描述长度的树裁剪模型将目标问题和相关问题的topic链进行划分,得到每个问题的主题结构和焦点结构;
3)基于问题主题和焦点计算问题间的联合相似度:针对目标问题和相关问题的主题结构,采用语言模型的方法计算联合相似度;针对目标问题和相关问题的焦点结构,采用基于翻译的语言模型的方法计算联合相似度;最后通过计算上述两个相似度的加权和得到问题主题和焦点的联合相似度;
4)计算问题相似度:基于BTM主题模型计算目标问题和相关问题之间的主题相似度,通过将主题相似度和步骤3)中计算得出的联合相似度进行加权求和得到最终的问题相似度。
2.根据权利要求1中所述的基于问题主题和焦点的问题相似度计算方法,其特征在于所述的步骤2)包括:
2.1)根据步骤1)中的分词结果构建词空间,并根据问题数据所属类别的统计信息采用以下公式计算词空间中每个单词的specificity得分,构建计算单词specificity得分的公式:
S(w)=1/(-∑c∈CP(c|w)logP(c|w)+ε)
其中,S(w)表示单词w对应的specificity得分,c表示某一问题的类别,C表示问题数据所对应的所有类别集合,P(c|w)为单词w在类别c中出现的概率;count(c,w)表示类别c中单词w出现的次数;ε表示平滑系数。
2.2)对于每个问题,根据其分词后每个单词的specificity得分,对该问题的单词重新排序,得到该问题的topic链;
2.3)将目标问题的topic链及其相关问题的topic链结合在一起,形成一棵问题树,树的root节点为空;利用基于最短描述长度的树裁剪模型对这棵树进行裁剪,对于一个树和一种裁剪方法,构建以下公式的树描述长度L(M,S)进行计算:
L(M,S)=L(Γ)+L(θ|Γ)+L(S|Γ,θ)
M=(Γ,θ)
Γ=(C1,C2,…,Ck)
θ=[P(C1),P(C2),…,P(Ck)]
其中,Γ表示树经过裁剪过后的节点类别,θ表示类别对应的概率分布向量,M表示Γ决定的树裁剪模型,S表示样本集,且k为类别集合的总数,为类别Ci对应的概率;
选择使得树描述长度最短的一个裁剪方式和一个树裁剪模型M作为划分问题主题和焦点的方法,对问题树进行裁剪,对应的树枝也会被划分为二,其中靠近根节点root的部分构成该树枝对应问题的主题结构,剩余部分构成该树枝对应问题的焦点结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510270876.2/1.html,转载请声明来源钻瓜专利网。