[发明专利]一种基于多特征融合的短文本相似度计算方法有效
申请号: | 201710328364.6 | 申请日: | 2017-05-11 |
公开(公告)号: | CN107273913B | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 高曙;周润;王讷;龚磊 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/216 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 李丹 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 融合 文本 相似 计算方法 | ||
本发明公开了一种基于多特征融合的短文本相似度计算方法,该方法包括以下步骤:首先,设计HTI方法提取短文本的词频特征,其次,利用已有的word2vec的Skip_gram训练模型提取短文本的语法特征,然后,设计HSBM模型在语义维度上对词频和语法特征进行有机融合,最后,设计MFSM模型计算将融合结果向量化,并计算短文本之间的相似度。本发明从多个维度提取短文本的特征,因此能有效地提高短文本相似度计算精度。
技术领域
本发明涉及自然语言处理技术,尤其涉及一种基于多特征融合的短文本相似度计算方法。
背景技术
空间向量模型(VSM)将短文本中的特征词项转化成能被计算机识别的数字形式,并且在一定程度上反映出特征词项在短文本中的重要程度。
基于词频的特征提取是指在原始的词项集合中,根据特定的特征评估函数计算挑选出最能反映短文本特征的特征词项集合的过程。词频-逆向文档频率(TF-IDF)和互信息(MI)是比较常用的两种词频特征提取方法。信息熵(IE)的概念来源于统计热力学,用于度量体系的混乱程度,它本身并不直接用于文本的特征提取,但是经常融入到其它短文本词频特征提取方法中。
基于语法的特征提取既可以利用语言模型直接从词语上下文环境考察,从而提取短文本的语法性特征;也可以利用神经网络对短文本中给定上下文条件下后续词语的分布建模,即利用深度学习方法提取短文本的语法性特征。 word2vec的Skip_gram训练模型是神经网络语言模型(NNLM)的一个实现,它省略了NNLM的非线性隐藏层,以牺牲训练精度的方法快速提高词语的预测过程,并通过增加训练语料的方式弥补训练精度,从而使得训练模型能够有效且快速地生成词向量。Skip_gram训练模型通过当前词预测其上下文生成的概率,得到不同概率的特征词,从而保留了特征词之间的语法关系。
词对主题模型(BTM)是比较常用的一种短文本语义特征提取模型,它是一元混合模型和主题模型的完美结合:首先,为了解决数据稀疏问题,BTM结合一元混合模型的优点:所有短文本共享一个主题分布;然后,为了消除每个短文本只有一个主题的弊端,BTM在整个语料库上的共现词对上建模;最后,将短文本映射到相应的语义空间(或主题空间),从而对短文本语义进行分析和判断。如果用数学语言描述,主题表示特征词集合中特征词的条件概率分布,特征词的条件概率值大小反映它与主题之间的关系密切程度。
短文本相似度计算可以定义为:对于给定的短文本集合,在研究短文本结构的基础上,提取多种短文本特征(比如词频、语法、语义特征)并量化,从而用数据反映短文本之间的相同点及不同点,相同点越多,相似程度越高,反之,相似程度越低。JS距离以一种常用的短文本相似度计算方法,适用于短文本特征以概率形式呈现的情况,可以反映同样的概率空间中两个概率分布的差异情况,它基于KL距离,并改进KL距离的结果不满足非负性、对称性等缺点。
短文本相似度计算是自然语言处理(NLP)乃至机器学习领域的难点和热点,它是NLP中一个重要任务,既可以当成一个单独的任务,又可以作为其它NLP 应用的基础。迄今为止,在短文本相似度计算领域,学者们大多偏向于提取词频或语义的单一维度特征,很少有对跨维度的短文本特征进行提取并融合,因此,得到的特征是片面的、不完全的,利用这些特征得到的相似度精度也不会太高。此外,在词频维度特征组合方面,目前的研究大多以特征池或二维特征空间的方式进行组合,缺乏深层次的整合;在语义维度特征提取方面,目前的研究方向通常直接在原始短文本集合上应用BTM,即直接利用原始短文本集合丰富的词对信息进行特征提取,这样可能会放大噪音特征产生的不利影响。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于多特征融合的短文本相似度计算方法。
本发明解决其技术问题所采用的技术方案是:一种基于多特征融合的短文本相似度计算方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710328364.6/2.html,转载请声明来源钻瓜专利网。