[发明专利]利用句义结构特征的句子相似度计算方法在审

申请号：	201610867254.2	申请日：	2016-09-29
公开（公告）号：	CN106445920A	公开（公告）日：	2017-02-22
发明（设计）人：	罗森林;陈倩柔;潘丽敏;原玉娇	申请（专利权）人：	北京理工大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明为解决社交短文本句子相似度计算的特征稀疏问题，提出利用句义结构特征的句子相似度计算方法。首先基于句义结构模型分析句子语义，并利用主题模型挖掘潜在的主题知识，根据主题‑词语分布扩充句子特征，得到基于句子本身特征的句子向量，然后引入Paragraph Vector深度学习模型学习句子上下文特征，得到基于上下文信息的句子向量，最后加权由两种句子向量计算得到的句子相似度。本发明通过深度挖掘句子的语义信息和上下文信息，更加全面、准确地刻画了句子之间的内在联系，提高了相似度计算的准确率。
搜索关键词：	利用结构特征句子相似计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

利用句义结构特征的句子相似度计算方法，所述方法包括以下步骤：步骤1，对短文本集进行预处理，先进行分句，然后进行分词和词性标注，去停用词；步骤2，结合句义结构特征和主题‑词语分布特征，对句子进行特征扩充，并计算句子相似度；步骤2.1，在步骤1的基础上，对每条句子进行句义结构分析，提取句子的话题、述题、基本项、一般项；步骤2.2，利用LDA(Latent Dirichlet Allocation)主题模型对短文本集进行分析，提取文本中的主题和主题下的词语分布，得到主题‑词语矩阵；步骤2.3，根据话题对句子进行特征扩充，得到基于话题的句子向量；步骤2.4，根据述题对句子进行特征扩充，得到基于述题的句子向量；步骤2.5，分别基于步骤2.3和2.4得到的两种句子向量计算句子相似度，对两个相似度值进行加权，得到句子间的最终相似度值，具体计算公式如下，sim1(SA,SB)=ω*SAt→·SBt→|SAt→||SBt→|+(1-ω)*SAc→·SBc→|SAc→||SBc→|]]>其中，SA和SB代表任意两个句子，sim1(SA,SB)表示两个句子的相似度值，和分别表示句子SA和SB的基于话题的句子向量，和分别表示句子SA和SB的表示基于述题的句子向量，ω为可调参数，取值范围为[0,1]；步骤3，将经过步骤1预处理后的所有句子输入到PV(Paragraph Vector)深度学习模型，利用PV模型学习文本特征，得到句子向量，并基于该句子向量计算句子间的余弦距离作为句子间的相似度，计算公式如下，sim2(SA,SB)=SAp→·SBp→|SAp→||SBp→|]]>其中，SA和SB代表任意两个句子，sim2(SA,SB)表示两个句子的相似度值，和分别表示用PV模型学习得到的句子向量；步骤4，将步骤2和步骤3得到的句子间的相似度值进行线性加权，通过网格法调节参数，找到一组最优的参数取值，输出最终的句子对之间的相似度值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610867254.2/，转载请声明来源钻瓜专利网。

上一篇：一种情感分类方法及装置
下一篇：利用二次互信息的中文文本术语抽取方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]利用句义结构特征的句子相似度计算方法在审

专利文献下载