[发明专利]文本语义相似度的确定方法及装置有效
申请号: | 201611199224.5 | 申请日: | 2016-12-22 |
公开(公告)号: | CN106776503B | 公开(公告)日: | 2020-03-10 |
发明(设计)人: | 董超 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 刘喆;刘铁生 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文本语义相似度的确定方法及装置,涉及自然语言处理技术领域,解决了现有文本相似度计算方法无法实现文本语义上的相似度的计算的问题。本发明的方法包括:获取第一文本以及第二文本,第一文本和第二文本是需要进行语义相似度计算的任意两个文本;根据预设标签主题Label LDA模型将第一文本以及第二文本分别转换为第一主题标签向量和第二主题标签向量,第一主题标签向量和第二主题标签向量中每个维度对应一个预设主题标签;根据向量相似度算法对第一主题标签向量和第二主题标签向量进行相似度计算,得到第一文本与第二文本之间的语义相似度值。本发明应用于文本相似度计算的过程中。 | ||
搜索关键词: | 文本 语义 相似 确定 方法 装置 | ||
【主权项】:
一种文本语义相似度的确定方法,其特征在于,所述方法包括:获取第一文本以及第二文本,所述第一文本和所述第二文本是需要进行语义相似度计算的任意两个文本;根据预设标签主题Label LDA模型将所述第一文本以及所述第二文本分别转换为第一主题标签向量和第二主题标签向量,所述第一主题标签向量和所述第二主题标签向量中每个维度对应一个预设主题标签,每个维度对应的维度值表示每个预设主题标签的权重值,所述预设主题标签为表示文本语义的单个主题词;根据向量相似度算法对所述第一主题标签向量和所述第二主题标签向量进行相似度计算,得到所述第一文本与所述第二文本之间的语义相似度值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611199224.5/,转载请声明来源钻瓜专利网。