[发明专利]一种基于CTW和KM算法的语义相似度计算方法及装置有效
申请号: | 201811517145.3 | 申请日: | 2018-12-12 |
公开(公告)号: | CN109858015B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 李军;钮焱;刘宇强;李星;童坤 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/194 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430068 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ctw km 算法 语义 相似 计算方法 装置 | ||
本发明提供了一种基于CTW和KM算法的语义相似度计算方法及装置,其中的方法针对于现有技术中语义相似度计算方法中未考虑分词顺序对语义的重要影响的弊端,在保持单个语义判定规则的同时,考虑了顺序对句子的影响。该计算方法利用Word2Vec深度学习平台将文本划分为多维空间的分词向量,并映射到多维向量空间,并将向量连接构成多维空间下的曲线,借用图像中的曲线相似度中较新的时间翘曲距离来通过词向量曲线来比较多个文本的相似度,为了减少计算规模,采用了KM算法。该方法与传统的最长公共子串、词频统计等方法比较,具有更强的鲁棒性,对于传统方法无法克服的分词相同语序不同的语句具有明显的效果,提高了计算的准确性。
技术领域
本发明涉及计算机技术领域,具体涉及一种基于CTW和KM算法的语义相似度计算方法及装置。
背景技术
随着人工智能技术的日益深入,自然语言处理领域的研究变得越来越重要。相似度的计算作为自然语言处理领域基本并且核心的问题,在很多人工智能领域有着广泛的应用,例如,在机器翻译、语音识别、文字情感识别、自动作文等方面,均需要用相似度模型来衡量文本中词语的可替换程度或计算问题与答案之间的匹配程度。相似度计算也成为备受众多自然语言处理研究者关注的研究课题。
目前,随着词向量概念的提出,很多研究学者将传统的相似度算法与词向量结合起来,在句子相似度计算的准确率上有很大的提升。田星等在解决句子相似度的问题上,将传统的Jaccard算法与词向量相结合,以语义层面的高维向量代替原来的字面量,通过计算词向量间的相似度,以自设定的阈值来区分共现部分,在相似度的准确率上有提升,但是该算法在中文文本相似度的计算上效果不尽人意。针对汉语,李茹等提出结合汉语框架语义对进行框架语义分析,来达到刻画语义的目的,由此计算的相似度效果传统的方法更好,但是现有的汉语语义资源中框架的覆盖率较低,在进行语义分析时有局限。针对基于路径方法中普遍存在的密度不均匀性问题,郭承湘等提出了融合路径距离与信息内容方法,通过一个平滑参数将路径和信息内容融合调整概念间的语义距离,使路径方法计算的相似度值更加合理,以此方法计算相似度具有较强的鲁棒性,但是一些词典的特殊性使得信息内容的方法体现不出任何效果。针对句子数据稀疏和缺乏语义的问题,黄栋等提出词向量和EMD距离相结合的方法,使用Skip-gram模型训练得到特征词语义的词向量,使用欧式距离计算特征词相似度,使用EMD距离计算相似度,与传统方法相比有一定的提升,但是算法中未考虑词性和语序的影响。
本发明申请人在实施本发明的过程中,发现现有技术中的方法至少存在如下问题:
现有的语义相似度算法中,仅考虑了单个分词语义从而导致判别失真的问题,即,现有技术的方法存在准确率不高的技术问题。
发明内容
有鉴于此,本发明提供了一种基于CTW和KM算法的语义相似度计算方法及装置,用以解决或者至少部分解决现有技术的方法存在准确率不高的技术问题。
本发明第一方面提供了一种基于CTW和KM算法的语义相似度计算方法,包括:
步骤S1:选择预设语料库,并通过预设词向量结合神经网络学习的方法训练,获得词向量空间,其中,词向量空间中的每个词向量用以表征该分词的语义信息;
步骤S2:将待比较文本与源文本进行分词,再根据所述词向量空间,分别建立与待比较文本、源文本对应的词分量数组;
步骤S3:依次计算待比较文本中的每个分词与源文本中的每个分词的CTW距离;
步骤S4:根据计算出的CTW距离构建CTW矩阵;
步骤S5:将分词对应的词分量,按照待比较文本、源文本分为第一集合和第二集合,其中,第一集合和第二集合中的每个词分量对应一个顶点,并根据顶点和CTW矩阵建立与待比较文本、源文本对应的第一超平面和第二超平面,再计算第一超平面与第二超平面之间的层间距离,同时求得第二超平面对应的映射法向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811517145.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语言信息主动校对系统及其主动校对方法
- 下一篇:一种商事凭证匹配方法