[发明专利]结合词聚合与词组合语义特征的文本相似性度量方法有效
申请号: | 201810234539.1 | 申请日: | 2018-03-21 |
公开(公告)号: | CN108399163B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 罗森林;周晓瑞;潘丽敏;魏超;吴舟婷 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/30;G06F40/216;G06F16/35;G06F16/901 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 聚合 词组 语义 特征 文本 相似性 度量 方法 | ||
本发明涉及结合文本集词聚合与词组合分布式语义特征的文本相似性度量方法,属于自然语言处理与机器学习领域。本方法首先联合文本集中词聚合、词组合分布式语义特征进行自编码填词预测,通过自编码的训练过程建立词嵌入编码网络;然后通过词嵌入编码网络构建词嵌入表示,再计算词嵌入的最大加权匹配作为文本相似性度量。本发明具有准确度高、分布式语义特征丰富的特点。构建的词嵌入编码网络可以有效利用词语的语义联系,建立分布式语义信息更加丰富的词嵌入表示,更好的描述词语之间的语义相似性,进一步提升文本相似性度量的准确性。
技术领域
本发明涉及结合文本集词聚合与词组合分布式语义特征的文本相似性度量方法,属于自然语言处理与机器学习领域。
背景技术
目前,在多文本匹配、文本聚类/分类、信息检索等多个需要进行文本处理的应用场景中,文本相似性度量发挥着越来越重要的基础性的作用。另外,在基于流形学习的文本降维表示研究中,大部分算法本质上都建立在文本集上的近邻图构建或近邻文本集合的选择上,而这些算法的基础都依赖于良好的文本相似性度量。
文本相似性度量主要分为基于字符串的方法和基于语料库的方法。而基于语料库的文本相似性度量又可以分为两个步骤:首先通过语料库中词语的上下文(context)训练文本的词嵌入表示,词嵌入代表的文本的分布式语义信息,再利用词嵌入计算文本之间的相似性。
1.基于字符串的方法
基于字符串的文本相似性度量通常将文本转化为向量或者与向量类似的离散化数字序列,通过计算和比较这些向量和序列的某种距离测度作为文本相似性的度量。比如,Damerau-Levenshtein距离通过插入、删除、替换和交换相邻字符位置四种操作方式将一个文本转化为另一个文本,通过比较所需的操作步数来度量两个文本的相似性。也可以将文本转化为向量空间的一个点或者向量,通过比较向量空间中的点或者向量的距离来度量文本的相似性,比如欧式距离(Euclidean Distance)计算向量空间中两坐标点的直线距离,距离越小表示文本相似性越高。曼哈顿距离(Manhattan Distance)将两个点的直线距离在各坐标轴的投影距离之和,作为两个文本的相似性度量,距离越小,相似性越高。余弦距离(Cosine Similarity)计算向量空间中两个向量的余弦夹角,夹角越小,表示两个文本的相似性越高。最后,最长公共子序列(Longest Common Substring)也是一种常用的文本相似性度量方法,它通过比较两个字符串中存在的最长的相同连续字符子序列,作为两者相似性的度量。
2.基于语料库的方法
基于字符串的文本相似性度量以字、词或短语作为独立的语义单元,没有充分考虑词语间搭配关系所暗含的语义联系,导致它们难以准确地刻画文本的语义相似性。
词义联系信息的缺失降低了最终文本相似性度量的准确性。为了有效地利用这种词义联系,基于语料库的文本相似性度量通过分析文本集中词语的分布式语义特征构建词语的向量表示,近年出现的词嵌入学习理论为该问题提供了有效的解决思路。
(1)词嵌入模型:关于词嵌入的最早的工作由Bengio在2003提出,他在一系列论文中使用了神经概率语言模型(Neural probabilistic language models)使机器“习得语言的分布式表示”,从而达到将语言空间降维的目的。由于整个建模过程是基于N-gram模型,所以得到的词嵌入可以反映词语上下文之间的连续性,即文本的语义联系。词嵌入方法的灵感来自于分布式假说,即相似的语言单元分布具有相似的含义。主流的词嵌入方法研究侧重于从目标词语和它的上下文中提取特征,通过分布式语义联系进行建模。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810234539.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于短语袋主题模型的话题发现方法
- 下一篇:基于模板的电子公文分类分级系统