[发明专利]一种基于加权特征向量的配网文本相似度的计算方法在审
申请号: | 202211355244.2 | 申请日: | 2022-11-01 |
公开(公告)号: | CN115859972A | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 赵艳宁;李玉林;于瑞丰;王亚良;张伟;仇向东;周兴华 | 申请(专利权)人: | 北京中恒博瑞数字电力科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06F18/22 |
代理公司: | 河北智酷知创知识产权代理事务所(普通合伙) 13157 | 代理人: | 武哲 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 加权 特征向量 文本 相似 计算方法 | ||
本发明涉及文本相似度技术领域,具体是涉及了一种基于加权特征向量的配网文本相似度的计算方法,所述方法包括S1、文本预处理,对获取到的配网文本数据进行预处理,S2、构建文本特征向量,通过Skip‑gram模型对配网文本数据进行训练后得到词向量,通过累加词向量的方式构建文本特征向量或通过计算各词向量算术平均的方式构建文本特征向量;S3、文本相似度计算,本发明通过进行词向量训练,引用词向量优点,对文本构成部分进行分析,同时增加同义词处理和加权处理,构建更加精确的文本相似度计算模型。
技术领域
本发明涉及文本相似度技术领域,具体是涉及了一种基于加权特征向量的配网文本相似度的计算方法。
背景技术
文本相似度计算是智能问答系统中至关重要的技术环节,在问答系统的信息检索中,最重要的任务就是计算问句的相似度计算,相似度计算的效果好坏,对信息检索的结果准确性有直接的影响。
文本相似度旨在研究两个文本在语义层面的匹配程度,若相似度越大,则两者的之间越匹配;若相似度越小,则两者之间越不匹配,文本语义相似度计算的核心以及最大的难点就是语义理解。
现有的文本相似度计算方法对文本进行建模会产生特征稀疏问题,而且单独考虑文本某一方面因素进行相似度计算研究也是不全面的,文本相似度计算的准确率有待提高。
发明内容
本发明为了解决现有文本相似度计算方法对于文本特征因素考虑单一,准确率较低的问题,提供了一种基于加权特征向量的配网文本相似度的计算方法,通过进行词向量训练,引用词向量优点,对文本构成部分进行分析,同时增加同义词处理和加权处理,构建更加精确的文本相似度计算模型。
本发明采用的技术方案是,提供了一种基于加权特征向量的配网文本相似度的计算方法,所述方法包括,
S1、文本预处理,对获取到的配网文本数据进行预处理,依次包括噪音数据处理、分词处理和无用数据处理;
S2、构建文本特征向量,通过Skip-gram模型对配网文本数据进行训练后得到词向量,通过累加词向量的方式构建文本特征向量或通过计算各词向量算术平均的方式构建文本特征向量;
S3、文本相似度计算,采用距离算法得到不同文本特征向量之间的距离,然后通过余弦相似度算法得出余弦相似度。
所述步骤S1完成后增加同义词处理步骤,具体包括步骤S1完成后进行同义词匹配,当存在同义词时则认定为重叠词语。
所述步骤S2中在通过Skip-gram模型对配网文本数据进行训练后得到词向量后增加加权处理步骤,具体包括根据每个词语所包含的主谓宾成分的不同,分别对不同的词语设定不同的词性权重值,通过词向量和词性权重值构建文本特征向量。
所述加权处理步骤中名词词性权重值大于动词词性权重值,动词词性权重值大于形容词和副词的词性权重值,形容词和副词的词性权重值大于其他词性权重值。
所述步骤S1中噪音数据处理为对采集到的配网文本数据集当中对文本处理产生干扰的文字、表情符号、特殊字符进去去除。
所述步骤S1中分词处理为采用HanLP分词框架对配网文本数据进行分词。
所述步骤S1中无用数据处理为采用HanLP内置停用词表,过滤掉分词处理后的文本数据中无实际意义词语,包括标点符号、虚词和数字。
本发明的有益效果是,本发明基于加权特征向量的文本相似度计算模型,在文本相似度计算过程中引入了词向量来构建文本语义信息,通过特征词向量表示文本特征向量,并设置相似阈值将文本中的关键词划分为同义词和非同义词,并针对不同词性的词语特征向量进行相似度加权处理,最后通过余弦相似度算法得到文本相似度,使文本相似度计算更加全面和准确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中恒博瑞数字电力科技有限公司,未经北京中恒博瑞数字电力科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211355244.2/2.html,转载请声明来源钻瓜专利网。