[发明专利]一种基于加权特征向量的配网文本相似度的计算方法在审
申请号: | 202211355244.2 | 申请日: | 2022-11-01 |
公开(公告)号: | CN115859972A | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 赵艳宁;李玉林;于瑞丰;王亚良;张伟;仇向东;周兴华 | 申请(专利权)人: | 北京中恒博瑞数字电力科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06F18/22 |
代理公司: | 河北智酷知创知识产权代理事务所(普通合伙) 13157 | 代理人: | 武哲 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 加权 特征向量 文本 相似 计算方法 | ||
1.一种基于加权特征向量的配网文本相似度的计算方法,其特征在于:所述方法包括,
S1、文本预处理,对获取到的配网文本数据进行预处理,依次包括噪音数据处理、分词处理和无用数据处理;
S2、构建文本特征向量,通过Skip-gram模型对配网文本数据进行训练后得到词向量,通过累加词向量的方式构建文本特征向量或通过计算各词向量算术平均的方式构建文本特征向量;
S3、文本相似度计算,采用距离算法得到不同文本特征向量之间的距离,然后通过余弦相似度算法得出余弦相似度。
2.根据权利要求1所述的一种基于加权特征向量的配网文本相似度的计算方法,其特征在于:所述步骤S1完成后增加同义词处理步骤,具体包括步骤S1完成后进行同义词匹配,当存在同义词时则认定为重叠词语。
3.根据权利要求1或2所述的一种基于加权特征向量的配网文本相似度的计算方法,其特征在于:所述步骤S2中在通过Skip-gram模型对配网文本数据进行训练后得到词向量后增加加权处理步骤,具体包括根据每个词语所包含的主谓宾成分的不同,分别对不同的词语设定不同的词性权重值,通过词向量和词性权重值构建文本特征向量。
4.根据权利要求3所述的一种基于加权特征向量的配网文本相似度的计算方法,其特征在于:所述加权处理步骤中名词词性权重值大于动词词性权重值,动词词性权重值大于形容词和副词的词性权重值,形容词和副词的词性权重值大于其他词性权重值。
5.根据权利要求1所述的一种基于加权特征向量的配网文本相似度的计算方法,其特征在于:所述步骤S1中噪音数据处理为对采集到的配网文本数据集当中对文本处理产生干扰的文字、表情符号、特殊字符进去去除。
6.根据权利要求1所述的一种基于加权特征向量的配网文本相似度的计算方法,其特征在于:所述步骤S1中分词处理为采用HanLP分词框架对配网文本数据进行分词。
7.根据权利要求1所述的一种基于加权特征向量的配网文本相似度的计算方法,其特征在于:所述步骤S1中无用数据处理为采用HanLP内置停用词表,过滤掉分词处理后的文本数据中无实际意义词语,包括标点符号、虚词和数字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中恒博瑞数字电力科技有限公司,未经北京中恒博瑞数字电力科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211355244.2/1.html,转载请声明来源钻瓜专利网。