[发明专利]文本相似度确定方法、装置、电子设备及存储介质在审

专利信息
申请号: 202310379845.5 申请日: 2023-04-11
公开(公告)号: CN116431765A 公开(公告)日: 2023-07-14
发明(设计)人: 张鹏;张复生 申请(专利权)人: 陕西优百信息技术有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F18/22;G06F40/289;G06F40/30
代理公司: 北京华夏泰和知识产权代理有限公司 11662 代理人: 窦鑫磊
地址: 710065 陕西省西安市雁塔区高*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 相似 确定 方法 装置 电子设备 存储 介质
【说明书】:

本申请实施例涉及一种文本相似度确定方法、装置、电子设备及存储介质,通过对获取的第一文本和第二文本分别进行预处理,获得第一分词序列及第二分词序列;提取第一分词序列和第二分词序列的共现词和非共现词,并基于共现词和非共现词的数量确定第一权重系数和第二权重系数;确定第一分词序列和第二分词序列的共现词对应的词序相似度,确定第一分词序列和所述第二分词序列的非共现词对应的语义相似度;根据第一权重系数和词序相似度,及第二权重系数和语义相似度,确定文本相似度;即通过将文本词划分为共现词和非共现词,通过计算共现词词序对相似度的影响程度以及非共现词的语义相似度,两者加权融合获得文本相似度,提高了计算准确度。

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种文本相似度确定方法、装置、电子设备及存储介质。

背景技术

文本相似度主要用来研究两条文本相似程度,是自然语言处理中的一项基础性的工作,在信息检索、文档摘要等有着广泛的应用。

相关技术中,余弦相似度是一种常用的计算文本相似度方法,通过计算两个向量夹角的余弦值来衡量文本的相似度,然而它没有考虑词序对文本之间相似度计算的影响,导致所计算的文本相似度准确度不高。

发明内容

本申请的实施例提供了一种文本相似度确定方法、装置、电子设备及存储介质,以解决相关技术在计算文本相似度时不考虑词序而导致的计算准确度不高的技术问题。

第一方面,本申请的实施例提供了一种文本相似度确定方法,包括:获取第一文本和第二文本;分别对所述第一文本和所述第二文本进行预处理,获得所述第一文本对应的第一分词序列及所述第二文本对应的第二分词序列;提取所述第一分词序列和所述第二分词序列的共现词和非共现词,并基于共现词和非共现词的数量确定第一权重系数和第二权重系数;确定所述第一分词序列和所述第二分词序列的共现词对应的词序相似度,确定所述第一分词序列和所述第二分词序列的非共现词对应的语义相似度;根据所述第一权重系数和所述词序相似度,及所述第二权重系数和所述语义相似度,确定所述第一文本和所述第二文本的文本相似度。

在一些实施例中,所述确定所述第一分词序列和所述第二分词序列的共现词对应的词序相似度,包括:根据所述共现词在第一分词序列中的词序,确定所述共现词在第二分词序列中映射的位置向量,获得共现词位置向量序列;确定所述共现词位置向量序列对应的第一逆序数,并确定所述共现词位置向量序列在完全逆序情况下的第二逆序数;根据所述第一逆序数和所述第二逆序数的比值,确定所述词序相似度;根据所述第一逆序数和所述第二逆序数的比值,确定所述词序相似度。

在一些实施例中,所述共现词对应的词序相似度的计算公式如下:

其中,M表示所述第一文本,S表示所述第二文本,siminverse(M,S)表示所述共现词对应的词序相似度,vp表示所述共现词位置向量序列,inverseNumber表示所述第一逆序数,maxInverseNumber表示所述第二逆序数,n表示所述共现词位置向量序列的长度。

在一些实施例中,所述确定所述第一分词序列和所述第二分词序列的非共现词对应的语义相似度,包括:确定所述第一分词序列对应的第一非共现词序列,确定所述第二分词序列对应的第二非共现词序列;针对所述第一非共现词序列中的每个第一非共现词的词向量,计算与所述第二非共现词序列中各第二非共现词的词向量之间的最大相似度值,构成最大相似度值集合;确定所述最大相似度值集合中大于预设阈值的目标相似度值,并将所述目标相似度值之和与所述最大相似度值集合中的所有相似度值之和的比值,确定为所述语义相似度。

在一些实施例中,所述非共现词对应的语义相似度的计算公式如下:

其中,M′表示所述第一非共现词序列,S′表示所述第二非共现词序列,表示M′中第i个第一非共现词的词向量对应的最大相似度值,α表示所述预设阈值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西优百信息技术有限公司,未经陕西优百信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310379845.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top