[发明专利]端到端实体模糊方法和系统、电子设备、计算机存储介质在审

专利信息
申请号: 202210176436.0 申请日: 2022-02-24
公开(公告)号: CN114722792A 公开(公告)日: 2022-07-08
发明(设计)人: 梅林海;陈洋;连德富;刘权;凌震华 申请(专利权)人: 中国科学技术大学
主分类号: G06F40/194 分类号: G06F40/194;G06F40/268;G06F40/284
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 周初冬
地址: 230026 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 端到端 实体 模糊 方法 系统 电子设备 计算机 存储 介质
【说明书】:

发明提供一种端到端实体模糊方法和系统、电子设备、计算机存储介质,该方法包括:获取用户的请求信息;将请求信息分别与多个预设候选信息均进行实体模糊处理,得到多个相似度;取多个相似度中相似度最高的作为实体模糊后的最终相似度;不需要人工计算前缀匹配、后缀匹配、NGram、CLS等人工总结、计算的特征方式,采用模型自主学习特征方式,让模型能够自主学习到更多深层次的特征信息,也即,轻模型工程化的复杂度,并且让模型能够自主的学习更多潜在的、隐藏特征。

技术领域

本发明属于自然语言处理技术领域,更具体的说,尤其涉及一种端到端实体模糊方法和系统、电子设备、计算机存储介质。

背景技术

自然语言处理,主要解决的是自然语言处理过程中,当在语音识别后的文本包含噪音、识别错误、用户表达不全的情况下,能够根据实体候选列表匹配到最相似的实体。

现有的实体模糊技术主要靠的是特征工程方案,在模型推理之前,需要人工计算特征,例如前缀匹配、后缀匹配、编辑距离等特征。这种模型方案不属于端到端的模型方案,工程化较复杂;且人工总结的特征可能存在不全面的情况,使得模型无法学习到更多深度次隐藏的特征。

发明内容

有鉴于此,本发明的目的在于提供一种端到端实体模糊方法和系统、电子设备、计算机存储介质,用于舍弃现有人工总结、计算的特征方式,采用模型自主学习特征方式,让模型能够自主学习到更多深层次的特征信息。

本申请第一方面公开了一种端到端实体模糊方法,包括:

获取用户的请求信息;

将所述请求信息分别与多个预设的候选信息均进行实体模糊处理,得到多个相似度;

取多个所述相似度中相似度最高的值,作为实体模糊后的最终相似度。

可选的,将所述请求信息与所述预设的候选信息进行实体模糊处理,得到所述相似度,包括:

对所述请求信息和所述预设的候选信息进行词性解析,得到所述请求信息的文本信息、所述请求信息的词性信息、所述候选信息的文本信息和所述候选信息的词性信息;

对所述请求信息的文本信息与所述候选信息的文本信息,进行特征自训练,得到特征相似度;以及,对所述请求信息的文本信息、所述请求信息的词性信息、所述候选信息的文本信息和所述候选信息的词性信息进行注意力处理得到注意力相似度;

将所述特征相似度和所述注意力相似度,进行拼接后进行矩阵运行,得到所述请求信息的文本信息与候选信息的文本信息的相似度。

可选的,对所述请求信息的文本信息与所述候选信息的文本信息,进行特征自训练,得到特征相似度,包括:

所述请求信息的文本信息保持不动,所述候选信息的文本信息向右依次平移,并计算每次平移后的两个文本信息的叠加向量;以及,所述请求信息的文本信息保持不动,所述候选信息的文本信息向左依次平移,并计算每次平移后的两个的叠加向量;

将各个所述叠加向量作为局部相似片段;

将各个所述局部片段进行线性函数处理,得到特征相似度。

可选的,请求信息的文本信息保持不动,候选信息的文本信息向右依次平移,并计算每次平移后的两个文本信息的叠加向量;以及,所述请求信息的文本信息保持不动,所述候选信息的文本信息向左依次平移,并计算每次平移后的两个文本信息的叠加向量,所采用的公式包括:

其中,pos是左右平移位置编码;向左平移n次时,pos分别是0,-1,-2,-n;向右平移n次时,pos分别是0,1,2,n;d为位置编码矩阵的维度;PE(pos,2i)为学习偶数位置上的位置编码矩阵;PE(pos,2i+1)为学习奇数位置上的位置编码矩阵;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210176436.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top