[发明专利]端到端实体模糊方法和系统、电子设备、计算机存储介质在审
申请号: | 202210176436.0 | 申请日: | 2022-02-24 |
公开(公告)号: | CN114722792A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 梅林海;陈洋;连德富;刘权;凌震华 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/268;G06F40/284 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 周初冬 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 端到端 实体 模糊 方法 系统 电子设备 计算机 存储 介质 | ||
本发明提供一种端到端实体模糊方法和系统、电子设备、计算机存储介质,该方法包括:获取用户的请求信息;将请求信息分别与多个预设候选信息均进行实体模糊处理,得到多个相似度;取多个相似度中相似度最高的作为实体模糊后的最终相似度;不需要人工计算前缀匹配、后缀匹配、NGram、CLS等人工总结、计算的特征方式,采用模型自主学习特征方式,让模型能够自主学习到更多深层次的特征信息,也即,轻模型工程化的复杂度,并且让模型能够自主的学习更多潜在的、隐藏特征。
技术领域
本发明属于自然语言处理技术领域,更具体的说,尤其涉及一种端到端实体模糊方法和系统、电子设备、计算机存储介质。
背景技术
自然语言处理,主要解决的是自然语言处理过程中,当在语音识别后的文本包含噪音、识别错误、用户表达不全的情况下,能够根据实体候选列表匹配到最相似的实体。
现有的实体模糊技术主要靠的是特征工程方案,在模型推理之前,需要人工计算特征,例如前缀匹配、后缀匹配、编辑距离等特征。这种模型方案不属于端到端的模型方案,工程化较复杂;且人工总结的特征可能存在不全面的情况,使得模型无法学习到更多深度次隐藏的特征。
发明内容
有鉴于此,本发明的目的在于提供一种端到端实体模糊方法和系统、电子设备、计算机存储介质,用于舍弃现有人工总结、计算的特征方式,采用模型自主学习特征方式,让模型能够自主学习到更多深层次的特征信息。
本申请第一方面公开了一种端到端实体模糊方法,包括:
获取用户的请求信息;
将所述请求信息分别与多个预设的候选信息均进行实体模糊处理,得到多个相似度;
取多个所述相似度中相似度最高的值,作为实体模糊后的最终相似度。
可选的,将所述请求信息与所述预设的候选信息进行实体模糊处理,得到所述相似度,包括:
对所述请求信息和所述预设的候选信息进行词性解析,得到所述请求信息的文本信息、所述请求信息的词性信息、所述候选信息的文本信息和所述候选信息的词性信息;
对所述请求信息的文本信息与所述候选信息的文本信息,进行特征自训练,得到特征相似度;以及,对所述请求信息的文本信息、所述请求信息的词性信息、所述候选信息的文本信息和所述候选信息的词性信息进行注意力处理得到注意力相似度;
将所述特征相似度和所述注意力相似度,进行拼接后进行矩阵运行,得到所述请求信息的文本信息与候选信息的文本信息的相似度。
可选的,对所述请求信息的文本信息与所述候选信息的文本信息,进行特征自训练,得到特征相似度,包括:
所述请求信息的文本信息保持不动,所述候选信息的文本信息向右依次平移,并计算每次平移后的两个文本信息的叠加向量;以及,所述请求信息的文本信息保持不动,所述候选信息的文本信息向左依次平移,并计算每次平移后的两个的叠加向量;
将各个所述叠加向量作为局部相似片段;
将各个所述局部片段进行线性函数处理,得到特征相似度。
可选的,请求信息的文本信息保持不动,候选信息的文本信息向右依次平移,并计算每次平移后的两个文本信息的叠加向量;以及,所述请求信息的文本信息保持不动,所述候选信息的文本信息向左依次平移,并计算每次平移后的两个文本信息的叠加向量,所采用的公式包括:
其中,pos是左右平移位置编码;向左平移n次时,pos分别是0,-1,-2,-n;向右平移n次时,pos分别是0,1,2,n;d为位置编码矩阵的维度;PE(pos,2i)为学习偶数位置上的位置编码矩阵;PE(pos,2i+1)为学习奇数位置上的位置编码矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210176436.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电力电缆识别方法
- 下一篇:一种保持元件高Q值的低剖面三维集成射频模组