[发明专利]基于BiLSTM模型的标准实体文本确定方法、装置及存储介质有效
| 申请号: | 202111016213.X | 申请日: | 2021-08-31 |
| 公开(公告)号: | CN113779996B | 公开(公告)日: | 2023-10-10 |
| 发明(设计)人: | 文天才;周雪忠;诸强;李明洋 | 申请(专利权)人: | 中国中医科学院中医药信息研究所 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06F40/126;G06N3/0442;G06N3/084;G06N3/0464;G06N3/045;G06F18/22;G16H50/70 |
| 代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 项凯 |
| 地址: | 100700 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 bilstm 模型 标准 实体 文本 确定 方法 装置 存储 介质 | ||
1.一种基于BiLSTM模型的标准实体文本确定方法,其特征在于,包括:
针对接收到的待匹配文本实体,选取与其对应的候选实体集;
针对候选实体集中的每一个候选实体,分别与待匹配文本实体构成文本实体对;
针对每个文本实体对,采用预设神经匹配神经网络计算文本实体对的第一相似度特征向量,及采用文本统计方法、全连接网络计算文本实体对的第二相似度特征向量;
采用拼接网络将每个文本实体对的第一相似度特征向量与第二相似度特征向量拼接形成每个实体对的相似度向量,并根据每个文本实体对的相似度向量输出每个实体对中两个实体文本的相似度;
将相似度最高的文本实体对中的候选文本实体确定为与所述待匹配文本实体对应的标准文本实体。
2.根据权利要求1所述的一种基于BiLSTM模型的标准实体文本确定方法,其特征在于,所述采用预设神经匹配神经网络计算文本实体对的第一相似度特征向量,包括:
分别采用RNN模型和CNN神经网络依次对文本实体对中的待匹配文本实体和候选实体进行编码分别形成待匹配文本实体RNN码、待匹配文本实体CNN码、候选实体RNN码及候选实体CNN码;
计算待匹配文本实体RNN码相对于候选实体RNN码的正向注意力权重,及和候选实体RNN码相对于待匹配文本实体RNN码的反向注意力权重;
根据正向注意力权重、反向注意力权重、候选实体RNN码、待匹配文本实体RNN码、候选实体CNN码及待匹配文本实体CNN码确定候选实体最大池化向量、候选实体平均池化向量、待匹配文本实体最大池化向量和待匹配文本实体平均池化向量;
基于全连接网络,根据候选实体最大池化向量、候选实体平均池化向量、待匹配文本实体最大池化向量和待匹配文本实体平均池化向量确定文本实体对中待匹配文本与候选文本的相似度,并根据每个文本实体对的相似度确定其对应的第一特征向量。
3.根据权利要求1所述的一种基于BiLSTM模型的标准实体文本确定方法,其特征在于,所述预设神经匹配神经网络的损失函数为:
其中,损失的输入是一个输入实体对xi和xj,fi和fj分别表示的是输入实体对编码后映射的向量;m表示的是输入样本之间的距离边界值,是提前设定好的超参数;y为输入的标签。
4.根据权利要求1所述的一种基于BiLSTM模型的标准实体文本确定方法,其特征在于,所述待匹配实体为文字实体、英文缩写实体或者中英文混合实体。
5.根据权利要求4所述的一种基于BiLSTM模型的标准实体文本确定方法,其特征在于,若所述待匹配文本为文字实体,则所述针对接收到的待匹配文本实体,选取与其对应的候选实体集,包括:
计算待匹配文本实体与数据库中存储的待候选实体的Jaccard系数;
选取Jaccard系数不大于预设值的待候选实体,构成待候选实体集;
从待候选实体集中筛选与所述待匹配文本实体语义相同的待候选实体,构成候选实体集。
6.根据权利要求5所述的一种基于BiLSTM模型的标准实体文本确定方法,其特征在于,所述计算待匹配文本实体与数据库中存储的待候选实体的Jaccard系数,包括:
采用第一数学模型,计算待匹配文本实体与数据库中存储的待候选实体的Jaccard系数;所述第一数学模型为:
其中,A为构成待匹配实体的文字或字母的集合;Bi为构成第i个待候选实体的文字或字母的集合。
7.根据权利要求4所述的一种基于BiLSTM模型的标准实体文本确定方法,其特征在于,若所述待匹配实体为英文缩写实体或者中英文混合实体,则所述针对接收到的待匹配文本实体,选取与其对应的候选实体集,包括:
采用训练好的第三神经网络,以所述待匹配实体为输入,以与所述待匹配文本匹配的候选实体为输出,与同一个待匹配实体对应的候选实体构成候选实体集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国中医科学院中医药信息研究所,未经中国中医科学院中医药信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111016213.X/1.html,转载请声明来源钻瓜专利网。





