[发明专利]一种融入外部知识的生物医疗关系抽取方法有效

专利信息
申请号: 202110367973.9 申请日: 2021-04-06
公开(公告)号: CN112860904B 公开(公告)日: 2022-02-22
发明(设计)人: 王春宇;张浩;梁天铭;刘晓燕;刘国军;郭茂祖 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36;G06F40/205;G06F40/30
代理公司: 哈尔滨华夏松花江知识产权代理有限公司 23213 代理人: 岳昕
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融入 外部 知识 生物 医疗 关系 抽取 方法
【说明书】:

一种融入外部知识的生物医疗关系抽取方法,涉及自然语言处理技术领域,针对远程监督技术的训练数据存在噪声干扰的问题,本申请提出的生物医疗实体关系抽取方法,更为充分的利用句子间和句子内部丰富的语义信息和结构信息以及生物医疗实体在外部知识库中的信息,降低数据集中存在的噪声干扰,使得模型更为稳定,能得到更为准确的关系预测。

技术领域

发明涉及自然语言处理技术领域,具体为一种融入外部知识的生物医疗关系抽取方法。

背景技术

随着社会飞速发展,目前已经进入信息爆炸时代,在生物医疗领域中,每天都有数以千计的生物医疗文献公开发表,这些文献中含有海量的生物医疗实体关系,医生、专家们对其中的有效信息筛选与归纳的需求日益迫切,如何从海量数据提取有效信息成为一个难题。

目前,在关系抽取技术中常常采用基于监督学习的关系抽取技术,这个技术需要大量的人工标注训练数据,非常的耗时费力。因此,自动、高效地抽取隐含在文献中的生物医疗实体关系能够有效节省人力和资源。

随着深度学习理论的发展,研究人员开始使用神经网络模型从生物医疗文献中自动地抽取实体关系。其中,最常用的方法就是使用远程监督技术,自动产生大量的训练数据以供人们使用,然而远程监督技术存在的严重问题之一是其产生的训练数据存在大量的噪声,这种情况在生物医疗数据上更为突出。神经网络模型在处理远程监督生物医疗数据产生的噪音上还没有十分有效的方法,因此,如何使用神经网络的方法应用于处理远程监督生物医疗数据噪声,是一个十分有意义的研究方向

发明内容

本发明的目的是:针对远程监督技术的训练数据存在噪声干扰的问题,提出一种融入外部知识的生物医疗关系抽取方法。

本发明为了解决上述技术问题采取的技术方案是:

一种融入外部知识的生物医疗关系抽取方法,包括以下步骤:

步骤一、对生物医疗数据集中每个句子中的每个单词进行词嵌入和位置嵌入操作,得到词向量和位置向量,然后将得到的词向量和位置向量进行拼接得到每个单词的向量表示,最后将句子中所有单词的向量表示进行拼接,得到每个句子的矩阵表示;

步骤二、将步骤一得到的每个句子的矩阵表示输入到PCNN神经网络中得到生物医疗数据集中每个句子的向量表示;

步骤三、获取生物医疗数据集中每个句子的头实体和尾实体,并在外部知识图谱中分别抽取与头实体有关系的实体以及与尾实体有关系的实体,得到以头实体为中心的关系图和以尾实体为中心的关系图,将得到的两个关系图输入到图编码器中构建头尾实体的外部知识图谱的综合向量表示;

步骤四、将生物医疗数据集中每个句子的向量表示和头尾实体的外部知识图谱的综合向量进行结合,得到包含外部信息的句子向量;

步骤五、对于每个实体对,选择包含该实体对的所有句子构成一个集合,根据包含外部信息的句子向量表示,采用句子级别注意力机制计算该集合中每个句子的注意力权重,然后以该集合中所有包含外部信息的句子表示的注意力加权和作为该集合的向量表示,并对该集合的向量表示进行预测,得到该实体对的预测关系。

进一步的,所述步骤三中图编码器采用KG-Transformer。

进一步的,所述KG-Transformer的编码过程为:

KG-Transformer将输入的两个关系图中的结点序列的向量表示X={x1,x2,...,xN}输入到Muti-head Attention Layer与AddNorm Layer:

所述Muti-head Attention Layer进行如下计算:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110367973.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top