[发明专利]基于三元损失训练策略的生物医学实体关系抽取方法在审

专利信息
申请号: 202111455875.7 申请日: 2021-12-01
公开(公告)号: CN114238561A 公开(公告)日: 2022-03-25
发明(设计)人: 赵哲焕;邹玉莹;刘宇;王昭瑄;蔡博 申请(专利权)人: 大连理工大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/295;G16H50/70;G06N3/04;G06N3/08
代理公司: 大连格智知识产权代理有限公司 21238 代理人: 潘小铁
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 三元 损失 训练 策略 生物医学 实体 关系 抽取 方法
【说明书】:

发明公开了一种基于三元损失训练策略的生物医学实体关系抽取方法,该方法主要包括:三元数据生成,句子级特征和实体级特征提取,关系分类。首先使用三元数据生成规则得到合法的三元数据;之后使用基于Bert的神经网络模型抽取每个实例的句子级特征和实体级特征;接着基于句子级和实体级特征向量计算模型三元损失进行模型训练;在训练结束后可以直接使用模型得到的特征向量进行关系分类,从而得到实体对关系类别。本发明能够避免将“来自同一个句子但属于不同类别”的实例错分为同一类的情况,更好的提升关系分类的准确率。

技术领域

本发明涉及然语言处理领域,更具体地说,涉及基于三元损失训练策略的生物医学实体关系抽取方法。

背景技术

生物医学实体之间的相互作用包含着丰富的信息,这对生物医学研究领域具有重要意义。药物-药物作用信息(DDIs)是指一种药物的作用被另一种药物改变的现象。据统计,临床药物不良反应(ADR)的概率高达6%,在美国和欧洲每年约有300,000人死于ADR。药物间相互作用关系可以指导患者正确用药,避免同时服用两种或两种以上具有一定相互作用关系的药物引起的不良反应。蛋白质-蛋白质作用关系(PPIs)可用于设计治疗药物,帮助研究人员识别蛋白质复合物,并发现疾病机制。因此,全面准确的药物-药物作用信息和蛋白质-蛋白质作用信息对生物医学领域的发展具有非常积极的影响。

数量成倍增长的生物医学文献中隐藏着大量的DDIs和PPIs。从文献中手动标记DDIs和PPIs是一项费时费力的任务。因此迫切需要从大量生物医学文献中自动提取关系(如DDIs、PPIs)。近年来,深度学习算法在生物医学文本挖掘领域表现良好。比如基于卷积神经网络的模型和基于递归神经网络的模型均在关系抽取任务中有优秀表现,预训练模型更是取得了较为先进的结果。

尽管深度学习方法在关系抽取任务上取得了显著的效果,但仍有很大的改进空间。例如,在句子级别提取生物医学关系时,一些同源但不同类别(SODC)的实例很容易被错误地划分为同一类别。比如在句子“通过TPO的对比刺激导致含有JAK2的Grb2复合物的形成。”中包含三种蛋白质实体“TPO”、“Grb2”和“JAK2”,它们可以形成三种候选关系。其中,实例“TPO,False,Grbs”和实例“Grb2,True,JAK2”是SODC实例。由于SODC实例是从同一个句子生成的,它们具有几乎相同的词汇信息和句法信息,这很容易误导模型将它们划分为同一类。因此此处存在一个关键问题:如何使模型更准确的对SODC实例进行分类。

发明内容

本发明为了解决这个问题,提供了一种基于三元损失训练策略的生物医学实体关系抽取方法,三元损失训练策略将在特征空间中增大“由同一句子生成但属于不同类”的实例之间的距离,并减少“由不同句子生成但属于同一类”的实例之间的距离”。本发明方法可以更正确地对从同一个句子生成的实例进行分类。

为了实现上述目的,本发明采用的技术方案是:

一种基于三元损失训练策略的生物医学实体关系抽取方法,包括以下步骤:

步骤1:按照三种规则从训练数据中提取有效的三元数据,其中每组三元数据包含三个训练实例;所述三种规则为,对于每个正实例,从同一个句子中获得一个负实例,然后从随机选择的另一个句子中获得一个正实例,以形成一组三元数据;对于每个负实例,从同一个句子中获得一个正实例,然后从随机选择的另一个句子中获得一个负实例,以形成一组三元数据;对于无法从同一个句子中找到正实例/负实例的每个负实例/正实例,随机地从训练数据中选择一个正实例和一个负实例,从而形成一组有效的三元数据;

步骤2:使用基于BERT的神经网络模型进行三元数据的特征提取,对于三元数据中的每个实例,用特殊符号标记实体对的位置:在句子中我们在第一个实体的前后加入“$”,在第二个实体的前后加入“#”;并在句首插入“CLS”标记符用以代表整个句子,然后将加入标记符的实例输入到基于BERT的特征提取器中,以提取实例的句子级特征和实体级特征;

具体步骤为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111455875.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top