[发明专利]一种以实体为导向的生物医学关系抽取方法、装置及存储介质在审
| 申请号: | 202310457288.4 | 申请日: | 2023-04-25 |
| 公开(公告)号: | CN116595171A | 公开(公告)日: | 2023-08-15 |
| 发明(设计)人: | 扈应;陈艳平;黄瑞章;秦永彬 | 申请(专利权)人: | 贵州大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/30;G06N5/025;G06N3/045;G06N3/0464;G06N3/047;G06N3/048;G16B40/00;G16H50/70 |
| 代理公司: | 贵阳中新专利商标事务所 52100 | 代理人: | 张彪 |
| 地址: | 550025 贵州省贵*** | 国省代码: | 贵州;52 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 实体 导向 生物医学 关系 抽取 方法 装置 存储 介质 | ||
本发明公开了一种以实体为导向的生物医学关系抽取方法、装置及存储介质,所述方法包括以下步骤:步骤一:提取关系实例的全局语义信息,提取关系实例的面向实体的语义信息;步骤二:通过全局语义信息和以实体为导向的语义信息计算实体对中各实体对应的差异向量;步骤三:结合关系实例的全局语义信息和实体对中各实体对应的差异向量完成关系分类。以解决现有技术在面对实体对共享相同的上下文的情况时,不能实现正确分类的问题。
技术领域
本发明涉及一种以实体为导向的生物医学关系抽取方法、装置及存储介质,属于生物医学自然语言处理和深度学习技术领域。
背景技术
近年来,生物医学自然语言处理(BioNLP)在生物医学文献自动提取专业知识方面有着广泛的应用前景。生物医学关系抽取(BioRE)是利用生物医学文本中的上下文信息提取实体对之间的语义关系。这是一项在生物医学自然语言处理中基础且具有挑战性的课题,并已获得重大关注。在生物医学研究的众多应用,例如,蛋白质相互作用(PPI)对于建立蛋白质复合物发现网络非常重要,揭示了疾病的机制。BioRE是构建生物医学知识的一个关键方面,也是知识图谱的一个核心组成部分。此外,在诸如辅助诊断,Meta分析,新药研究等领域也有重要的应用。
文本中的BioRE是识别一个给定句子中的两个实体是否相互作用的过程,如果存在相互作用,则对相互作用类型进行分类。如果一个句子包含两个以上的实体,那么这个句子中所有可能的实体对都应该分开计算。到目前为止,各种方法都在研究如何获取具有预定义实体标记的输入实例的全局语义信息。基于深度学习的方法由于具有处理原始输入、自动提取特征和端到端学习的能力,已经成为BioRE的主流方法。神经网络在这些模型中的应用使它们能够在各种BioRE任务中取得显著的性能。特别是基于CNN、RNN的方法得到越来越多的应用。近年来,随着BioBERT通过对大规模生物医学语料库的预训练来学习相关领域知识,预训练语言模型(pre-training language model,PLM)在许多BioNLP任务中的良好表现受到了人们的关注。尽管BioBERT及其变体/扩展在BioRE上取得了巨大的成功,但大多数这些模型都是基于单个输入实例信息开发的,换句话说,这些方法不能有效地处理一个句子包含多个实体对的情况,即邻近语义问题。
这里举两个例子来反映近义语义问题,如图2所示。一方面,邻近语义问题是由于实体重叠而引起的。对于句子S1,有8个实体,因此会考虑28对关系实例是否存在交互作用。然而,只有2个实例被注释为正面的关系交互。此外,由于使用了重叠实体,存在严重的近义语义问题。例如,实体“[IFN-gamma SC1]3”和实体“[IFN-gamma receptor alpha chain]6”之间存在交互作用。然而,由于实体重叠,“[IFN-gamma SC1]3”和实体“[IFN-gamma]4”或实体“[IFN-gamma receptor]5”之间并没有任何交互作用。另一方面,近义语义问题也可以由上下文确定实体不同含义而引起。对于第二句话,它包含6个实体和15个关系实例,其中只有1个实例被注释为正面的关系交互。有三个相同的实体(“[EPO]2”、“[EPO]4”和“[EPO]5”)。实体“[erythropoietin(EPO)receptor]3”和实体“[EPO]4”之间有一个交互关系,而实体“[erythropoietin(EPO)receptor]3”和实体“[EPO]5”之间没有交互关系。尽管实体“[EPO]4”和实体“[EPO]5”之间距离很近,但与其他实体的交互作用有很大的不同。
在生物关系抽取中,常用的方法是将句子中的实体替换为特殊标记,然后将其作为输入提供给预训练语言模型(PLMs)。这种方法有助于提取输入的全局语义信息,从而实现关系分类的最佳性能。然而,现有研究的一个主要限制是它们忽略了近义语义问题。在自然语言处理领域,Wu等人利用PLMs并整合目标实体信息来处理关系抽取任务。Wu等人的做法是只考虑一个输入实例,将文本和实体1、2一起输入到预训练语言模型中,在全局语义的基础上加入了实体1和2的信息,尽管他们在某些情况下取得了成功,但是因为预训练语言模型本身就可以学习到实体1、2和文本的交互信息,但是在遇到以下情况时模型提升的效果较为有限:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310457288.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:扩展问筛选方法、装置、电子设备及存储介质
- 下一篇:一种电感器的制备方法





