[发明专利]融合迭代式主动学习的生物医学关系抽取方法及系统在审

专利信息
申请号: 202310052151.0 申请日: 2023-02-02
公开(公告)号: CN116070700A 公开(公告)日: 2023-05-05
发明(设计)人: 周雪忠;苏鑫;杨扩 申请(专利权)人: 北京交通大学
主分类号: G06N5/025 分类号: G06N5/025;G06N5/022;G06N20/00
代理公司: 北京市商泰律师事务所 11255 代理人: 邹芳德
地址: 100044 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 融合 迭代式 主动 学习 生物医学 关系 抽取 方法 系统
【说明书】:

本发明提供一种融合迭代式主动学习的生物医学关系抽取方法及系统,属于医学信息处理技术领域,从PubMed等生物医学文献库中获取用于关系抽取的标准数据集;结合主动学习算法筛选出有价值的样本对模型进行训练;利用训练好的关系抽取模型,对待抽取的句子进行处理,得到最后的实体关系联合抽取结果,抽取出生物医学文献中的知识;其中,关系抽取模型为使用融合迭代式主动学习的生物医学关系抽取模型训练方法训练得到。本发明融合多种主动学习策略的生物医学实体关系联合抽取框架,实现迭代式的主动学习样本筛选和实体关系联合抽取模型训练,有效减少了实体关系联合抽取过程中模型训练所需要的训练集数量,提高了模型训练效率,降低了模型训练成本。

技术领域

本发明涉及医学信息处理技术领域,具体涉及一种融合迭代式主动学习的生物医学关系抽取方法及系统。

背景技术

随着生物医学研究的迅速发展,生物医学文献大幅增长,其中蕴含的领域知识(如疾病基因关系、药物靶点关系等),对生物医学研究和应用至关重要。但这些文献大多存储于非结构化电子文本中,若使用人工标注方法从文献中获取相关知识费时费力,因此,自动、高效地抽取隐含在生物医学文献中的实体关系十分重要。目前,大多数基于深度学习的关系抽取模型训练依赖足够的标签数据,而现有的生物医学关系抽取公开数据集大多是以二元关系为主且数据规模较小(如药物相互作用关系DDI、蛋白质相互作用关系PPIs、药物副作用关系ADE等),所以如何从生物医学文献获取大规模、高质量的标注数据是当前研究难点。

目前生物医学关系抽取方法研究主要是基于循环神经网络RNN、预训练模型BERT等在一些公开数据集(如药物相互作用关系DDI、蛋白质相互作用关系PPIs、药物副作用关系ADE等)上进行模型训练和关系抽取,需要依赖于大量标注数据,但生物医学数据集的标注需要领域专家审核、标注成本较高,因而高质量的生物医学标签文本非常稀缺。

为缓解生物医学数据集中的标签稀缺问题,相关研究者结合数据增强、远程监督、主动学习等技术扩充标记样本。信息抽取任务中,应用主动学习技术可以帮助挑选最具代表性与信息量的少量样本,通过专家标注,以达到提高标注效率的作用。例如,罗彤等人(2019)提出一种基于弱监督主动学习(考虑置信度和表示性)、针对单个文本分类或序列标注任务的智能标注方法;刘珂等人(2021)提出一种融合信息熵和相似度的主动学习策略,应用于航空领域的实体关系联合抽取;杨恺等人(2021)提出一种基于实体词频概率不确定度的主动学习策略选取样本标注;王海泉等人(2022)提出基于最大归一化概率MNLP的主动学习策略,将其嵌入到命名实体识别模型获取实体预测概率,归一化后选取最小置信度的样本进行标注。从技术实现角度来看,目前只有刘珂等人(2021)的专利是将主动学习应用于实体关系的联合抽取,其实现过程分为两步:1)将主动学习策略嵌入到CNN模型并用于待标注样本筛选;2)经专家标注后的样本再用于实体关系联合抽取模型。以上两个分离的计算步骤无法实现边训练边筛选出最佳待标注样本以供关系抽取模型更新的目标。其他基于主动学习的命名实体识别框架一般是采用单一主动学习策略(如信息熵或不确定度等),而未采用多种主动学习策略对比的方式选择最优主动学习采样策略。事实上,不同数据集具有不同的分布和异质性,针对不同分布的数据集选择合理的主动学习策略,可以有效地减少标注成本。从应用领域来看,现有技术大多是针对通用领域(如航空领域、新闻领域等),以中文文本数据为主,尚未建立面向生物医学英文文献、基于主动学习的实体关系联合抽取方法。

发明内容

本发明的目的在于提供一种融合迭代式主动学习的生物医学关系抽取方法及系统,以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的,本发明采取了如下技术方案:

一方面,本发明提供一种融合迭代式主动学习的生物医学关系抽取模型训练方法,包括:

从PubMed医学文献数据库获取生物医学文献的摘要文本,对文本数据进行预处理,获取句子级别训练集;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310052151.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top