[发明专利]融合迭代式主动学习的生物医学关系抽取方法及系统在审
申请号: | 202310052151.0 | 申请日: | 2023-02-02 |
公开(公告)号: | CN116070700A | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 周雪忠;苏鑫;杨扩 | 申请(专利权)人: | 北京交通大学 |
主分类号: | G06N5/025 | 分类号: | G06N5/025;G06N5/022;G06N20/00 |
代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 邹芳德 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 迭代式 主动 学习 生物医学 关系 抽取 方法 系统 | ||
1.一种融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,包括:
从PubMed医学文献数据库获取生物医学文献的摘要文本,对文本数据进行预处理,获取句子级别训练集;
随机从训练集中抽取部分样本作为初始语料集对实体关系联合抽取框架进行训练,获得初始模型;该模型包括上下文编码器和标签解码器;所述上下文编码器用于对输入的句子进行编码,再将实体对两两拼接输入到全连接层,输出实体对的向量表示;所述标签解码器用于对实体对进行分类,得到最后的实体关系联合抽取结果。
2.根据权利要求1所述的融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,利用初始模型获取每条样本对应的预测标签序列及每个预测标签的概率,结合主动学习策略计算每条未标注样本的不确定度;基于不确定度值进行样本排序,对排序靠前的样本进行标注,加入到已标注样本集中,对样本集进行更新。
3.根据权利要求2所述的融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,基于更新后的标注样本集,重新训练关系抽取模型,得到优化模型,进而再进行主动学习样本筛选,重新训练优化抽取模型,重复以上步骤,直到模型性能达到预设精度。
4.根据权利要求3所述的融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,所述主动学习策略为随机采样、最小置信度、边缘采样、熵采样、不确定度采样、贝叶斯采样或Core-set样本集采样中的一种。
5.根据权利要求4所述的融合迭代式主动学习的生物医学关系抽取模型训练方法,其特征在于,结合人类疾病基因数据库,构建疾病-基因真实关系的数据字典;结合构建的数据字典中疾病、基因的CUI编号以及名称对SemMed数据库做关联查询,初步筛选出疾病基因关系表;对初筛表进行正别名匹配,经过字典匹配得到最终的关系文献证据表,构建出标准数据集。
6.一种融合迭代式主动学习的生物医学关系抽取方法,其特征在于,包括:
从生物医学库中获取待抽取的文献句子;
利用预先训练好的关系抽取模型,对待抽取的句子进行处理,得到最后的实体关系联合抽取结果;其中,所述关系抽取模型为使用如权利要求1-5任一项所述的融合迭代式主动学习的生物医学关系抽取模型训练方法训练得到。
7.一种融合迭代式主动学习的生物医学关系抽取系统,其特征在于,包括:
获取模块,用于从生物医学库中获取待抽取的文献句子;
抽取模块,用于利用预先训练好的关系抽取模型,对待抽取的句子进行处理,得到最后的实体关系联合抽取结果,抽取出生物医学文献中的知识;其中,所述关系抽取模型为使用如权利要求1-5任一项所述的融合迭代式主动学习的生物医学关系抽取模型训练方法训练得到。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求6所述的融合迭代式主动学习的生物医学关系抽取方法。
9.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如权利要求6所述的融合迭代式主动学习的生物医学关系抽取方法。
10.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求6所述的融合迭代式主动学习的生物医学关系抽取方法的指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310052151.0/1.html,转载请声明来源钻瓜专利网。