[发明专利]基于预训练模型和自注意力机制的生物医学关系抽取方法在审
| 申请号: | 202010017867.3 | 申请日: | 2020-01-08 |
| 公开(公告)号: | CN111222338A | 公开(公告)日: | 2020-06-02 |
| 发明(设计)人: | 张益嘉;于洪海;田方正;刘雨;张雨琪 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/211;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 隋秀文;温福雪 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 训练 模型 注意力 机制 生物医学 关系 抽取 方法 | ||
本发明属于自然语言处理的技术领域,涉及一种基于预训练模型和自注意力机制的生物医学关系抽取方法。本发明使用ELMO预训练模型可以提取生物医学句子中更为复杂的信息,从而提升对生物医学文本的句子特征的表达效果,更好的提取生物医学实体之间的关系;加入位置特征学习到句子的内部结构和生物医学实体之间的位置关系,使用自注意力机制更好的捕捉到句子中的数据和特征的内部相关性,从而更好地完成生物医学关系抽取的任务。本发明解决当前生物医学关系抽取中大多只关注句子序列的简单语义的问题,不仅可以增强正规生物医学文本的关系抽取效果,对于社交媒体上的非正规的生物医学文本的关系抽取也有较好的效果。
技术领域
本发明属于自然语言处理的技术领域,涉及一种基于预训练模型和自注意力机制的生物医学关系抽取方法。
背景技术
随着互联网的快速发展,网络信息出现爆炸性的增长,在生物医学领域中,每天都有2000到4000篇的生物医学文献公开发表,这些文献中蕴含着海量的生物医学实体关系,如药物相互作用关系、蛋白质作用关系等,是生物医学研究的重要资源。
使用人工标注的方法从生物医学文献中标注实体关系费时费力、而且需要生物医学专业领域知识的支撑。自动、高效地抽取隐含在生物医学文献中的实体关系能够有效节省人力和资源。
传统的基于模板和规则的抽取方法,召回率较低而且需要人工构建模板。随着深度学习理论和方法的逐步成熟,研究人员开始使用深度学习神经网络模型从生物医学文献中自动地抽取生物医学实体关系。但这些方法大多只关注句子序列的简单语义,实际上,句子中两个实体间的依赖关系取决于更复杂的语义信息。
发明内容
本发明的目的是为了解决现有技术的不足而提供的一种基于预训练模型和自注意力机制的自然语言关系抽取方法,使用ELMO预训练模型可以提取生物医学句子中更为复杂的信息,包括语法、语义,甚至一词多义,从而提升对生物医学文本的句子特征的表达效果,更好的提取生物医学实体如:蛋白质与蛋白质,疾病与药物,药物和副作用之间的关系。加入位置特征学习到句子的内部结构和生物医学实体之间的位置关系,使用自注意力机制更好的捕捉到句子中的数据和特征的内部相关性,从而更好地完成生物医学关系抽取的任务。
本发明的技术方案:
一种基于预训练模型和自注意力机制的生物医学关系抽取方法,具体步骤如下:
S1)预处理标注好的生物医学的语料集:书写数据预处理程序,将原始语料转化为深度学习网络模型能够接受的输入,构建生物医学实体的位置特征,为各生物医学实体之间的关系提供信息;生物医学实体包括疾病、药物和副作用。
S2)构建生物医学文本的句子向量:将步骤S1)预处理后的语料集输入到ELMO预训练模型,抽取整个生物医学文本句子的特征,输出向量;同时,采用词嵌入方式处理步骤S1)生成的生物医学实体的位置特征,形成生物医学实体的位置向量;然后将得到的所有向量进行连接,形成一个长向量,以表示生物医学文本中的句子。
S3)输入BILSTM神经网络模型提取特征:将步骤S2)得到的长向量经过一层dropout层后,输入到BILSTM神经网络,学习生物医学的上下文信息,从而从两个方向理解生物医学文本的单个语句,BILSTM输出特征向量。
S4)使用多头自注意力机制提取生物医学文本的关键特征:BILSTM神经网络输出特征向量后,使用多头自注意力机制,捕捉生物医学文本中的数据和特征的内部相关性,再通过一层全连接层提取关键特征。
S5)生物医学实体关系预测:通过全连接层提取关键特征后,再次将结果输入到全连接神经网络中,对两个生物医学实体在句子中的关系进行预测,最终得到生物医学关系的概率分布,从而抽取生物医学关系。
本发明的技术特点如下:
(1)使用预训练模型ELMO对单词向量进行表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010017867.3/2.html,转载请声明来源钻瓜专利网。





