[发明专利]基于预训练模型和自注意力机制的生物医学关系抽取方法在审
| 申请号: | 202010017867.3 | 申请日: | 2020-01-08 |
| 公开(公告)号: | CN111222338A | 公开(公告)日: | 2020-06-02 |
| 发明(设计)人: | 张益嘉;于洪海;田方正;刘雨;张雨琪 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/211;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 隋秀文;温福雪 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 训练 模型 注意力 机制 生物医学 关系 抽取 方法 | ||
1.一种基于预训练模型和自注意力机制的生物医学关系抽取方法,其特征在于,具体步骤如下:
S1)预处理标注好的生物医学的语料集:书写数据预处理程序,将原始语料转化为深度学习网络模型能够接受的输入,构建生物医学实体的位置特征,为各生物医学实体之间的关系提供信息;
S2)构建生物医学文本的句子向量:将步骤S1)预处理后的语料集输入到ELMO预训练模型,抽取整个生物医学文本句子的特征,输出向量;同时,采用词嵌入方式处理步骤S1)生成的生物医学实体的位置特征,形成生物医学实体的位置向量;然后将得到的所有向量进行连接,形成一个长向量,以表示生物医学文本中的句子;
S3)输入BILSTM神经网络模型提取特征:将步骤S2)得到的长向量经过一层dropout层后,输入到BILSTM神经网络,学习生物医学的上下文信息,从而从两个方向理解生物医学文本的单个语句,BILSTM输出特征向量;
S4)使用多头自注意力机制提取生物医学文本的关键特征:BILSTM神经网络输出特征向量后,使用多头自注意力机制,捕捉生物医学文本中的数据和特征的内部相关性,再通过一层全连接层提取关键特征;
S5)生物医学实体关系预测:通过全连接层提取关键特征后,再次将结果输入到全连接神经网络中,对两个生物医学实体在句子中的关系进行预测,最终得到生物医学关系的概率分布,从而抽取生物医学关系。
2.根据权利要求1所述的一种基于预训练模型和自注意力机制的生物医学关系抽取方法,其特征在于,所述的生物医学实体包括疾病、药物和副作用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010017867.3/1.html,转载请声明来源钻瓜专利网。





