[发明专利]一种融入外部知识的生物医疗关系抽取方法有效
申请号: | 202110367973.9 | 申请日: | 2021-04-06 |
公开(公告)号: | CN112860904B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 王春宇;张浩;梁天铭;刘晓燕;刘国军;郭茂祖 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/205;G06F40/30 |
代理公司: | 哈尔滨华夏松花江知识产权代理有限公司 23213 | 代理人: | 岳昕 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融入 外部 知识 生物 医疗 关系 抽取 方法 | ||
1.一种融入外部知识的生物医疗关系抽取方法,其特征在于包括以下步骤:
步骤一、对生物医疗数据集中每个句子中的每个单词进行词嵌入和位置嵌入操作,得到词向量和位置向量,然后将得到的词向量和位置向量进行拼接得到每个单词的向量表示,最后将句子中所有单词的向量表示进行拼接,得到每个句子的矩阵表示;
步骤二、将步骤一得到的每个句子的矩阵表示输入到PCNN神经网络中得到生物医疗数据集中每个句子的向量表示;
步骤三、获取生物医疗数据集中每个句子的头实体和尾实体,并在外部知识图谱中分别抽取与头实体有关系的实体以及与尾实体有关系的实体,得到以头实体为中心的关系图和以尾实体为中心的关系图,将得到的两个关系图输入到图编码器中构建头尾实体的外部知识图谱的综合向量表示;
步骤四、将生物医疗数据集中每个句子的向量表示和头尾实体的外部知识图谱的综合向量进行结合,得到包含外部信息的句子向量;
步骤五、对于每个实体对,选择包含该实体对的所有句子构成一个集合,根据包含外部信息的句子向量表示,采用句子级别注意力机制计算该集合中每个句子的注意力权重,然后以该集合中所有包含外部信息的句子表示的注意力加权和作为该集合的向量表示,并对该集合的向量表示进行预测,得到该实体对的预测关系。
2.根据权利要求1所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述步骤三中图编码器采用KG-Transformer。
3.根据权利要求2所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述KG-Transformer的编码过程为:
KG-Transformer将输入的两个关系图中的结点序列的向量表示X={x1,x2,...,xN}输入到Muti-head Attention Layer与AddNorm Layer:
所述Muti-head Attention Layer进行如下计算:
其中,表示这一层H个注意头的拼接,x'i表示输出的节点表示,A为邻接矩阵,i表示第i行,j表示第j列,d为结点嵌入的维度,均为权重矩阵,N表示结点序列的长度,Masking(X,A)表示按照矩阵A中值为1的位置对矩阵X的相应位置的值进行掩码操作,表示第h个注意力头关于结点xj的注意力权重,h表示第h个注意力头,表示的所有行元素求和,I为单位矩阵;
所述AddNorm Layer进行如下计算:
O=LayerNorm(X+X')
其中,X={x1,x2,......,xN},X为结点序列的向量表示,X'={x'1,x'2,......x'N},X'为Muti-head Attention Layer计算的输出,LayerNorm(·)为层归一化函数,该输出结果O将作为下一层Muti-head Attention Layer的输入;
上述计算过程重复L次,L为任意整数,得到所有结点的向量表示,最后分别将头实体和尾实体的关系图的所有结点的向量表示求和,得到头尾实体的综合向量表示。
4.根据权利要求3所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述L取8、12、16或24。
5.根据权利要求1所述的一种融入外部知识的生物医疗关系抽取方法,其特征在于所述步骤二中PCNN神经网络通过卷积、池化和非线性操作得到生物医疗数据集中每个句子的向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110367973.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:通信系统
- 下一篇:一种C5aR抗体及其制备方法和应用