[发明专利]基于三元损失训练策略的生物医学实体关系抽取方法在审
申请号: | 202111455875.7 | 申请日: | 2021-12-01 |
公开(公告)号: | CN114238561A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 赵哲焕;邹玉莹;刘宇;王昭瑄;蔡博 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/295;G16H50/70;G06N3/04;G06N3/08 |
代理公司: | 大连格智知识产权代理有限公司 21238 | 代理人: | 潘小铁 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 三元 损失 训练 策略 生物医学 实体 关系 抽取 方法 | ||
1.一种基于三元损失训练策略的生物医学实体关系抽取方法,其特征在于,包括以下步骤:
步骤1:按照三种规则从训练数据中提取有效的三元数据,其中每组三元数据包含三个训练实例;所述三种规则为,对于每个正实例,从同一个句子中获得一个负实例,然后从随机选择的另一个句子中获得一个正实例,以形成一组三元数据;对于每个负实例,从同一个句子中获得一个正实例,然后从随机选择的另一个句子中获得一个负实例,以形成一组三元数据;对于无法从同一个句子中找到正实例/负实例的每个负实例/正实例,随机地从训练数据集中选择一个正实例和一个负实例,从而形成一组有效的三元数据;
步骤2:使用基于BERT的神经网络模型进行三元数据的特征提取,对于三元数据中的每个实例,用特殊符号标记实体对的位置:在句子中我们在第一个实体的前后加入“$”,在第二个实体的前后加入“#”;并在句首插入“CLS”标记符用以代表整个句子,然后将加入标记符的实例输入到基于BERT的特征提取器中,以提取实例的句子级特征和实体级特征;
具体步骤为:
S1、把每一个实例映射为隐藏状态序列H={H0,H1,H2,...,HN};
S2、其中H0是第一个字符“[CLS]”的嵌入表示,将它视为句子级嵌入表示;
S3、Hi到Hj是命名实体e1的嵌入表示,Hm到Hn是命名实体e2的嵌入表示,由于每个实体的长度是不一致的,所以对其进行取平均运算来获得具有指定长度的实体级嵌入表示;
S4、为了提取更多的抽象特征,对句子级嵌入和实体级嵌入中都增加了全连接计算,以获得最终的句子级特征向量H′0和实体级特征向量He1和He2,具体计算过程如公式所示:
H′0=W0[tanh(H0)]+b0
其中W0和W是神经网络计算中的权重参数,b和b0是偏置参数,四者均为神经网络模型参数,在模型训练过程中自动学习更新;
步骤3:基于步骤2中提取出的三元数据特征向量,使用三元损失训练策略训练关系分类模型,以便分类器可以更准确地对SODC实例进行分类,训练原理是:在特征空间中约束三元数据中两两实例之间的距离,即拉大SODC实例对之间的距离,缩小同类不同源实例对之间的距离,通过训练可以得到新的便于分类的特征嵌入;
所述三元损失训练函数分为两个部分,一部分包括:交叉熵损失,引入类别标签信息,指导模型训练更快地收敛,具体步骤为:
第一步:将每个实例的句子级特征向量H′0和实体级特征向量He1和He2拼接在一起,然后使用全连接神经网路计算得到每个实例的特征表示e,其计算公式如下,其中W3是权重矩阵,b3是偏置项,两者皆为模型参数,在模型训练中不断更新;
e=W3[concat(H′0;He1;He2)]+b3
第二步:使用sofmax函数计算得到每个实例最终的类别预测结果p,计算公式如下;
p=softmax(e)
第三步:使用交叉熵公式计算交叉熵损失lossCE;具体计算过程如公式所示,其中yi是三元组中第i个实例的真实类别标签,pi是本模型对三元组中第i个实例的预测标签:
所述三元损失训练函数的另一部分包括:三元损失,通过三元损失约束指导模型正确分类SODC实例,具体步骤为:
第一步:对于每个实例,两个实体级特征向量和被叠加到一起得到合并的实体级特征向量
He=stack[He1,He2]
第二步:为了捕获实体对内的相关信息,对He执行一维卷积得到新的特征向量Hep;
Hep=fconv(He)
第三步:使用三个实体级卷积特征向量计算三元损失,计算过程如公式所示:
其中,和分别表示三元数据中的实例1、实例2和实例3的实体级特征向量,α是可人为调整的超参数,其是在正实例和负实例之间强制保留的边界;模型最终损失计算如下公式所示:
loss=lossCE+βlossTL
其中β为可人为调整的超参数,用以调整两部分损失在训练过程中所占的比重;
使用深度学习框架Pytorch中的Adam优化器,根据计算的loss训练整个模型,更新模型中所有参数,使更新后的模型分类结果无限近似训练数据的真实类别;
步骤4:基于上述步骤得到训练好的模型之后,即可向模型中输入测试集实例;
第一步:抽取出测试实例的句子级特征向量H′0和实体级特征向量(He1、He2),句子级特征向量包含实例的上下文信息,实体级特征向量包含特定实体对本身的信息;
第二步:通过拼接句子级特征向量和实体级特征向量得到更加全面的全局信息作为实例的最终特征表示;
第三步:将最终特征表示输入到全连接网络层得到e,最后将e输入到Softmax分类器中得到实例对应的类别标签p。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111455875.7/1.html,转载请声明来源钻瓜专利网。