[发明专利]基于交谈注意力机制的中文医学文本实体关系联合抽取方法在审

专利信息
申请号: 202210315494.7 申请日: 2022-03-28
公开(公告)号: CN114756679A 公开(公告)日: 2022-07-15
发明(设计)人: 黄杰;罗之宇;张蕾;万健;史斌彬;张丽娟 申请(专利权)人: 浙江科技学院
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62;G06F16/33;G06F40/295;G06F16/36;G06N5/02;G06N3/04;G06N3/08
代理公司: 杭州浙科专利事务所(普通合伙) 33213 代理人: 孙孟辉
地址: 310023 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 交谈 注意力 机制 中文 医学 文本 实体 关系 联合 抽取 方法
【权利要求书】:

1.一种基于交谈注意力机制的中文医学文本实体关系联合抽取方法,其特征在于包括如下步骤:

步骤1、将句子输入RoBERTa层,充分提取句子特征和挖掘词与词之间的关联:

将句子输入RoBERTa层,充分提取句子特征和挖掘词与词之间的关联;抽取头实体和尾实体放在同一步进行,同时预测实体之间的关系类别;通过指针标注,将每一个输入的初始(start)和结束(end)进行标注,将多片段问题转化为N个2分类,N为序列长度;将进行实体抽取后的序列矩阵进行CLN层和THA层的处理完成三元组的提取;

步骤2、提取输入句子的实体,按照层叠式指针网络,用两个级联模块提取三元组,这两个模块对应括实体提取和对应关系提取两个内容;对于每一个输入的句子进行实体提取,包括头实体和尾实体;被提取的实体也就是头实体被输入到下一个模块,遍历所有的关系,计算是否存在一个能够匹配头实体和尾实体的关系;

步骤3、遍历所有不同的对象输入后续模块,抽取三元组。

2.如权利要求1所述的一种基于交谈注意力机制的中文医学文本实体关系联合抽取方法,其特征在于:步骤1中RoBERTa层基于Transformer算法的双向编码表征算法,进行特征提取和句子建模;

对输入的句子进行切片和注释,将句子进行分布式表示:

X={X1,X2,…,Xt,…,Xn}#(1)

Xt=ET+ES+EP#(2)

每一个片段中包含着字向量、文本向量以及位置向量;式中ET代表的是字向量(Etoken-Embedding),Es代表的是文本向量(Eseg-Embedding),Ep代表的是位置向量(Epos-Embedding)。

3.如权利要求1或2所述的一种基于交谈注意力机制的中文医学文本实体关系联合抽取方法,其特征在于:步骤2中每一个输入句子通过12层的RoBERTa编码器来得到编码向量h,用来提取输入句子中的全部实体,包括头实体以及尾实体;通过初始化一个指针网络,为每一个标记点分配一个0/1二进制标记;0/1二进制标记表示识别出来的实体的初始(start)和结束(end)位置,被标记的实体会被作为对象输入到下一级的模块中;

式中sstart和send表示的是输出的结果,是对所有位置的起始位置和终止位置的概率的集合;若该位置概率超过设定的阈值,将其标记为1,若没有,则标记为0;是代表着在全连接层中的权重,经过每一次输入都会更新新的权重;是表示偏置向量,σ是作为激活函数sigmoid函数;

在输入句子x中的所有的对象的表示,通过下列似然函数进行优化;

式中,L为句子的长度;在输出的初始(start)和结束(end)序列中,实体的起始位置被标记为1,其R1为1,其R2为0;实体的结束位置被标记为1,其R1为0,其R2为1;参数

4.如权利要求1或2所述的一种基于交谈注意力机制的中文医学文本实体关系联合抽取方法,其特征在于步骤3中以固定长度的向量作为条件的文本生成的场景,把条件融合到标准化层的β和γ中;具体实现公式如下:

式中avg是h的平均值,std是h的标准差;β和γ是两个动态矩阵,根据输入句子中的对象的变化而不断迭代;

在进入THA层前,对CLN层的输出结果与之前的实体提取时的Epos-Embedding进行了拼接结合;

新得到的混合注意力公式如下所示:

式中,用不同Query、Key、Value权重矩阵,每个矩阵都是随机初始化生成的;然后通过训练,将词嵌入投影到不同的空间中;代表着第i次特征计算结果,J表示将所有的head计算结果Ji拼接在一起;Ji代表着每一个特征经过两次对话把所有的特征进行了关联;Oi代表输出后的对话特征注意力的结果;

式中rstart和rend表示的是输出的结果,是对所有位置的起始位置和终止位置的概率的集合;是代表着在全连接层中的权重,经过每一次输入都会更新新的权重;是表示偏置向量,σ是作为激活函数sigmoid函数;

在输入句子x中的所有对象所对应的关系表示,通过下列似然函数进行优化:

式中,L为句子的长度;在输出的start或end序列中,对应关系的尾实体起始位置被标记为1,其I1为1,其I2为0;对应关系的尾实体的结束位置被标记为1,其I1为0,其I2为1;参数

对于训练集D,对每一个句子xi的实体和关系的似然函数进行求和;采用Adam损失函数方法,最大化K值来训练模型;优化器开始的学习率设置为较大的值,然后根据次数的增多,动态的减小学习率,以实现效率和效果的兼得;式中,Ti表示输入句子中的所有对象,Tr表示头实体对应的所有关系;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210315494.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top