[发明专利]信息抽取方法、装置、电子设备及存储介质有效
申请号: | 202010071824.3 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111291185B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 王炳乾 | 申请(专利权)人: | 京东方科技集团股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06N3/0464;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 李娜 |
地址: | 100015 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 抽取 方法 装置 电子设备 存储 介质 | ||
1.一种信息抽取方法,其特征在于,所述方法包括:
获取源数据;
将所述源数据输入预先训练得到的信息抽取模型,得到所述源数据所包含的三元组信息,所述三元组信息包括所述源数据中的主语、谓语和宾语;其中,所述信息抽取模型包括二分类子模型和多标签分类子模型,所述二分类子模型用于抽取所述源数据中的主语,所述多标签分类子模型用于根据所述主语和所述源数据,抽取所述源数据中与所述主语对应的谓语和宾语;所述源数据包括非结构化文本,所述二分类子模型和所述多标签分类子模型是采用样本集合对预训练语言模型和神经网络模型进行联合训练得到,所述样本集合包括多个待训练文本以及各所述待训练文本的三元组标注信息,所述三元组标注信息包括主语标注信息、谓语标注信息和宾语标注信息;
在所述将所述源数据输入预先训练得到的信息抽取模型,得到所述源数据所包含的三元组信息的步骤之前,还包括:获得所述信息抽取模型,其中,所述获得所述信息抽取模型的步骤,包括:
获得所述样本集合;
将所述待训练文本输入第一预训练语言模型,将所述第一预训练语言模型的输出信息送入第一神经网络模型;
将所述第一神经网络模型的输出信息以及所述待训练文本输入第二预训练语言模型,将所述第二预训练语言模型的输出信息送入第二神经网络模型;
根据所述第一神经网络模型的输出信息、所述第二神经网络模型的输出信息以及所述三元组标注信息,对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型进行训练,得到所述信息抽取模型,其中,训练后的第一预训练语言模型和第一神经网络模型构成所述二分类子模型,训练后的第二预训练语言模型和第二神经网络模型构成所述多标签分类子模型。
2.根据权利要求1所述的信息抽取方法,其特征在于,所述根据所述第一神经网络模型的输出信息、所述第二神经网络模型的输出信息以及所述三元组标注信息,对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型进行训练,得到所述信息抽取模型的步骤,包括:
根据所述第一神经网络模型的输出信息以及所述主语标注信息,确定第一损失函数;
根据所述第二神经网络模型的输出信息、所述谓语标注信息以及所述宾语标注信息,确定第二损失函数;
对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型中的参数进行优化,得到所述信息抽取模型,使得所述第一损失函数与所述第二损失函数之和最小。
3.根据权利要求2所述的信息抽取方法,其特征在于,所述第一损失函数和所述第二损失函数均为交叉熵损失函数。
4.根据权利要求1所述的信息抽取方法,其特征在于,所述获得样本集合的步骤,包括:
获取非结构化文本样本;
对所述非结构化文本样本进行处理,得到待标注文本;
获取已完成标注的待训练文本以及所述待训练文本的三元组标注信息;
响应于所述待标注文本中包含所述三元组标注信息中的主语标注信息和宾语标注信息,按照所述三元组标注信息对所述待标注文本进行标注。
5.根据权利要求4所述的信息抽取方法,其特征在于,所述获得样本集合的步骤,还包括:
采用预先训练得到的K个预测模型对所述待标注文本进行预测,得到K个三元组预测信息;
当第一三元组信息的数量与K的比值大于第一预设阈值时,将所述第一三元组信息作为所述待标注文本的三元组标注信息添加至所述样本集合中,其中,所述第一三元组信息为出现在所述三元组预测信息中但未出现在所述待标注文本的三元组标注信息中的三元组信息;
当第二三元组信息的数量与K的比值大于第二预设阈值时,将所述第二三元组信息从所述待标注文本的三元组标注信息中删除,其中,所述第二三元组信息为出现在所述待标注文本的三元组标注信息中但未出现在所述三元组预测信息中的三元组信息;
其中,K大于或等于5且小于或等于10。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东方科技集团股份有限公司,未经京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010071824.3/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置