[发明专利]信息抽取方法、装置、电子设备及存储介质有效
申请号: | 202010071824.3 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111291185B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 王炳乾 | 申请(专利权)人: | 京东方科技集团股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06N3/0464;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 李娜 |
地址: | 100015 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 抽取 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种信息抽取方法、装置、电子设备及存储介质,首先获取源数据,然后将源数据输入预先训练得到的信息抽取模型,得到源数据所包含的三元组信息,三元组信息包括源数据中的主语、谓语和宾语;其中,信息抽取模型包括二分类子模型和多标签分类子模型,二分类子模型用于抽取源数据中的主语,多标签分类子模型用于根据主语和所述源数据,抽取源数据中与主语对应的谓语和宾语。本申请技术方案采用端到端的信息抽取模型联合抽取源数据中的三元组信息,替代传统的实体识别和关系抽取的管道式抽取方法,可以提高信息抽取的效率和准确率。
技术领域
本发明涉及信息处理技术领域,特别是涉及一种信息抽取方法、装置、电子设备及存储介质。
背景技术
随着深度学习等领域的持续发展,人工智能逐渐涉足各个领域,致力于改善人们的生活,在图像识别、语音识别等领域已经超越了人类的水平。然而在自然语言处理领域,由于人类语言的复杂性以及事物的多样性,目前的技术尚不能达到完全理解语义的程度,因此需要一个语义连接的桥梁——知识图谱。知识图谱由实体、属性和关系组成,其本质上来讲是一种语义网络,网络中的节点表示现实世界存在的实体或者属性值,节点之间的边表示两个实体之间的关系。目前知识图谱技术主要用于智能语义搜索、移动个人助理以及问答系统中。
发明内容
本发明提供一种信息抽取方法、装置、电子设备及存储介质,以提高信息抽取的效率和精度。
为了解决上述问题,本发明公开了一种信息抽取方法,所述方法包括:
获取源数据;
将所述源数据输入预先训练得到的信息抽取模型,得到所述源数据所包含的三元组信息,所述三元组信息包括所述源数据中的主语、谓语和宾语;其中,所述信息抽取模型包括二分类子模型和多标签分类子模型,所述二分类子模型用于抽取所述源数据中的主语,所述多标签分类子模型用于根据所述主语和所述源数据,抽取所述源数据中与所述主语对应的谓语和宾语。
在一种可选的实现方式中,在所述将所述源数据输入预先训练得到的信息抽取模型,得到所述源数据所包含的三元组信息的步骤之前,还包括:获得所述信息抽取模型,其中,所述获得所述信息抽取模型的步骤,包括:
获得样本集合,所述样本集合中包括多个待训练文本以及各所述待训练文本的三元组标注信息,所述三元组标注信息包括主语标注信息、谓语标注信息和宾语标注信息;
将所述待训练文本输入第一预训练语言模型,将所述第一预训练语言模型的输出信息送入第一神经网络模型;
将所述第一神经网络模型的输出信息以及所述待训练文本输入第二预训练语言模型,将所述第二预训练语言模型的输出信息送入第二神经网络模型;
根据所述第一神经网络模型的输出信息、所述第二神经网络模型的输出信息以及所述三元组标注信息,对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型进行训练,得到所述信息抽取模型,其中,训练后的第一预训练语言模型和第一神经网络模型构成所述二分类子模型,训练后的第二预训练语言模型和第二神经网络模型构成所述多标签分类子模型。
在一种可选的实现方式中,所述根据所述第一神经网络模型的输出信息、所述第二神经网络模型的输出信息以及所述三元组标注信息,对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型进行训练,得到所述信息抽取模型的步骤,包括:
根据所述第一神经网络模型的输出信息以及所述主语标注信息,确定第一损失函数;
根据所述第二神经网络模型的输出信息、所述谓语标注信息以及所述宾语标注信息,确定第二损失函数;
对所述第一预训练语言模型、所述第一神经网络模型、所述第二预训练语言模型以及所述第二神经网络模型中的参数进行优化,得到所述信息抽取模型,使得所述第一损失函数与所述第二损失函数之和最小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东方科技集团股份有限公司,未经京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010071824.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置