[发明专利]文本抽取模型的训练与文本抽取的方法、装置在审

申请号：	202110479305.5	申请日：	2021-04-30
公开（公告）号：	CN113204616A	公开（公告）日：	2021-08-03
发明（设计）人：	刘同阳;王述;常万里;郑伟;冯知凡;柴春光;朱勇	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F40/211;G06F40/295;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京鸿德海业知识产权代理有限公司 11412	代理人：	田宏宾
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本抽取模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本抽取模型的训练方法，包括：

获取训练数据，所述训练数据中包含多个文本与多个文本的方面词标注结果；

构建包含第一抽取模型与第二抽取模型的神经网络模型，所述第一抽取模型的输出为所述第二抽取模型的输入；

将多个文本分别输入所述第一抽取模型，得到所述第一抽取模型针对每个文本输出的实体词预测结果；

使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛，将所述第一抽取模型与训练得到的第二抽取模型组成文本抽取模型。

2.根据权利要求1所述的方法，其中，所述训练数据中还包括多个文本的实体词标注结果。

3.根据权利要求1所述的方法，其中，所述使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛包括：

将多个文本与多个文本的实体词预测结果进行融合；

使用多个文本的融合结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛。

4.根据权利要求2所述的方法，其中，所述使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛，将所述第一抽取模型与训练得到的第二抽取模型组成文本抽取模型包括：

根据多个文本的实体词预测结果与多个文本的实体词标注结果对所述第一抽取模型进行训练，直至所述第一抽取模型收敛；

将训练得到的第一抽取模型与训练得到的第二抽取模型组成文本抽取模型。

5.一种文本抽取的方法，包括：

获取待处理文本；

将所述待处理文本输入文本抽取模型，将所述文本抽取模型的输出结果作为所述待处理文本的抽取结果；

其中，所述文本抽取模型是根据权利要求1-4中任一项方法预先训练得到的。

6.根据权利要求5所述的方法，其中，所述将所述待处理文本输入文本抽取模型包括：

将所述待处理文本中位于预设词典中的实体词，作为目标实体词；

将所述待处理文本与所述目标实体词输入所述文本抽取模型。

7.一种文本抽取模型的训练装置，包括：

第一获取单元，用于获取训练数据，所述训练数据中包含多个文本与多个文本的方面词标注结果；

构建单元，用于构建包含第一抽取模型与第二抽取模型的神经网络模型，所述第一抽取模型的输出为所述第二抽取模型的输入；

处理单元，用于将多个文本分别输入所述第一抽取模型，得到所述第一抽取模型针对每个文本输出的实体词预测结果；

训练单元，用于使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛，将所述第一抽取模型与训练得到的第二抽取模型组成文本抽取模型。

8.根据权利要求7所述的装置，其中，所述第一获取单元获取的训练数据中还包括多个文本的实体词标注结果。

9.根据权利要求7所述的装置，其中，所述训练单元在使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛时，具体执行：

将多个文本与多个文本的实体词预测结果进行融合；

使用多个文本的融合结果与多个文本的方面词标注结果对所述第二抽取模型进行训练，直至所述第二抽取模型收敛。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司，未经北京百度网讯科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110479305.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载