[发明专利]数据处理方法及装置、计算设备在审

申请号：	202011065869.6	申请日：	2020-10-01
公开（公告）号：	CN114282643A	公开（公告）日：	2022-04-05
发明（设计）人：	王盛南;杨程;李越川;杨超	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06F16/9535
代理公司：	北京太合九思知识产权代理有限公司 11610	代理人：	曹威;刘戈
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法装置计算设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供一种数据处理方法及装置、计算设备，该数据处理方法包括：确定模型参数已知的第一网络模块；获取为所述第一网络模块新增加的待训练模块；其中，所述待训练模块的模型参数未知；根据所述第一网络模块以及所述待训练模块，构建第二网络模块；基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数。本申请实施例提高了模型的训练效率。

技术领域

本申请涉及计算设备技术领域，尤其涉及一种数据处理方法及装置、计算设备。

背景技术

近年来，自然语言处理任务的应用越来越广泛，在自然语言处理任务中，一般使用NLP(Natural Language Processing)神经网络模型来执行处理任务。通常，为了确保神经网络模型对自然语言的处理精度，一般采用深度神经网络模型。BERT(BidirectionalEncoder Representations from Transformers，双向编码器的语言表征模型)是一种较为常见的用于自然语言处理的深度神经网络模型，可以应用于词语预测、语句关联预测、自动问答、内容推荐等应用场景中。

通常，BERT模型可以包括输入层、向量表示层、编码层以及分类层，该模型关键在于使用了Transformer(转换)模型的Encoder(编码器)。BERT模型的模型参数中可以包括编码层中各个Encoder的参数。为了获取模型参数，通常可以采用多个训练数据，多次训练获得已构建好的BERT模型的模型参数。

由以上描述可知，BERT等深度神经网络模型中编码层通常由多个Encoder模块构成，在训练时，需要对所有模块均进行表征计算，以获得准确的模型参数，计算量非常大，需要消耗大量时间，训练效率较低。

发明内容

有鉴于此，本申请实施例提供一种，用以解决现有技术中的技术问题。

第一方面，本申请实施例提供一种数据处理方法，包括：

确定模型参数已知的第一网络模块；

获取为所述第一网络模块新增加的待训练模块；其中，所述待训练模块的模型参数未知；

根据所述第一网络模块以及所述待训练模块，构建第二网络模块；

基于多个训练数据，训练获得所述第二网络模块中所述待训练模块的模型参数。

第二方面，本申请实施例提供一种数据处理设备，包括：

模型确定模块，用于确定模型参数已知的第一网络模块；

模型新增模块，用于获取为所述第一网络模块新增加的待训练模块；其中，所述待训练模块的模型参数未知；

新增构建模块，用于根据所述第一网络模块以及所述待训练模块，构建第二网络模块；