[发明专利]数据处理方法及装置、计算设备在审
申请号: | 202011065869.6 | 申请日: | 2020-10-01 |
公开(公告)号: | CN114282643A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 王盛南;杨程;李越川;杨超 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F16/9535 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 曹威;刘戈 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 计算 设备 | ||
本申请实施例提供一种数据处理方法及装置、计算设备,该数据处理方法包括:确定模型参数已知的第一网络模块;获取为所述第一网络模块新增加的待训练模块;其中,所述待训练模块的模型参数未知;根据所述第一网络模块以及所述待训练模块,构建第二网络模块;基于多个训练数据,训练获得所述第二网络模块中所述待训练模块的模型参数。本申请实施例提高了模型的训练效率。
技术领域
本申请涉及计算设备技术领域,尤其涉及一种数据处理方法及装置、计算设备。
背景技术
近年来,自然语言处理任务的应用越来越广泛,在自然语言处理任务中,一般使用NLP(Natural Language Processing)神经网络模型来执行处理任务。通常,为了确保神经网络模型对自然语言的处理精度,一般采用深度神经网络模型。BERT(BidirectionalEncoder Representations from Transformers,双向编码器的语言表征模型)是一种较为常见的用于自然语言处理的深度神经网络模型,可以应用于词语预测、语句关联预测、自动问答、内容推荐等应用场景中。
通常,BERT模型可以包括输入层、向量表示层、编码层以及分类层,该模型关键在于使用了Transformer(转换)模型的Encoder(编码器)。BERT模型的模型参数中可以包括编码层中各个Encoder的参数。为了获取模型参数,通常可以采用多个训练数据,多次训练获得已构建好的BERT模型的模型参数。
由以上描述可知,BERT等深度神经网络模型中编码层通常由多个Encoder模块构成,在训练时,需要对所有模块均进行表征计算,以获得准确的模型参数,计算量非常大,需要消耗大量时间,训练效率较低。
发明内容
有鉴于此,本申请实施例提供一种,用以解决现有技术中的技术问题。
第一方面,本申请实施例提供一种数据处理方法,包括:
确定模型参数已知的第一网络模块;
获取为所述第一网络模块新增加的待训练模块;其中,所述待训练模块的模型参数未知;
根据所述第一网络模块以及所述待训练模块,构建第二网络模块;
基于多个训练数据,训练获得所述第二网络模块中所述待训练模块的模型参数。
第二方面,本申请实施例提供一种数据处理设备,包括:
模型确定模块,用于确定模型参数已知的第一网络模块;
模型新增模块,用于获取为所述第一网络模块新增加的待训练模块;其中,所述待训练模块的模型参数未知;
新增构建模块,用于根据所述第一网络模块以及所述待训练模块,构建第二网络模块;
参数训练模块,用于基于多个训练数据,训练获得所述第二网络模块中所述待训练模块的模型参数。
第三方面,本申请实施例提供一种计算设备,包括:存储组件与处理组件;所述存储组件用于存储一条或多条计算机指令;所述一条或多条计算机指令被所述处理组件调用以执行本申请实施例提供的任一种数据处理方法。
第四方面,本申请实施例提供一种存储介质,包括:计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被计算机执行时以执行本申请实施例提供的任一种的数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011065869.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可循环使用的快速成型包装盒
- 下一篇:直流供电系统及其电池模组充电系统