[发明专利]一种批数据集构建方法、装置、电子设备及存储介质在审

申请号：	202011522568.1	申请日：	2020-12-21
公开（公告）号：	CN112561038A	公开（公告）日：	2021-03-26
发明（设计）人：	毛旷;杨弢;汤昭荣;王跃锋;银燕龙;任祖杰	申请（专利权）人：	之江实验室
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/063;G06N3/08;G06F40/211
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	应孔月
地址：	310023 浙江省杭州市余***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据构建方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种批数据集构建方法、装置、电子设备及存储介质。该方法通过对用于Transformer语言模型训练的数据样本集合进行排序，利用有序的数据样本生成高质量的批数据，从而构建训练批数据集。该方法提高单次载入GPU显存的有效训练样本数量，同时最大程度降低无效的占位文字数量，降低无效数据对GPU计算资源的占用，从而大大提高训练效率，降低训练时间。

技术领域

本申请涉及语言模型训练技术领域，尤其涉及一种批数据集构建方法、装置、电子设备及存储介质。

背景技术

融入Attention机制的Transformer语言模型已经成为当前自然语言处理任务中必不可少的基础模型，是绝大多数自然语言处理任务精调(fine-tune)所必须使用的预训练语言模型。Transformer语言模型的训练数据需使用大量的天然句子组成的数据样本，其模型训练过程通过使用一部分数据样本组成的批数据(Batch data)进行参数更新，通过大量的批数据(批数据集)对模型参数进行大量迭代更新，最终达到比较好的效果。

Transformer语言模型由于参数量巨大，其训练所需要的计算资源大、时间长、费用高昂，比如Transformer语言模型家族中的Bert-Large模型，原作者用64块谷歌TPU(性能远强于64块V100 GPU)，花了4天时间进行训练。为了加速Transformer语言模型的训练过程，主要面临两个问题。

首先，需要提高单次载入GPU显存的训练样本数量。Transformer语言模型由于参数量巨大，对GPU显存占用非常大，如Transformer家族Bert-Large模型，若采用固定64字长的训练数据样本，对于12GB显存的GPU只能一次性放入12个训练数据样本，这会导致两个问题：首先每次载入GPU的批数据过小会导致模型无法正常收敛，即无法到达满意的准确率；其次过小的批数据会导致训练过程大量的数据搬运开销(内存数据搬运至GPU显存)，大大增加训练的时间。

其次，需降低无效数据对GPU计算资源的占用。为充分利用GPU的并行能力，载入GPU的批数据中每条数据样本需保持相同的长度，即每个数据样本包含的文字数量需要相同，然而由于训练样本为天然的句子，大量数据样本的长度都是不同的，在生成批数据时，需要把所有训练样本的长度进行补全，保证一个批数据中所有数据样本的长度与当前批数据中长度最长的句子相同。这样构成的批数据包含了大量占位文字，而Transformer语言模型中Attention算子的计算，其过程是把每个向量化的文字经过三个参数矩阵变换成q、k、v三个向量，每个文字的q向量与附近文字的k向量做点击，形成相似度，把相似度作为权重与附近文字的v向量做加权和，经过这个过程，每个文字的表示都融合了附近文字的上下文信息。Attention的计算过程非常耗时，同时与输入的文字数量正相关，因此减少训练数据样本中占位文字的数量，可降低GPU在计算时大量的无效计算，加速整个模型训练的过程。

现有提高Transformer语言模型训练速度的方法通过增大单次参数更新所利用的批数据量，同时引入新的梯度下降算法，降低参数更新的次数，减少训练过程参数传递的开销。

发明内容

本申请实施例的目的是提供一种批数据集构建方法、装置、电子设备及存储介质，以解决相关技术中存在的Transformer语言模型训练过程中无效数据对计算资源的占用问题。

根据本申请实施例的第一方面，提供一种批数据集构建方法，包括：

获取步骤，用于获取一组用于Transformer模型训练的数据样本集合S，其中每个数据样本为两个具有上下文关系的句子组成的句子对，每个句子由若干文字组成；

样本排序步骤，用于对所述数据样本集合S中的所有数据样本按照其包含的文字数量进行排序，得到排序后的数据样本有序队列S'；

批数据初始化步骤，用于初始化一个新的批数据，记为批数据K；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于之江实验室，未经之江实验室许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011522568.1/2.html，转载请声明来源钻瓜专利网。