[发明专利]一种批数据集构建方法、装置、电子设备及存储介质在审
申请号: | 202011522568.1 | 申请日: | 2020-12-21 |
公开(公告)号: | CN112561038A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 毛旷;杨弢;汤昭荣;王跃锋;银燕龙;任祖杰 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063;G06N3/08;G06F40/211 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 应孔月 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 构建 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种批数据集构建方法、装置、电子设备及存储介质。该方法通过对用于Transformer语言模型训练的数据样本集合进行排序,利用有序的数据样本生成高质量的批数据,从而构建训练批数据集。该方法提高单次载入GPU显存的有效训练样本数量,同时最大程度降低无效的占位文字数量,降低无效数据对GPU计算资源的占用,从而大大提高训练效率,降低训练时间。
技术领域
本申请涉及语言模型训练技术领域,尤其涉及一种批数据集构建方法、装置、电子设备及存储介质。
背景技术
融入Attention机制的Transformer语言模型已经成为当前自然语言处理任务中必不可少的基础模型,是绝大多数自然语言处理任务精调(fine-tune)所必须使用的预训练语言模型。Transformer语言模型的训练数据需使用大量的天然句子组成的数据样本,其模型训练过程通过使用一部分数据样本组成的批数据(Batch data)进行参数更新,通过大量的批数据(批数据集)对模型参数进行大量迭代更新,最终达到比较好的效果。
Transformer语言模型由于参数量巨大,其训练所需要的计算资源大、时间长、费用高昂,比如Transformer语言模型家族中的Bert-Large模型,原作者用64块谷歌TPU(性能远强于64块V100 GPU),花了4天时间进行训练。为了加速Transformer语言模型的训练过程,主要面临两个问题。
首先,需要提高单次载入GPU显存的训练样本数量。Transformer语言模型由于参数量巨大,对GPU显存占用非常大,如Transformer家族Bert-Large模型,若采用固定64字长的训练数据样本,对于12GB显存的GPU只能一次性放入12个训练数据样本,这会导致两个问题:首先每次载入GPU的批数据过小会导致模型无法正常收敛,即无法到达满意的准确率;其次过小的批数据会导致训练过程大量的数据搬运开销(内存数据搬运至GPU显存),大大增加训练的时间。
其次,需降低无效数据对GPU计算资源的占用。为充分利用GPU的并行能力,载入GPU的批数据中每条数据样本需保持相同的长度,即每个数据样本包含的文字数量需要相同,然而由于训练样本为天然的句子,大量数据样本的长度都是不同的,在生成批数据时,需要把所有训练样本的长度进行补全,保证一个批数据中所有数据样本的长度与当前批数据中长度最长的句子相同。这样构成的批数据包含了大量占位文字,而Transformer语言模型中Attention算子的计算,其过程是把每个向量化的文字经过三个参数矩阵变换成q、k、v三个向量,每个文字的q向量与附近文字的k向量做点击,形成相似度,把相似度作为权重与附近文字的v向量做加权和,经过这个过程,每个文字的表示都融合了附近文字的上下文信息。Attention的计算过程非常耗时,同时与输入的文字数量正相关,因此减少训练数据样本中占位文字的数量,可降低GPU在计算时大量的无效计算,加速整个模型训练的过程。
现有提高Transformer语言模型训练速度的方法通过增大单次参数更新所利用的批数据量,同时引入新的梯度下降算法,降低参数更新的次数,减少训练过程参数传递的开销。
发明内容
本申请实施例的目的是提供一种批数据集构建方法、装置、电子设备及存储介质,以解决相关技术中存在的Transformer语言模型训练过程中无效数据对计算资源的占用问题。
根据本申请实施例的第一方面,提供一种批数据集构建方法,包括:
获取步骤,用于获取一组用于Transformer模型训练的数据样本集合S,其中每个数据样本为两个具有上下文关系的句子组成的句子对,每个句子由若干文字组成;
样本排序步骤,用于对所述数据样本集合S中的所有数据样本按照其包含的文字数量进行排序,得到排序后的数据样本有序队列S';
批数据初始化步骤,用于初始化一个新的批数据,记为批数据K;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011522568.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置