[发明专利]一种预训练语料库的构建方法、装置、设备及可读介质有效
| 申请号: | 202110932826.1 | 申请日: | 2021-08-13 |
| 公开(公告)号: | CN113722570B | 公开(公告)日: | 2023-07-18 |
| 发明(设计)人: | 于彤 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F18/214;G06N20/00 |
| 代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 陈黎明;李红萧 |
| 地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 训练 语料库 构建 方法 装置 设备 可读 介质 | ||
1.一种预训练语料库的构建方法,其特征在于,包括以下步骤:
基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集;
若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;
基于所述每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算所述单个高质量数据集的权重;以及
基于所述爬虫数据的权重对所述爬虫数据进行采样,基于所述单个高质量数据集的权重分别对所述单个高质量数据集进行采样,以得到预训练语料库;
若是需要数据集规模为小规模数据集,则从高质量数据集中随机采样以得到预训练语料库;
基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集包括:
若是待构建预训练语料库的大小不超过100吉字节,则确认需要数据集规模为小规模数据集。
2.根据权利要求1所述的预训练语料库的构建方法,其特征在于,若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量包括:
若是需要数据集规模为中规模数据集,则基于低预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;
若是需要数据集规模为大规模数据集,则基于高预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量。
3.根据权利要求1所述的预训练语料库的构建方法,其特征在于,基于所述每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算所述单个高质量数据集的权重包括:
判断是否存在所述单个高质量数据集的权重超过预设权重;
若是存在所述单个高质量数据集的权重超过预设权重,则将所述单个高质量数据集的权重设置为所述预设权重的数值,并重新计算其他所述单个高质量数据集的权重。
4.根据权利要求1所述的预训练语料库的构建方法,其特征在于,还包括:
基于语言模型的参数量确定待构建预训练语料库的大小。
5.根据权利要求4所述的预训练语料库的构建方法,其特征在于,基于语言模型的参数量确定待构建预训练语料库的大小包括:
若是语言模型的参数量不超过1字节,则确认待构建预训练语料库的大小不超过100吉字节;
若是语言模型的参数量不超过10字节且超过1字节,则确认待构建预训练语料库的大小不超过1000吉字节且超过100吉字节;
若是语言模型的参数量不超过100字节且超过10字节,则确认待构建预训练语料库的大小超过1太字节。
6.根据权利要求1所述的预训练语料库的构建方法,其特征在于,基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集包括:
若是待构建预训练语料库的大小不超过1000吉字节且超过100吉字节,则需要数据集规模不为小规模数据集且为中规模数据集;
若是待构建预训练语料库的大小超过1太字节,则确认需要数据集规模不为小规模数据集且为大规模数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110932826.1/1.html,转载请声明来源钻瓜专利网。





