[发明专利]一种预训练语料库的构建方法、装置、设备及可读介质有效
| 申请号: | 202110932826.1 | 申请日: | 2021-08-13 |
| 公开(公告)号: | CN113722570B | 公开(公告)日: | 2023-07-18 |
| 发明(设计)人: | 于彤 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F18/214;G06N20/00 |
| 代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 陈黎明;李红萧 |
| 地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 训练 语料库 构建 方法 装置 设备 可读 介质 | ||
本发明公开了一种预训练语料库的构建方法,包括:基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集;若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;基于每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算单个高质量数据集的权重;基于爬虫数据的权重对爬虫数据进行采样,基于单个高质量数据集的权重分别对单个高质量数据集进行采样,以得到预训练语料库。本发明还公开了一种预训练语料库的构建装置、计算机设备和可读存储介质。本发明对不同规模的预训练采用不同的采样方式,提高了预训练语料库的质量。
技术领域
本发明涉及预训练语言模型技术领域,尤其涉及一种预训练语料库的构建方法、装置、设备及可读介质。
背景技术
预训练语言模型在近几年已经成为了一个非常流行的研究方向。所谓预训练语言模型,需要利用大量在人们生活中出现过的文本来训练,使语言模型在这些文本中学习到每一个词或字出现的概率分布,从而建模出符合这些文本分布的模型。语言模型的语料的标签就是它的上下文,相对于标注过的语料,无标签语料的获取要容易得多。这就使得人们几乎可以无限制地利用无标签语料来训练语言模型,大规模的语料令预训练语言模型得以获得强大的学习能力,从而使之进一步在下游任务上展现出色的效果。预训练模型提供了更好的模型初始化,这通常会带来更好的泛化性能,加速对目标任务的收敛,并且预训练也可以看作是一种正则化,以避免小数据的过拟合。
对于大规模预训练模型来说,对预训练语料的准备和清理是很重要的一步。一般来说,数据分为两类:一类为一些公开发布的自然语言处理数据集,另一类为爬虫数据。公开发布的数据集通常都经历了清理,数据比较干净,基本可以确保数据的来源,如新闻、百科、书籍、档案、问答等,其中还有些人工标注的标签,我们称之为高质量数据集。但公开数据集存在的问题是,人工标签也限定了自然语言处理的问题空间,在一定程度上削弱了模型的泛化能力,此外,公开发布的数据集通常针对上述提到的某一领域,如果预训练语料集中在某一领域,同样也会影响模型在下游任务上的表现。而爬虫数据相比起已有的公开数据集就会凌乱一些,转码清理时需要注意数据源,以防止不适合拿来预训练的数据混入,其中的敏感词、乱码、表格等也需要额外的处理。如果用爬虫数据做预训练语料的话,预处理的工作量会大很多,并且处理后的数据质量往往也不如公开数据集。但爬虫数据集的优势是数据量会大得多,并且数据集的来源也更丰富。
当预训练语料准备好后,还有一个重要问题就是如何在语料库中采样,从而组成预训练的数据集和验证集。如果采用通常的随机采样得到数据集的话,数据集的构成比例几乎就是各个来源语料的大小比例。由于爬虫数据的数据量大,就会在训练集中占据比较大的比例;而质量相对更高的公开数据集占比就会比较低。根据以往的研究,采样的时候对某个语料多重复几次不会对预训练结果造成影响,但对于大规模的预训练模型而言,语料库还是尽可能大比较好,因为大规模更容易在较小规模的数据集上过拟合。
当前的大部分预训练模型,无论语料规模的大小,几乎都是在语料之间等比例随机采样,即不同语料来源的大小决定了他们在预训练数据集中占据的比例。即使某些方法中提到了非等比例采样,对于采样比例如何确定也没有给出明确的规则。
发明内容
现有技术由于爬虫数据的数据量远大于其他公开数据集且质量相对较低,等比例采样会降低训练集的质量,从而影响预训练效果。而且针对不同规模的预训练模型没有不同的数据采样方案。对于非等比例采样的方案没有给出明确的规则,后续工作不易参考。
随着预训练模型体量的增加,预训练语料的规模也随之增加,公开的高质量数据集无法满足预训练的需要。需要我们解决的问题包括:什么时候需要引入非高质量数据集;对于不同规模的模型与训练语料的组成有什么不同;在预训练语料中引入非高质量数据集时如何最大程度确保训练集、验证集合测试集的质量;提出可供后续工作参考的定量的采集方案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110932826.1/2.html,转载请声明来源钻瓜专利网。





