[发明专利]一种面向子词切分的BPE-Learn加速方法有效
申请号: | 201911323647.7 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111178095B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 杜权;刘兴宇 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44;G06F40/289 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 切分 bpe learn 加速 方法 | ||
本发明公开一种面向子词切分的BPE‑Learn加速方法,步骤为:读入训练数据,统计每个词在语料中出现的次数,记为词汇表;将词汇表切分成N份子表;子进程中以字符为单位作为字节对统计的基本单元;多个子进程同时开始统计各自子表中的字节对,并通过通讯队列告知主进程统计结束;主进程读取临时文件汇总每个子进程的统计结果,挑选频次最高的字节对,保存到文件中,同时进行剪枝;子进程等待接收主进程信号,对不切分字节对频次置零,重新统计并更新来源词的字节对频次返还给主进程;主进程保存的文件中的字节对满足数量要求时结束统计。本发明缩短了训练前子词切分中的字节对统计时间,在神经机器翻译模型训练中,提高了GPU使用率。
技术领域
本发明涉及机器翻译领域,具体为一种面向子词切分的BPE-Learn加速方法。
背景技术
神经机器翻译(NMT)是一种以词为最小单元的机器翻译技术。由于NMT系统涉及巨量的计算复杂度,系统为了保持资源和时耗在一个可用的范围内,限制了NMT词表为一个固定大小的词汇表,未曾出现在训练语料中的词汇称为未登录词(OOV)。对于未登录词,NMT系统使用统一标记UNK来代替,这种方式导致未登录翻译的译文不准确,甚至会破坏整句的译文结构。为了避免未登录词的出现,研究者提出了子词切分方法BPE。经过子词切分之后,词被切分成了更小粒度的子词,未登录词会被切分成已存在的多个子词形式。
BPE方法基于统计的思想,分别统计训练语料中原语和目标语的字节对出现频次,根据统计结果对原语和目标语分别进行子词切分,切分过程中保留高频字节对,切分低频字节对。传统BPE算法主要包括以下两个步骤:
1)BPE-Learn:统计单语语料中词汇内部的字节对频次,将统计结果写出到文件bpe.code中;
2)BPE-Apply:加载bpe.code文件,根据字节对的频次高低切分子词。
在BPE算法的步骤1)中,BPE-Learn用于统计字节对频次,当训练语料的数据量增长时,统计所需要的计算量将翻倍增长。神经机器翻译的训练依赖于大规模的训练语料,很多优异的语种训练数据高达千万级甚至是亿级。在这种海量的数据下,BPE-Learn过程会消耗大量的时间,长达几个小时甚至十几个小时,使得训练前的数据预处理过程占用了大量的时间,同时对宝贵的GPU资源也造成了一定的浪费。
BPE-Learn是在全量语料下进行统计,不允许将数据分割统计,普通的多进程同步加速方式只能获取局部的字节对频次,并不能代表全局的最高频次。
因此传统的BPE-Learn算法无法在海量数据下短时间内完成字节对统计,也不能通过数据分割等方式实现字节对统计的多进程加速。
发明内容
针对神经机器翻译训练过程中,大数据下BPE-Learn算法严重耗时的不足,本发明要解决的问题是提供一种多进程策略保证字节对统计结果一致并缩减BPE-Learn统计时间的面向子词切分的BPE-Learn加速方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种面向子词切分的BPE-Learn加速方法,包括以下步骤:
1)读入训练数据,按照空格切分数据,统计每个词在语料中出现的次数,记为词汇表;
2)将词汇表切分成N份子表,为每份子表创建独立子进程,用于字节对统计,并为每个子进程分配通信队列,用于与主进程之间交互;
3)子进程中首先以字符为单位作为字节对统计的基本单元;
4)多个子进程同时开始统计各自子表中的字节对,统计任意相邻单元的字节对频次,并保留每个字节对的来源词汇,最后将字节对频次结果写出到临时文件中,并通过通讯队列告知主进程统计结束;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911323647.7/2.html,转载请声明来源钻瓜专利网。