[发明专利]基于编辑对齐算法的非自回归解码越南语文本正则化方法在审
申请号: | 202310562199.6 | 申请日: | 2023-05-18 |
公开(公告)号: | CN116611428A | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 赖华;蒋铭;王琳钦 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/58;G06F40/189;G06F18/21;G06F18/214;G06N3/045;G06N3/0455;G06N3/0464;G06N3/082 |
代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 编辑 对齐 算法 回归 解码 越南语 文本 正则 方法 | ||
本发明提供基于编辑对齐算法的非自回归解码越南语文本正则化方法,越南语文本正则化面临着语言表达方式多样化及非标准词存在语义歧义问题,本发明构建越南语文本正则化标注语料,并对标注语料进行字符粒度对齐扩充;在第一阶段使用标注语料对指示器进行预训练,使用编辑对齐算法训练指示器中原始序列到目标序列的编辑对齐向量,同时提升模型编码端上下文语义信息建模能力;在第二阶段使用非自回归架构对预训练模型进行微调,通过修改位置向量提取非标准词的调整序列,缩小解码端搜索空间,避免基于序列生成模型本身局限性所产生的非正则化文本预测错误问题。实验证明本发明方法达到了97%的准确率,有效解决越南语文本正则化中的语义消歧问题。
技术领域
本发明涉及基于编辑对齐算法的非自回归解码越南语文本正则化方法,属于自然语言处理技术领域。
背景技术
目前,在先前的语音合成(Text-to-Speech,TTS)文本正则化工作中,主要采用的是基于规则的硬编码方式。MITalk中的编码方法是最早的TTS文本正则化模块之一。Bell实验室的多语种TTS系统引入了加权有限状态转换器来进行文本正则化。此外,机器学习模型与手写语法相结合,被提议用于特定的NSW类别。Roark等人报告了使用最大熵来分类字母序列,Sproat等人则提出了一种基于识别出的缩写扩展来进行文本正则化的方法。
受到神经网络在各种自然语言处理任务中的最新成功启发,许多神经网络模型被提议来解决TTS文本正则化的问题。Sproat等人提出了基于RNN的架构用于文本正则化,以及一个开源的语料库,包括相应的书写和口语句子对。随后的研究专注于卷积神经网络模型。另一种方法是将TTS文本正则化视为机器翻译问题。Tyagi等人提出了一个混合系统,包括一个标记模型和标记化机制,使系统能够自动学习大多数类别,并与预编码的语言知识类别结合起来进行NSW扩展。Lai等人提出了一个统一的框架,用于构建一个单一的双向系统,可以处理TTS文本正则化和反向TTS文本正则化。
在越南语TTS文本正则化任务中,Trang等人首先开发了一个包括21种类型的越南非标准词分类法,并提出了一个决策树分类器和字母语言模型用于非标准词分类以及一个混合规范器用于非标准词扩展。Trang等人提出了一种方法,使用随机森林分类器来识别非标准词,并结合序列到序列模型和基于规则的缩写和借词扩展进行混合。2012年,一种基于规则的方法在中使用正则表达式和决策列表对非标准词进行分类和扩展。
Hochreiter等人提出了长短期记忆网络优化了RNN网络在序列标注任务中存在的问题,在序列标注任务中具有较大优势。2019年,Park等人使用Bert预训练语言模型完成中文多音字预测的序列标注任务,并在该任务上取得了较好的效果。
最近,Dang等人结合Bert,BiLSTM和CNN提出了一种具有19个非标准词分类的神经网络模型,虽然模型在序列分类任务上表现出了很好的效果,但后续仍需要针对越南语单一语料构建基于规则的匹配算法进行转换,规则的构建往往是复杂和庞大的,后续的更新和维护更需要大量的时间,且难以移植和适用于其他语言。近期,Ro等人提出了一种基于Transformer的文本正则化框架,包括预处理、编码器、解码器和后处理步骤。该方法相对于基础方法和其他现有方法具有更好的性能,同时还可以进行端到端的训练,无需额外的特征工程。因此,本发明希望建立更加具有通用性和可扩展性的文本正则化方法,结合目前的相关工作,总结了越南语文本正则化的难点主要包括以下几点,一是越南语中非标准词和符号存在歧义的问题,如表1所示,不同符号需要根据上下文关系才能准确转化为可读词;二是端到端的神经网络模型容易将不需要正则化的词转化成错误的词。针对这两个问题,本发明提出了基于编辑对齐算法的非自回归解码文本正则化方法。
表1为越南语文本正则化部分难点
发明内容
本发明提供了一种基于编辑对齐算法的非自回归解码越南语文本正则化方法,以用于解决越南语中非标准词和符号存在歧义的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310562199.6/2.html,转载请声明来源钻瓜专利网。