[发明专利]一种基于Transformer和WaveNet的蒙古语语音合成方法在审
申请号: | 202110378946.1 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113205792A | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 仁庆道尔吉;李媛;麻泽蕊;尹玉娟;程坤;苏依拉;李雷孝 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/027;G10L13/08;G10L19/16 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 transformer wavenet 蒙古语 语音 合成 方法 | ||
1.一种基于Transformer和WaveNet的蒙古语语音合成方法,其特征在于,包括如下步骤:
步骤1,基于Encoder-Decoder模型,对蒙古语进行G2P(Grapheme-to-Phoneme)转换,将经过拉丁校正的蒙古语文本转换为对应的音素序列;
步骤2,基于Transformer的声学模型,根据音素序列生成声学特征;
步骤3,以WaveNet模型为声码器,进行声学特征到语音波形的转换。
2.根据权利要求1所述基于Transformer和WaveNet的蒙古语语音合成方法,其特征在于,所述步骤1中,先对输入的蒙古语文本进行特殊字符转换,将文本中出现的特殊字符根据上下文信息转写为对应的蒙古语书写形式,然后对经过特殊字转换的文本进行校正,校正之后的文本进行拉丁转换,将蒙古语文本转换为对应的拉丁形式。
3.根据权利要求1或2所述基于Transformer和WaveNet的蒙古语语音合成方法,其特征在于,基于Encoder-Decoder模型的解码流程包括:
第一步,将输入序列映射到一个向量;
第二步,基于学习向量生成输出序列表示。
4.根据权利要求3所述基于Transformer和WaveNet的蒙古语语音合成方法,所述Encoder-Decoder模型中,编码器和解码器均采用LSTM结构,编码器根据输入序列计算相应的隐层状态序列h=(h1,...,hT)和记忆状态序列m=(m1,...,mT),如下列公式:
it=sigmoid(W1xt+W2ht-1)
ft=sigmoid(W5xt+W6ht-1)
ot=sigmoid(W7xt+W8ht-1)
ht=mt⊙ot
其中it为输入门,W1,W2,W3,W4,W5,W6,W7,W8是模型的参数,(x1,...,xt,...,xT)为输入序列,xt为t时刻输入的字符序列,T为序列总长度,ht-1为xt-1对应的隐层状态,为表示单元状态更新值,ft为遗忘门,ot为输出门,mt为隐含单元所传递的状态,操作符⊙代表元素相乘;
解码器生成与输入相对应的输出序列即音素序列,解码过程中,解码器根据前一时刻音素yt-1及当前单元隐状态st和注意力向量ct来预测当前音素yt,其条件概率使用以下公式进行建模:
P(yt|y1,…,yt-1,x)=g(yt-1,st,ct)
TB为输出序列的长度,x为字符序列,g是一个非线性的,隐含多层的函数,用来得到yt的条件概率,st代表在时刻t时解码器的隐状态,st=f(st-1,yt-1,ct),f代表LSTM单元,注意力向量ct结合st成为一个新的隐状态即下一刻的隐藏状态去预测yt,通过输入的蒙古语字母序列来计算注意力向量ct,公式如下:
其中,TA是输入序列的长度,向量v和矩阵ba是训练得到的模型参数,向量的长度为TA,它的第i个元素包含了第i个编码器LSTM单元隐状态所占的权重,将权重通过softmax生成计算注意力向量的中间值ba是训练得到的模型参数,hi是第i的元素的隐藏状态,ht是第t个元素的隐藏状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110378946.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种窗帘
- 下一篇:一种节能高效的硅片烘烤用冷却装置
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法