[发明专利]声学模型学习装置、语音合成装置、方法以及程序在审
| 申请号: | 202080058174.7 | 申请日: | 2020-08-14 |
| 公开(公告)号: | CN114270433A | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 松永悟行;大谷大和 | 申请(专利权)人: | 株式会社颖爱 |
| 主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/06;G10L25/30 |
| 代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 张洁;段承恩 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 声学 模型 学习 装置 语音 合成 方法 以及 程序 | ||
提供一种基于在计算资源有限的环境中低延迟并且适当地建模的DNN的语音合成技术。声学模型学习装置具备:语料库存储部,其以话语为单位存储从多个话语语音中提取出的自然语言特征量序列和自然语音参数序列;预测模型存储部,其存储用于从某个自然语言特征量序列预测某个合成语音参数序列的前馈神经网络型预测模型;语音参数序列预测部,其以所述自然语言特征量序列为输入,使用所述预测模型预测合成语音参数序列;误差累计装置,其累计与所述合成语音参数序列和所述自然语音参数序列有关的误差;以及学习部,其对误差进行预定优化,学习预测模型,误差累计装置使用用于使相邻的帧彼此与预测模型的输出层相关联的损失函数。
技术领域
本发明的实施方式涉及合成与输入文本相应的语音的语音合成技术。
背景技术
作为根据目标说话者的语音数据生成该说话者的合成语音的方法,存在基于DNN(Deep Neural Network,深度神经网络)的语音合成技术。该技术通过根据语音数据来学习DNN声学模型的DNN声学模型学习装置和使用学习到的DNN声学模型来生成合成语音的语音合成装置构成。
专利文献1公开了能够以低成本学习小尺寸且能够生成多个说话者的合成语音的DNN声学模型的声学模型学习。为了在DNN语音合成中对作为时间序列的语音参数序列进行建模,一般利用最大似然参数生成(MLPG:Maximum Likelihood Parameter Generation)和/或循环神经网络(RNN:Recurrent Neural Network)。
现有技术文献
专利文献1:日本特开2017-032839号公报
发明内容
发明所要解决的问题
然而,MLPG由于是话语(说话)级的处理因此不适合低延迟的语音合成处理。另外,RNN一般利用具有高性能的LSTM(Long Short Term Memory,长短期记忆)-RNN,但由于其递归处理复杂,计算成本高,因此不适合计算资源有限的环境。
为了在计算资源有限的环境中实现低延迟的语音合成处理,前馈神经网络(FFNN:Feed-Forward Neural Network)是适合的。FFNN由于是基本的DNN因此结构简单,计算成本低,且由于逐帧(Frame-by-frame)地工作因此适于低延迟的处理。
另一方面,FFNN存在由于忽视相邻的帧之间的语音参数的关系进行学习因此无法对作为时间序列的语音参数序列适当地进行建模的局限性(约束)。为了解决这一局限性,存在需要一种考虑相邻的帧之间的语音参数的关系的用于FFNN的学习方法这一问题。
本发明是着眼于这种问题而专心研究完成的,其目的在于,提供基于在计算资源有限的环境中低延迟并且适当地建模的DNN的语音合成技术。
用于解决问题的技术方案
为了解决上述问题,第1发明是一种声学模型学习装置,具备:语料库存储部,其以话语为单位存储从多个话语语音中提取出的自然语言特征量序列和自然语音参数序列;预测模型存储部,其存储用于从某个自然语言特征量序列预测某个合成语音参数序列的前馈神经网络型预测模型;语音参数序列预测部,其以所述自然语言特征量序列为输入,使用所述预测模型预测合成语音参数序列;误差累计装置,其累计与所述合成语音参数序列和所述自然语音参数序列有关的误差;以及学习部,其对所述误差进行预定优化,学习所述预测模型,所述误差累计装置使用用于使相邻的帧彼此与所述预测模型的输出层相关联的损失函数。
第2发明为,根据第1发明所述的声学模型学习装置,所述损失函数包括与时间域约束、局部方差、局部方差协方差矩阵或者局部相关系数矩阵有关的损失函数中的至少一个。
第3发明为,根据第2发明所述的声学模型学习装置,所述损失函数还包括与序列内的方差、序列内的方差协方差矩阵或者序列内的相关系数矩阵有关的损失函数中的至少一个。
第4发明为,根据第3发明所述的声学模型学习装置,所述损失函数还包括与维度域约束有关的损失函数中的至少一个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社颖爱,未经株式会社颖爱许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080058174.7/2.html,转载请声明来源钻瓜专利网。





