[发明专利]声学模型学习装置、语音合成装置、方法以及程序在审
| 申请号: | 202080058174.7 | 申请日: | 2020-08-14 |
| 公开(公告)号: | CN114270433A | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 松永悟行;大谷大和 | 申请(专利权)人: | 株式会社颖爱 |
| 主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/06;G10L25/30 |
| 代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 张洁;段承恩 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 声学 模型 学习 装置 语音 合成 方法 以及 程序 | ||
1.一种声学模型学习装置,具备:
语料库存储部,其以话语为单位存储从多个话语语音中提取出的自然语言特征量序列和自然语音参数序列;
预测模型存储部,其存储用于从某个自然语言特征量序列预测某个合成语音参数序列的前馈神经网络型预测模型;
语音参数序列预测部,其以所述自然语言特征量序列为输入,使用所述预测模型预测合成语音参数序列;
误差累计装置,其累计与所述合成语音参数序列和所述自然语音参数序列有关的误差;以及
学习部,其对所述误差进行预定优化,学习所述预测模型,
所述误差累计装置使用用于使相邻的帧彼此与所述预测模型的输出层相关联的损失函数。
2.根据权利要求1所述的声学模型学习装置,
所述损失函数包括与时间域约束、局部方差、局部方差协方差矩阵或者局部相关系数矩阵有关的损失函数中的至少一个。
3.根据权利要求2所述的声学模型学习装置,
所述损失函数还包括与序列内的方差、序列内的方差协方差矩阵或者序列内的相关系数矩阵有关的损失函数中的至少一个。
4.根据权利要求3所述的声学模型学习装置,
所述损失函数还包括与维度域约束有关的损失函数中的至少一个。
5.一种声学模型学习方法,包括:
根据以话语为单位存储从多个话语语音中提取出的自然语言特征量序列和自然语音参数序列的语料库,以所述自然语言特征量序列为输入,使用用于从某个自然语言特征量序列预测某个合成语音参数序列的前馈神经网络型预测模型,预测合成语音参数序列;
累计与所述合成语音参数序列和所述自然语音参数序列有关的误差;和
对所述误差进行预定优化,学习所述预测模型,
在累计所述误差时,使用用于使相邻的帧彼此与所述预测模型的输出层相关联的损失函数。
6.一种声学模型学习程序,使计算机执行以下步骤:
根据以话语为单位存储从多个话语语音中提取出的自然语言特征量序列和自然语音参数序列的语料库,以所述自然语言特征量序列为输入,使用用于从某个自然语言特征量序列预测某个合成语音参数序列的前馈神经网络型预测模型,预测合成语音参数序列的步骤;
累计与所述合成语音参数序列和所述自然语音参数序列有关的误差的步骤;和
对所述误差进行预定优化,学习所述预测模型的步骤,
累计所述误差的步骤使用用于使相邻的帧彼此与所述预测模型的输出层相关联的损失函数。
7.一种语音合成装置,具备:
语料库存储部,其存储语音合成对象文章的语言特征量序列;
预测模型存储部,其存储在权利要求1所述的声学模型学习装置中学习到的、用于从某个语言特征量序列预测某个合成语音参数序列的前馈神经网络型预测模型;
声码器存储部,其存储用于生成语音波形的声码器;
语音参数序列预测部,其以所述语言特征量序列为输入,使用所述预测模型预测合成语音参数序列;以及
波形合成处理部,其以所述合成语音参数序列为输入,使用所述声码器生成合成语音波形。
8.一种语音合成方法,包括:
以语音合成对象文章的语言特征量序列为输入,使用通过权利要求5所述的声学模型学习方法学习到的、从某个语言特征量序列预测某个合成语音参数序列的预测模型,预测合成语音参数序列;和
以所述合成语音参数序列为输入,使用用于生成语音波形的声码器,生成合成语音波形。
9.一种语音合成程序,使计算机执行以下步骤:
以语音合成对象文章的语言特征量序列为输入,使用通过权利要求6所述的声学模型学习程序学习到的、从某个语言特征量序列预测某个合成语音参数序列的预测模型,预测合成语音参数序列的步骤;和
以所述合成语音参数序列为输入,使用用于生成语音波形的声码器,生成合成语音波形的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社颖爱,未经株式会社颖爱许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080058174.7/1.html,转载请声明来源钻瓜专利网。





