[发明专利]语音处理系统无效
申请号: | 201310301682.5 | 申请日: | 2013-07-18 |
公开(公告)号: | CN103578462A | 公开(公告)日: | 2014-02-12 |
发明(设计)人: | 赤岭政巳;陈浪舟;M·J·F·盖尔斯;K·M·尼尔 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G10L13/08 | 分类号: | G10L13/08 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 周良玉;杨晓光 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 系统 | ||
相关申请的交叉引用
本申请基于在2012年7月18日提交的英国专利申请No.1212783.3,并要求其优先权,其整体内容在此引入作为参考。
技术领域
本文所述实施例总体涉及语音处理系统和方法。
背景技术
语音处理系统通常落入两个主要组:文语转换系统;和语音识别系统。
文语转换系统是这样的系统,其中响应于接收到文本文件而输出音频语音或音频语音文件。文语转换系统用于多个应用中,诸如电子游戏、电子书阅读器、电子邮件阅读器、卫星导航、自动电话系统、自动警告系统。
发明内容
为了解决对能够输出具有一定表达程度的语音的系统的持续需要这一问题,本发明实施例提供一种语音处理系统。
在一实施例中,提供文语转换方法,该方法包括:
接收输入文本;
将所述输入文本分割为声单元序列;
利用声学模型将所述声单元序列转换为语音矢量序列,其中所述模型具有多个模型参数,所述模型参数用于描述将声单元与语音矢量相关联的概率分布;以及
将所述语音矢量序列输出为音频,
该方法还包括通过如下步骤确定所述模型参数的至少部分:
从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量;以及
将所述表达语言特征矢量映射到在第二空间中构建的表达合成特征矢量。
在实施例中,将表达语言特征矢量映射到表达合成特征矢量包括,使用机器学习算法,例如,神经网络。
第二空间可以是多维连续空间。这允许平滑改变输出音频中的表达。
在一实施例中,从所述输入文本提取表达特征包括多个提取过程,所述多个提取过程在所述文本的不同信息级别执行。例如,不同信息级别可选自基于单词的语言特征提取级别以生成基于单词的语言特征、选自基于全情境音素的语言特征提取级别以生成基于全情境音素的语言特征、选自基于部分语音(POS)的语言特征提取级别以生成基于POS的特征、以及选自基于叙事风格的语言特征提取级别以生成叙事风格的信息。
在一个实施例中,当从多个信息级别提取表达特征时,多个提取过程中的每个生成特征矢量,该方法还包括连接从不同信息级别生成的语言特征矢量,以生成与第二空间映射的语言特征矢量。
在另一个实施例中,当从多个信息级别提取表达特征时,将表达语言特征矢量映射到表达合成特征矢量包括对应于不同信息级别的每个的多个分级阶段。
在一个实施例中,从第一空间映射到第二空间使用全情境信息。在另一个实施例中,声学模型从输入文本接收全情境信息,并且将该信息与从声学模型中的表达合成特征矢量导出的模型参数组合。在另一个实施例中,在映射步骤中使用全情境信息,并且还与映射步骤分离地接收全情境信息作为声学模型的输入。
在一些实施例中,所述声学模型的模型参数被表达为相同类型的模型参数的加权和,并且权重在第二空间中表示。例如,将所述模型参数表示为高斯平均值的加权和。在另一个实施例中,将参数聚为群集,并且合成特征矢量包括用于每个群集的权重。
每个群集可包括至少一个决策树,所述决策树基于与语言、语音或韵律差异中至少一个相关的问题。另外,在群集的决策树之间可能存在结构差异。
在一些实施例中,提供一种训练文语转换系统的方法,该方法包括:
接收训练数据,所述训练数据包括文本数据和对应于所述文本数据的语音数据;
从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量;
从所述语音数据提取表达特征并形成在第二空间中构建的表达特征合成矢量;
训练机器学习算法,该机器学习算法的训练输入为表达语言特征矢量,并且训练输出为对应于训练输入的表达合成特征矢量。
在一实施例中,机器学习算法为神经网络。
该方法还包括将表达合成特征矢量输出到语音合成器,所述语音合成器包括声学模型,其中所述模型具有多个模型参数,所述模型参数描述用于将声单元与语音矢量相关联的概率分布。在该配置中,联合训练声学模型的参数和诸如神经网络的机器学习算法。例如,所述声学模型的模型参数可以被表达为相同类型的模型参数的加权和,并且权重在第二空间中表示。在该配置中,可以联合训练在第二空间表示的权重和神经网络。
在一些实施例中,提供文语转换设备,该设备包括:
接收器,用于接收输入文本;
处理器,适于:
将所述输入文本分割为声单元序列;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310301682.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基底部、马达、盘驱动装置以及它们的制造方法
- 下一篇:一种车辆阻尼降噪方法