[发明专利]基于HMM的双语(普通话-英语)TTS技术有效

专利信息
申请号: 201110291213.0 申请日: 2008-08-19
公开(公告)号: CN102360543A 公开(公告)日: 2012-02-22
发明(设计)人: Y·钱;F·K-P·宋 申请(专利权)人: 微软公司
主分类号: G10L13/06 分类号: G10L13/06
代理公司: 上海专利商标事务所有限公司 31100 代理人: 蔡悦;钱静芳
地址: 美国华*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 hmm 双语 普通话 英语 tts 技术
【说明书】:

本申请是国际申请号为PCT/US2008/073563,国际申请日为2008年8月19日,进入中国国家阶段的申请号为200880103469.0,名称为“基于HMM的双语(普通话-英语)TTS技术”的发明专利申请的分案申请。

背景

虽然文本-语音(TTS)合成质量近年来已极大地提高,但各种电信应用程序(例如,信息询问、预约和预定、以及电子邮件阅读)要求比现有TTS系统所能够提供的更高的合成质量。具体而言,随着全球化及其伴随的语言混合,这些应用程序能够从其中一个引擎能够合成多种语言或甚至混合语言的多语言TTS系统中受益。大多数常规TTS系统只能够处理单一语言,其中语音数据库中的句子由单个说母语的人来发音。尽管多语言文本可通过在每一种语言改变时切换语音或引擎来正确地阅读,但其中语言改变在句子内作为单词或短语发生的代码切换文本实际上是不可行的。此外,随着移动电话或嵌入式设备的广泛使用,语音合成器的覆盖区域成为基于这些设备的关于应用程序的因素。

对多语言TTS系统的研究表明音素覆盖可通过收集多语言语音数据来实现,但语言专用信息(例如,专用文本分析)也是必需的。已经在多语言或语言无关语音识别和合成中尝试了使用最小音素库存来覆盖受影响的语言的所有音素的全局音素集。这一方法采用按音素相似性的音素共享,该音素相似性通过数据驱动聚类方法或者由国际音标字母表(IPA)定义的音节特征来测量。存在对TTS系统的小覆盖区域方面的强烈兴趣,注意基于隐马尔可夫模型的语音合成往往更有希望。某些隐马尔可夫模型(HMM)合成器可具有相对较小的覆盖区域(例如,≤2MB),这使其适用于嵌入式系统。具体而言,这些HMM合成器已经成功地应用于许多单语的语音合成,例如,英语、日语和普通话。这一HMM方法已经出于多语言的目的而应用,其中首先通过使用来自若干说不同语言的说话者的混合语音来训练平均语音并且然后使该平均语音对特定说话者自适应。因此,该特定说话者能够说包含在训练数据中的所有语言。

通过全球化,嵌在普通话发言中的英语单词或短语在中国的学生和受过教育的人中正在变得越来越普遍地使用。然而,普通话和英语属于不同的语系;这些语言是高度无关的,这表现在基于对其IPA符号的检查,能够一起共享的音素很少。

常规上,基于由双语说话者说出的预先记录的普通话和英语句子来构建双语(普通话-英语)TTS,其中该系统的单元选择模块是跨这两种语言共享的,而来自这两种不同语言的音素彼此不共享。这一方法具有某些缺点。这一系统的覆盖区域太大,即,大约是单一语言系统的大小的两倍。实际上,找到足够数量的专业双语说话者来为各种应用程序构建多个双语音型也不容易。

此处所讨论的各种示例性技术涉及多语言TTS系统。与每一种语言需要单独的TTS系统的现有技术相比,这些技术能够减小TTS系统的覆盖区域。

概述

一种用于基于一种或多种语言的文本来生成语音的示例性方法,该方法包括提供两种或更多语言的音素集、训练包括跨语言状态级共享的多语言HMM、接收该多语言HMM的语言中的一种或多种语言的文本、以及至少部分地基于该多语言HMM来生成对应于所接收到的文本的语音。其他示例性技术包括第一语言的决策树和第二语言的决策树之间的映射和可任选地反方向的映射、以及对多语言文本-语音系统的Kullback-Leibler散度分析。

附图简述

参考附图描述了非限制性的和非穷尽的实施例,其中除非另外指定,否则在各个视图中相同的附图标记指示相同的部分。

图1是包括语音-文本(STT)和文本-语音(TTS)的文本和语音方法的图示。

图2是用于英语的TTS方法和系统以及用于普通话的TTS方法和系统的图示。

图3是示例性多语言TTS方法和系统的图示。

图4是确定英语和普通话的共享音素的示例性方法的图示。

图5是使用KLD来确定共享在英语音素和普通话音素之间是否切实可行的示例性技术的图示。

图6是用于确定共享在英语子音素和普通话子音素之间是否切实可行的示例性方法的图示。

图7是用于确定共享在英语复杂音素和普通话音素对之间是否切实可行的示例性方法的图示。

图8是用于上下文无关状态共享的示例性技术的图示。

图9是用于上下文相关状态共享的示例性技术的图示。

图10是用于语音合成的示例性技术的图示。

图11是基线系统以及用于英语和普通话的两个示例性系统的图示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110291213.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top