[发明专利]高表现力的语音合成方法和装置有效
申请号: | 201410645715.2 | 申请日: | 2014-11-12 |
公开(公告)号: | CN104392716B | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | 李秀林;贾磊;康永国 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L13/027 | 分类号: | G10L13/027;G10L13/08 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种高表现力的语音合成方法和装置。所述高表现力的语音合成方法包括将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文;根据所述状态的上下文,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型;根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音,包括利用声码器将声学参数来合成语音或者用声学参数指导声学片段的单元挑选来生成语音。本发明实施例提供的高表现力的语音合成方法和装置提高了合成语音的自然度。 | ||
搜索关键词: | 表现力 语音 合成 方法 装置 | ||
【主权项】:
一种高表现力的语音合成方法,其特征在于,包括:训练用于获取语料库中不同上下文对应的高斯混合声学模型的决策树;对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计,获取语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值,将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数,生成所述高斯混合声学模型;统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率;将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文;根据所述决策树,获取所述状态的上下文中所述状态对应的高斯混合声学模型,所述高斯混合声学模型包含至少两个分量,每一个分量相互独立并服从高斯分布,每一个分量是一个独立的高斯声学模型,将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量,将所述高斯声学模型之间的转移概率作为路径度量,通过求和计算状态序列的不同路径的度量值,将所述度量值最大的一条路径作为所述状态序列的最佳路径,通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型;根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410645715.2/,转载请声明来源钻瓜专利网。
- 同类专利
- 多音字预测方法、装置、设备及计算机可读存储介质-201910407702.4
- 陈闽川;马骏;王少军 - 平安科技(深圳)有限公司
- 2019-05-16 - 2019-10-08 - G10L13/027
- 本发明涉及人工智能技术领域,公开了一种多音字预测方法、装置、设备及计算机可读存储介质,多音字预测方法包括:获取包含多音字的训练文本以及所述多音字的原始发音;通过所述训练文本以及所述多音字的原始发音,基于迭代训练的方式对预置多音字预测模型进行训练,得到目标多音字预测模型;获取待转换文本,并检测所述待转换文本中是否存在多音字;若所述待转换文本中存在多音字,则获取所述待转换文本的特征信息;将所述特征信息输入目标多音字预测模型,输出所述多音字在所述待转换文本中的目标发音。通过本发明,根据待转换文本的特征信息,通过目标多音字预测模型预测多音字在待转换文本中的读音,提高了对多音字进行预测的准确度。
- 一种便携式聋哑人交流设备-201610538192.0
- 王豫喆;赵洁;刘禹锡;宋平;李默 - 吉林宇恒光电仪器有限责任公司
- 2016-07-11 - 2019-07-26 - G10L13/027
- 本发明公开了一种便携式聋哑人交流设备,包括聋哑人输入信息处理模块及正常人输入信息处理模块;聋哑人通过所述聋哑人信息输入处理模块将输入的手语手势或文本翻译为语音;正常人通过正常人信息输入处理模块将输入的语音或输入的文本翻译为手语手势和文本并同时进行显示其能够将聋哑人的手语手势或输入的文本转换为语音,将正常人的语音或输入的文本转换为手语手势和文本。本发明是一款聋哑人可随身携带的用于和正常人现场交流的设备,其能够快速的进行信息处理转换,并具有深度学习功能,能够逐渐适应使用者的表达习惯,具有一定的实时性和实用性。
- 基于HMM的情感语音合成方法、装置及存储介质-201910222805.3
- 彭俊清;尚迪雅;王健宗 - 平安科技(深圳)有限公司
- 2019-03-22 - 2019-06-28 - G10L13/027
- 本发明属于人工智能技术领域,公开了一种基于HMM的情感语音合成方法,包括:提取语料库中训练语音的声学参数;构建HMM;利用所述训练语音的声学参数训练所述HMM,得到训练后的HMM;通过对待合成文本进行文本分析处理,得到所述待合成文本的上下文属性和标注信息;根据所述上下文属性和标注信息得到相应的状态序列;根据所述状态序列和训练后的HMM生成待合成文本的语音参数;将所述待合成文本的语音参数合成得到目标情感语音。本发明还公开了一种电子装置和存储介质。本发明通过训练得到的HMM进行生成语音参数的指导,在语音参数合成的过程中,提高合成语音的表现力,反映出说话人传达的情感信息。
- 利用言语合成对话语进行响应的技术-201910272063.5
- 松原弘明;浦纯也;川原毅彦;久凑裕司;吉村克二 - 雅马哈株式会社
- 2014-06-02 - 2019-06-14 - G10L13/027
- 本发明设置有:语音输入单元(102),其经由语音信号接收话语(询问);响应产生单元(110),其创建针对所述话语的响应(回答)的语音序列;音高分析单元(106),其对所述话语的第一区间(例如,句尾)的音高进行分析;以及语音产生单元(语音合成单元(112)等),其经由语音产生由所述语音序列表示的响应。所述语音产生单元以如下方式控制整个响应的音高:使所述响应的第二区间(例如,句尾)的音高相对于所述话语的第一区间的音高实现规定的音高(例如,向下五度)。由此实现对能够给用户自然感觉的响应语音的合成。
- 语音合成方法及装置-201811318970.0
- 周广益 - 上海指旺信息科技有限公司
- 2018-11-07 - 2019-04-05 - G10L13/027
- 本申请公开了一种语音合成方法及装置,涉及音频处理领域,该方法包括:获取用于语音播放的目标文字信息;根据所述目标文字信息中的固定文字,得到第一音频文件;识别并提取所述目标文字信息中的特征文字,得到特征文字信息;对所述特征文字信息进行音频录制,得到第二音频文件;将所述第一音频文件和所述第二音频文件进行拼接,得到目标音频文件。本申请采用识别并提取目标文字信息中的特征文字的方式,通过对特征文字信息进行针对性的音频录制,达到了最终的目标音频文件都是由人来录制的目的,从而实现了高度拟人化的技术效果,进而解决了相关技术中机器人合成的语音文件在播放时生硬僵化,缺乏拟人感的问题。
- 基于隐马尔科夫模型的统计语音合成方法及装置-201510272044.4
- 俞凯;王向然;陈博;徐佳琛 - 上海交通大学;苏州思必驰信息科技有限公司
- 2015-05-25 - 2018-08-17 - G10L13/027
- 一种基于隐马尔科夫模型的统计语音合成方法及装置,通过生成关联多模态的自然语言问题,根据自然语言问题生成相应图片并加入干扰元素,根据问题文本,使用基于HMM的语音合成方法的多模态验证码合成语音并加入噪声,本发明将验证码的模式从单模态提升到互相之间有语义关联的多模态,进一步增进现有验证码对于人类和计算机的区分性,提升互联网验证系统的人机区分度,加强安全性能。
- 语音合成发音人自适应方法及系统-201410797377.4
- 张伟;顿双保;于淼;郭正欧 - 天津讯飞信息科技有限公司
- 2014-12-18 - 2018-06-15 - G10L13/027
- 本发明公开了一种语音合成发音人自适应方法及系统,该方法包括:在接收到需要进行语音合成的待处理文本后,获取用户信息;从原始发音人模型集合中筛选出满足用户信息要求的发音人模型,形成有效发音人模型集合;在有效发音人模型集合中指定一发音人模型播报所述待处理文本。本发明方法及系统可以根据用户信息自适应地调整发音人模型,因此,可使基于本发明方法及系统的语音合成技术激起用户对播报内容的兴趣,并增强用户对播报内容的理解和记忆。 1
- 一种语音播报系统和方法-201410670671.9
- 王程程 - 北京云知声信息技术有限公司
- 2014-11-20 - 2018-01-12 - G10L13/027
- 本发明涉及一种语音播报系统和方法,录制与文字信息播报者角色匹配的样本语音,并将所述样本语音经第一网络通讯模块和第二网络通讯模块发送至语音存储模块;获取存储语音数据,从获取的语音数据中抽取声音特征参数,并对所述声音特征参数进行模型训练,得到特色语音模型;采集用户需要用语音进行播报的文字信息,并将采集到的文字信息经第一网络通讯模块和第二网络通讯模块发送至特色音合成模块;获取所述特色语音模型和所述文字信息,合成具有播报者声音特点和文字信息内容的特色语音,并将所述特色语音数据存储至语音存储模块;播放特色语音。本发明可以播报具有文字信息发送者声音特点的语音,个性化强,容易被听者所接受。
- 高表现力的语音合成方法和装置-201410645715.2
- 李秀林;贾磊;康永国 - 百度在线网络技术(北京)有限公司
- 2014-11-12 - 2017-10-13 - G10L13/027
- 本发明实施例公开了一种高表现力的语音合成方法和装置。所述高表现力的语音合成方法包括将输入文本进行处理分析,得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文;根据所述状态的上下文,基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型,作为合成语音的高斯声学模型;根据所选择的高斯声学模型生成声学参数,并根据生成的声学参数合成语音,包括利用声码器将声学参数来合成语音或者用声学参数指导声学片段的单元挑选来生成语音。本发明实施例提供的高表现力的语音合成方法和装置提高了合成语音的自然度。
- 分词词典的生成方法和装置及语音合成方法和装置-201510289231.3
- 李秀林;肖朔;白洁 - 百度在线网络技术(北京)有限公司
- 2015-05-29 - 2017-06-20 - G10L13/027
- 本发明提出一种分词词典的生成方法和装置及语音合成方法和装置,该分词词典的生成方法包括对收集的预设范围内的文本进行划分,得到组成所述文本的句子;对所述句子进行划分,得到不同长度的字符串;根据所述不同长度的字符串,确定不同长度的字符串内的可信词条;根据所述可信词条建立分词词典。该方法能够获取与相应领域适合的分词词典,进而可以提高分词效果,提高语音合成效果。
- 数据转换方法及装置-201610274186.9
- 李鲲鹏 - 玉环看知信息科技有限公司
- 2016-04-28 - 2016-07-06 - G10L13/027
- 本发明公开了一种数据转换方法,包括:获取待转换的文本数据;将所述文本数据划分为关键内容和非关键内容;获取所述关键内容对应的第一语气标识和所述非关键内容对应的第二语气标识,其中,所述第一语气标识和所述第二语气标识所指示的语气不同;将所述文本数据转换为语音数据,包括:将所述关键内容转换为第一语音数据,所述第一语音数据带有所述第一语气标识所指示的语气,以及将所述非关键内容转换为第二语音数据,所述第二语音数据带有所述第二语气标识所指示的语气。本发明还公开了能够实施上述方法的数据转换装置,和包括如上数据转换装置的移动终端、服务器。
- 一种从语音频谱包络自动获取EpR模型滤波器参数的方法-201410695263.9
- 华侃如 - 华侃如
- 2014-11-27 - 2016-06-22 - G10L13/027
- 拼接式语音合成中,语料库语音单元制作时经常需要对语音频谱包络进行建模,并通过语音频谱包络向其他底层语音模型(如正弦模型)提供控制参数,从而生成最终的合成语音单元。对语音频谱包络进行建模的方法之一是EpR模型。EpR模型滤波器参数确定常用的方法是手工指定。本发明使用梯度下降算法创建了一种从语音频谱包络自动获取EpR模型滤波器参数的方法,在不降低EpR模型滤波器参数精度的基础上,提高了该模型滤波器参数指定的效率,从而最终大幅提高了大型语料库制作的效率。
- 一种电子喉擦音重建方法-201510158837.3
- 万明习;肖科;吴亮;王素品 - 西安交通大学
- 2015-04-03 - 2015-08-12 - G10L13/027
- 本发明公开了一种电子喉擦音重建方法,本发明在综合了异位点施加嗓音源的声道结构差异以及颈部组织影响的基础上,通过频域滤波方法合成满足电子喉擦音重建的嗓音源,然后将该擦音嗓音源加载于线性电子喉系统,通过颈部外侧传入声道而重建出高质量电子喉擦音。本发明只使用一个单嗓音源,克服了正常擦音产生过程中的多源特性,降低了嗓音源的合成难度,同时保证重建擦音质量;通过异位点施加嗓音源的声道传递函数反向补偿嗓音源,有效补偿异位施加嗓音源造成的能量缺失区;通过颈部组织的传递函数反向补偿嗓音源,有效补偿颈外施加嗓音源的颈部滤波作用;通过线性振动器克服现有电子喉只能提供周期性振动信号的缺点,重建出高可懂度的擦音。
- 文本到语音的方法和系统-201310081220.7
- 赤岭政巳;L-M·哈维尔;W·V·P·梁;C·K·康;G·M·J·弗朗西斯;K·K·马里;C·B·哈 - 株式会社东芝
- 2013-03-14 - 2013-09-18 - G10L13/027
- 一种文本到语音的方法,用于模拟多个不同的声音特性,包括:输入文本;将所输入的文本划分成声学单元序列;选择用于所输入的文本的声音特性;使用声学模型,将声学单元序列转换成语音向量序列,其中模型具有多个模型参数,其描述将声学单元与语音向量有关的概率分布;输出语音向量序列,作为具有所选择的声音特性的音频;其中,在所选择的声音特性中每个概率分布的预定类型的参数被表示为相同类型的参数的加权和,其中,所使用的权重是依赖声音特性的,以使得将声学单元序列转换成语音向量序列包括获取用于所选择的声音特性的声音特性依赖权重,其中,参数在聚类中提供,每个聚类包括至少一个子聚类,其中对于每个聚类,获取声音特性依赖权重,以使得每个子聚类有一个权重。
- 一种手套式发声系统-201310222336.8
- 张洋;琚小明 - 华东师范大学
- 2013-06-05 - 2013-09-11 - G10L13/027
- 本发明公开了一种手套式发声系统,其包括手套,压力传感器,信号处理单元以及扬声器。其中,压力传感器设置在手套上。压力传感器用于感测手指触碰的压力并将其转换成控制信号。信号处理单元用于将所述压力传感器生成的控制信号转换为语音数据。扬声器与所述信号处理单元连接以实现播放所述语音数据。本发明小巧简便,使用便捷,满足用户群的特殊需求,帮助社会上的失语患者重获生活幸福。
- 一种基于受限玻尔兹曼机的语音合成方法-201310099895.4
- 凌震华;陈凌辉;戴礼荣 - 中国科学技术大学
- 2013-03-26 - 2013-07-31 - G10L13/027
- 本发明公开了一种基于受限玻尔兹曼机的语音合成方法。使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模;利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分;利用切分得到的各状态起止时间,对提取的训练数据库中的原始频谱包络特征进行切分,收集得到上下文相关HMM模型中各状态对应的频谱包络数据;利用Gaussian-HMM模型进行基频特征的预测,并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器,生成最终的合成语音。该方法能够提高基于HMM的参数语音合成方法中的频谱特征建模精度,从而改善合成语音的音质与自然度。
- 一种手机文本短信的语音播放的方法-201110424375.7
- 卢晓鹏 - 无锡中星微电子有限公司
- 2011-12-15 - 2013-06-19 - G10L13/027
- 本发明公开了一种手机文本短信的语音播放的方法,手机接收到文本形式的短信后,对该短信的文本字串经文本分析,获得相对应的语音波形,从而形成合成语音并播放。本发明具有即时语音合成,即时文本语音转换,节省时间,保证用户行车安全,方便老年用户视力差的优点。
- 专利分类