[发明专利]语音合成字典生成装置和语音合成字典生成方法无效

申请号：	201510058451.5	申请日：	2015-02-04
公开（公告）号：	CN104835493A	公开（公告）日：	2015-08-12
发明（设计）人：	森田真弘	申请（专利权）人：	株式会社东芝
主分类号：	G10L13/06	分类号：	G10L13/06;G10L13/08
代理公司：	北京市中咨律师事务所 11247	代理人：	刘薇;杨晓光
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：	根据一个实施例，语音合成字典生成装置包括分析器、说话人自适应器、水平指定单元和确定单元。分析器被配置为分析语音数据，并生成包含对象说话人的话语特征的语音数据库。说话人自适应器被配置为通过基于数据库而将基本模型转换成更接近对象说话人的特征的说话人自适应来生成对象说话人的模型。水平指定单元被配置为接受表示说话人的话语技巧和/或说话人在语音合成字典的语言方面的母语水平的目标说话人水平的指定。确定单元被配置为根据目标说话人水平与对象说话人的说话人水平之间的关系，确定与在说话人自适应中的说话人特性再现的保真度有关的参数。
搜索关键词：	语音合成字典生成装置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种语音合成字典生成装置，用于基于对象说话人的语音数据来生成包含所述对象说话人的模型的语音合成字典，所述装置包括：语音分析器，其被配置为分析所述语音数据，并生成包含表示所述对象说话人的话语特征的数据的语音数据库；说话人自适应器，其被配置为通过执行说话人自适应，即基于所述语音数据库来将预定的基本模型转换成更接近所述对象说话人的特征，生成所述对象说话人的模型；目标说话人水平指定单元，其被配置为接受目标说话人水平的指定，其中，所述目标说话人水平是成为目标的说话人水平，所述说话人水平表示说话人的话语技巧和说话人在所述语音合成字典的语言方面的母语水平中的至少一个；以及确定单元，其被配置为根据所指定的目标说话人水平与对象说话人水平之间的关系，确定与在所述说话人自适应中的说话人特性再现的保真度有关的参数的值，其中，所述对象说话人水平是所述对象说话人的说话人水平；其中，所述确定单元被配置为确定所述参数的值，以使得当所指定的目标说话人水平高于所述对象说话人水平时，与当所指定的目标说话人水平不高于所述对象说话人水平时相比，所述保真度降低；所述说话人自适应器被配置为根据由所述确定单元确定的所述参数的值执行所述说话人自适应。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于株式会社东芝，未经株式会社东芝许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510058451.5/，转载请声明来源钻瓜专利网。

上一篇：一种改进GSC自适应语音增强方法
下一篇：电压输出装置、栅极驱动电路和显示装置

同类专利

语音合成中预测基频帧的方法及系统-201610091573.9
发明人：刘青松;许东星;王鸣;黄盼 -专利权人：云知声（上海）智能科技有限公司
申请日： 2016-02-19 - 公布日： 2019-07-09 - 主分类号： G10L13/06
摘要：本发明涉及一种语音合成中预测基频帧的方法及系统，该方法包括：输入待合成语音的文本信息；将所述文本信息转化为语音特征帧序列；预测每一语音特征帧是否为基频帧，以形成基频预测结果；将所述文本信息转化为音素信息序列；判断每一音素是否为含基频信息音素，以形成辅助信息，每一音素对应多个语音特征帧；以及将所述音素信息序列与所述语音特征帧序列相对应，并根据所述辅助信息修正所述基频预测结果以形成语音帧是否含有基频信息的结果。本发明从输入的文本信息中提取音素信息，利用音素信息是否带基频作为辅助信息，对基频预测结果进行修正，实现提高基频帧预测的准确率，进而提高合成后的语音的自然度，优化声音效果。

基于语音合成的旋律生成方法、装置及终端设备-201910008136.X
发明人：梅亚琦;刘奡智;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2019-01-04 - 公布日： 2019-06-07 - 主分类号： G10L13/06
摘要：本发明适用于数据处理技术领域，提供了基于语音合成的旋律生成方法、装置、终端设备以及计算机可读存储介质，包括：获取目标歌词，并对所述目标歌词进行分词得到至少两个分词结果；根据预设的音符模板集和所述分词结果的字数为每个所述分词结果分配音符模板，并将已分配的所有所述音符模板组合为目标音符集；从预设的和声库挑选出组合和弦，为所述组合和弦中的每个和弦设置音阶，并将已设置音阶的所述组合和弦添加至所述目标音符集，生成并输出目标旋律，其中，所述和声库包括至少两个所述组合和弦。本发明基于目标歌词自动生成旋律，提升了旋律生成的效果和准确性。

文字转语音系统以及文字转语音方法-201710061183.1
发明人：黄宏吉 -专利权人：晨星半导体股份有限公司
申请日： 2017-01-25 - 公布日： 2018-08-03 - 主分类号： G10L13/06
摘要：本发明涉及一种文字转语音系统以及文字转语音方法，适用于一文字转语音系统，其包含：(a)接收一生物特征资讯或地理资讯；(b)根据生物特征资讯或地理资讯决定一设定值；以及(c)根据设定值将一文字资讯转换为一输出语音。

声音合成装置-201410133441.9
发明人：大塚贵弘;川岛启吾;古田训;山浦正 -专利权人：三菱电机株式会社
申请日： 2014-04-03 - 公布日： 2017-11-03 - 主分类号： G10L13/06
摘要：得到能够制作高质量的合成声音的声音合成装置。候补声音片段系列制作部（1）针对输入语言信息系列（101），使用声音片段数据库（4）的DB声音片段（105）来制作候补声音片段系列（102）。输出声音片段系列决定部（2）使用表示与输入语言信息系列（101）、和表示候补声音片段系列（102）中的多个候补声音片段各自的属性的声音参数的共生条件（106）对应的值的参数（107），来计算候补声音片段系列（102）适合于输入语言信息系列（101）的程度，根据适合的程度，决定输出声音片段系列（103）。

一种发音词典的构建方法及装置-201511016459.1
发明人：王志铭;李晓辉;李宏言 -专利权人：阿里巴巴集团控股有限公司
申请日： 2015-12-29 - 公布日： 2017-07-07 - 主分类号： G10L13/06
摘要：本申请公开一种发音词典的构建方法，用以解决按照现有技术构建的发音词典的质量较差问题。方法包括将目标词汇的语音声学特征，输入语音识别解码器；其中，所述语音识别解码器中的发音词典包括目标词汇和目标词汇的候选发音音素序列；根据所述语音识别解码器输出的候选发音音素序列，确定所述目标词汇对应于输出的候选发音音素序列的概率分布；根据所述概率分布，从所述输出的候选发音音素序列中，选择作为所述目标词汇的正确发音的发音音素序列；根据所述正确发音的发音音素序列，构建发音词典。本申请还公开了一种发音词典的构建装置。

语音合成字典创建装置、语音合成器、以及语音合成字典创建方法-201510404746.3
发明人：桥健太郎;田村正统;大谷大和 -专利权人：株式会社东芝
申请日： 2015-07-10 - 公布日： 2016-01-27 - 主分类号： G10L13/06
摘要：本发明描述了语音合成字典创建装置、语音合成器、以及语音合成字典创建方法。根据实施例，语音合成字典创建装置包括表创建器、估计器、和字典创建器。表创建器被配置为基于采用相应的第一和第二语言的特定说话人的语音合成字典的节点分布之间的相似性来创建表。估计器被配置为基于采用第一语言的目标说话人的语音和所记录的文本、以及采用第一语言的特定说话人的语音合成字典来估计用于将采用第一语言的特定说话人的语音合成字典变换为采用第一语言的目标说话人的语音合成字典的矩阵。字典创建器被配置为基于表、矩阵、以及采用第二语言的特定说话人的语音合成字典来创建采用第二语言的目标说话人的语音合成字典。

多音字标注模板生成方法和装置-201510695421.5
发明人：肖朔;白洁;李秀林 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2015-10-22 - 公布日： 2016-01-06 - 主分类号： G10L13/06
摘要：本发明公开了一种多音字标注模板生成方法和装置，其中，多音字标注模板生成方法包括：获取原始语料；对原始语料进行预处理，并生成包含多音字的语料数据；切分语料数据以生成多个分词，并对多个分词进行词性标注，以及进行近义词归一化处理；对归一化后的多个分词进行组合，并生成对应的句型；以及反向生成句型对应的多音字标注语料，并根据多音字标注语料生成多音字标注模板。本发明实施例的多音字标注模板生成方法和装置，减少了人工标注的工作量，并提升了多音字标注语料的抗噪性和容错性，进而在对多音字的读音进行预测时，提高了准确性。

语音合成字典生成装置和语音合成字典生成方法-201510058451.5
发明人：森田真弘 -专利权人：株式会社东芝
申请日： 2015-02-04 - 公布日： 2015-08-12 - 主分类号： G10L13/06
摘要：根据一个实施例，语音合成字典生成装置包括分析器、说话人自适应器、水平指定单元和确定单元。分析器被配置为分析语音数据，并生成包含对象说话人的话语特征的语音数据库。说话人自适应器被配置为通过基于数据库而将基本模型转换成更接近对象说话人的特征的说话人自适应来生成对象说话人的模型。水平指定单元被配置为接受表示说话人的话语技巧和/或说话人在语音合成字典的语言方面的母语水平的目标说话人水平的指定。确定单元被配置为根据目标说话人水平与对象说话人的说话人水平之间的关系，确定与在说话人自适应中的说话人特性再现的保真度有关的参数。

依据使用者语音产生合适语音信号的装置及其方法-201310320691.9
发明人：刘晓安 -专利权人：英业达科技有限公司;英业达股份有限公司
申请日： 2013-07-26 - 公布日： 2015-02-11 - 主分类号： G10L13/06
摘要：本发明公开一种依据使用者语音产生合适语音信号的装置及其方法，其通过收集人声语音以及相对应的文字数据，并建立文字数据所包含的语音文字在人声语音中的位置索引后，依据目标信息中与语音文字相同的信息文字的位置索引，由人声语音中获取出与信息文字对应的声音信号，并结合所获取出的声音信号的技术手段，可以无需特别建立语音数据库，达成以使用者的语音合成语音信号的技术功效。

具有谱稳定边界的跨音节中文语音合成基元构建方法-201410523220.2
发明人：谢湘;焦祎姗 -专利权人：北京理工大学
申请日： 2014-10-07 - 公布日： 2015-01-28 - 主分类号： G10L13/06
摘要：本发明公开了一种具有谱稳定边界的跨音节中文语音合成基元构建方法，属于语音处理领域。本发明对所述语音流数据进行切分基元时从一个音节的中心元音开始，到与它相邻的下一个音节的中心元音结束，切分所得的跨音节基元由两组成：前一音节韵母的中心元音及其之后的部分，当前音节韵母的中心元音以及之前的部分，从而获得跨音节基元。本方法既能保留音节内及音节间的协同发音，又避免基元过短导致大量的拼接出现，从而有效提高合成语音的自然度和连贯性，且不会影响合成语音的音质表现。

用于合成语音的方法和装置-201210501075.9
发明人：康永国;李健 -专利权人：株式会社东芝
申请日： 2012-11-29 - 公布日： 2014-06-11 - 主分类号： G10L13/06
摘要：本发明提供用于合成语音的方法和装置。所述用于合成语音的装置，包括：输入单元，其输入文本句；文本分析单元，其对上述文本句进行文本分析以获得音素序列；查找单元，其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点，上述叶子节点中的音素时长实例被聚为多个类；概率计算单元，其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率；时长预测单元，其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长；以及语音合成单元，其利用上述时长预测单元预测出的时长合成上述文本句的语音。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音合成字典生成装置和语音合成字典生成方法无效

专利文献下载