[发明专利]音质编辑装置及音质编辑方法有效

申请号：	200880001664.2	申请日：	2008-06-04
公开（公告）号：	CN101622659A	公开（公告）日：	2010-01-06
发明（设计）人：	广濑良文;釜井孝浩	申请（专利权）人：	松下电器产业株式会社
主分类号：	G10L13/06	分类号：	G10L13/06
代理公司：	永新专利商标代理有限公司	代理人：	杨谦;胡建新
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音质编辑装置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及对声音的音质进行编辑的装置及方法。

背景技术

近几年，随着声音合成技术的发展，已经能够制作出极高音质的合成音。

但是，以往的合成音的用途主要以播音员的风格朗读新闻等用途为中心。

另一方面，在移动电话服务等领域，提供使用名人的声音信息来代替铃声之类的服务等，有特征的声音(个人再现性高的合成音，以及女高中生腔调或者关西方言腔调等具有特征性的韵律和音质的合成音)作为一个内容开始流通。为了增加这样的人际交流中的乐趣，可以想像对于制作给对方听的特征性的声音的需求今后会更高。

再者，作为合成声音的方法，大致分为以下两种。即，从预先准备好的声音单元DB(数据库)中选择适当的声音单元，并通过将其进行连接来合成声音的波形连接型声音合成方法，和对声音参数进行分析，以分析后的参数为基础来合成声音的分析合成型声音合成方法。

如果考虑使上述合成音的音质进行各种各样的变化，则在波形连接型声音合成方法中，需要尽量准备必要的声音单元DB，并切换声音单元DB，同时需要对单元进行连接。因此，为了制作各种各样音质的合成音，需要庞大的费用。

另一方面，分析合成型声音合成方法通过使分析后的声音参数进行变形，从而能够转换合成音的音质。

而且，存在利用讲话者适应技术来转换音质的方法。即为通过使预先准备的其他的讲话者的声音的特征适用于分析后的声音参数，来转换音质的方法。

为了改变声音的音质，需要以某种方法使用户指定想改变为怎样的音质。例如，作为指定音质的方法，存在如图1所示的，使用几个感性轴的滑动器，来使用户指定音质的方法。但是，缺乏有关声音的预备知识的用户，通过这样调节滑动器难以得到想要的音质。这是因为，用户将自己想制作的音质通过感性语言来语言化的事情本身就很难。例如，在图1的例子中，“年龄在30岁左右，非常女性化，但是，稍带阴郁，无感情，····” 等之类的，必须根据自己设想的音质来调节滑动器，但是，这样的操作在缺乏声音的预备知识的情况下很难。而且，反过来，根据滑动器的状态来想起此状态所表示的音质的情况同样是困难的。

另一方面，平时，在听到了未知的音质的声音的情况下，进行如下的表现是自然的。即，听到了未知的音质的声音的用户，所谓“象X先生一样的声音，不过，又有点象Y先生的声音”(在此，X、Y表示用户知道的个人)等那样，利用用户已经知道的具体的人名来表现未知的音质是自然的。在此，可以考虑到通过将具体的个人(具备某种特征的个人所具有的音质)进行组合，从而能够直观地指定音质。

这样，在通过对系统预先保持的具体的个人的音质进行组合，来使用户编辑音质的情况下，系统以容易理解的方法来出示所保持的音质的出示方法变得重要。并且，通过利用编辑后的音质的声音特征来进行依据讲话者适应技术的音质转换，能够生成具有用户所期望的音质的合成声音。

再者，具有如专利文献1那样的，向用户出示登记在数据库的声信息，以供选择的方法。专利文献1公开了一种从各种各样的效果音中，使用户选择所期望的效果音的方法。在专利文献1所记载的方法中，根据声特征和感性信息，将所保有的效果音配置在声空间中，并出示与效果音的声特征对应的图标。

图2是专利文献1所记载的声浏览装置的框图。

声浏览装置包括：声数据存储部1、声空间坐标数据生成部2、声空间坐标数据存储部3、图标图像生成部4、声数据显示部5、声空间坐标输入部6、立体声再生处理部7、声数据再生部8。

声数据存储部1，将声数据本身、在画面上显示该声数据时使用的图标图像、有关该声数据的声特征量作为一组来存储。声空间坐标数据生成部2 根据被存储在声数据存储部1的声特征量，生成应该显示在画面上的声空间中的该声数据的坐标数据。即，算出在声空间中，该声数据应该被显示在哪个位置上。

在画面上显示的图标图像根据声特征量，在图标图像生成部4被生成。具体而言，根据该效果音的频谱分布和感性参数，来生成图标图像。

在专利文献1中，通过这样的在空间中配置个别的效果音，从而使用户容易指定效果音。然而，出示效果音的坐标是由声空间坐标数据生成部2 决定了的坐标，是固定的。因此，未必是与用户的感觉相符的声空间。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社，未经松下电器产业株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200880001664.2/2.html，转载请声明来源钻瓜专利网。

上一篇：用阳离子表面活性剂纯化蛋白质的方法
下一篇：复合半导体器件、印头以及图像形成装置

同类专利

话音合成器、话音合成方法和话音合成程序-201180016109.9
发明人：加藤正德 -专利权人：日本电气株式会社
申请日： 2011-03-23 - 公布日： 2012-12-12 - 主分类号： G10L13/06
摘要：归一化谱存储单元(204)预存储基于随机数序列计算的归一化谱。浊音生成单元(201)基于与输入文本相对应的浊音的多个分段以及存储在归一化谱存储单元(204)中的归一化谱来生成浊音波形。清音生成单元(202)基于与输入文本相对应的清音的多个分段来生成清音波形。合成话音生成单元(203)基于由浊音生成单元(201)生成的浊音波形和由清音生成单元(202)生成的清音波形来生成合成话音。

在语音合成中用于融合浊音音素单元的方法和装置-201080001520.4
发明人：栾剑;李健 -专利权人：株式会社东芝
申请日： 2010-06-28 - 公布日： 2012-06-20 - 主分类号： G10L13/06
摘要：本发明提供了在语音合成中用于融合浊音音素单元的方法和装置。本发明的一种用于融合浊音音素单元的装置包括：单元输入模块，其输入用于目标片段的浊音音素的多个单元；单元切分模块，其对多个单元的每个单元进行切分以获得每个单元的基音周期；参考单元选择模块，其基于每个单元的基音周期信息和目标片段的基音周期个数从多个单元中选择一个参考单元；模板创建模块，其基于参考单元和目标片段的基音周期个数创建一个模板；基音周期对齐模块，其利用动态规划算法将多个单元的除了参考单元的每个单元的基音周期与模板的基音周期对齐；基音周期融合模块，其将对齐的基音周期融合；以及基音周期拼接模块，其将融合的基音周期拼接为目标片段的融合单元。

基于HMM的双语(普通话-英语)TTS技术-201110291213.0
发明人： Y·钱;F·K-P·宋 -专利权人：微软公司
申请日： 2008-08-19 - 公布日： 2012-02-22 - 主分类号： G10L13/06
摘要：一种用于基于一种或多种语言的文本来生成语音的示例性方法，该方法包括提供两种或更多语言的音素集、训练包括跨语言状态级共享的多语言HMM、接收该多语言HMM的语言中的一种或多种语言的文本、以及至少部分地基于该多语言HMM来生成对应于所接收到的文本的语音。其他示例性技术包括第一语言的决策树和第二语言的决策树之间的映射和可任选地反方向的映射、以及对多语言文本-语音系统的Kullback-Leibler散度分析。

一种语音基元的编码与合成系统-201010215135.1
发明人：孟智平 -专利权人：上海视加信息科技有限公司
申请日： 2010-06-30 - 公布日： 2012-01-11 - 主分类号： G10L13/06
摘要：本发明公开了一种语音基元的编码与合成系统，可用于低带宽高音质的语音传输。本发明在数字语音传输的基础上，以构建的语音基元为编码对象，建立语音基元模型库，把语音基元用统一的方法和编码进行表示，从而进一步合成语音。该方法首先通过对日常语音的分析，采用聚类算法构建语音基元模型库；然后，利用语音基元自动切分算法，对获得的连续语音流进行语音基元的自动切分，并提取语音基元MFCC特征，通过与语音基元模型库中的语音基元进行匹配识别，获得语音基元所对应的编号，以编号代替语音基元进行编码。在合成语音过程中，通过编号从语音基元模型库中取出该编号所对应的语音基元，并通过数学变换对语音基元的频谱包络进行插值拟合等处理，形成平滑过度的语音。

通过多形式段的生成和连接进行的合成-200880111498.1
发明人： V·波莱;A·布里恩 -专利权人：微差通信公司
申请日： 2008-08-12 - 公布日： 2010-09-08 - 主分类号： G10L13/06
摘要：描述了一种语音合成系统和方法。语音段数据库参考具有各种不同语音表示结构的语音段。语音段选择器从所述语音段数据库选择对应于目标文本的语音段候选的序列。语音段定序器根据所述语音段候选生成对应于所述目标文本的定序的语音段。语音段合成器组合定序的语音段来产生对应于所述目标文本的合成语音信号输出。

声音信号生成方法、声音信号生成装置以及计算机程序-200780100514.2
发明人：渡边一宏 -专利权人：富士通株式会社
申请日： 2007-09-06 - 公布日： 2010-08-04 - 主分类号： G10L13/06
摘要：本发明提供通过对原音信号进行加工生成加工声音信号来合成对噪声感、粗糙感等音质劣化进行了抑制的高质量语音的声音信号生成方法、声音信号生成装置以及计算机程序。本发明按照波形的间距单位分离原音信号，生成多个单位波形信号，针对各单位波形信号，生成重复波形信号，该重复波形信号是使所生成的单位波形信号的波形重复预定次数而得到的，通过按照形成原音信号的顺序以间距为单位使各个重复波形信号移动后进行叠加，来生成加工声音信号。

音质编辑装置及音质编辑方法-200880001664.2
发明人：广濑良文;釜井孝浩 -专利权人：松下电器产业株式会社
申请日： 2008-06-04 - 公布日： 2010-01-06 - 主分类号： G10L13/06
摘要：本发明的音质编辑装置包括：音质特征DB(101)，记忆多个音质特征；讲话者属性DB(106)，关于各个音质特征，记忆用户能够想起的与该音质特征对应的音质的标识符；权重设定部(103)，按每个音质的声特征量设定权重；尺度构成部(105)，关于各个音质特征，根据构成该音质特征的多个声特征量和权重设定部(103)所设定的权重，算出该音质特征的显示坐标；显示部(107)，关于各个音质特征，在算出的显示坐标上显示与该音质特征对应的标识符；位置输入部(108)，接受坐标的输入；音质混合部(110)，关于多个音质特征的一部分或全部的每一个，通过算出该音质特征的显示坐标与所述接受了的坐标之间的距离，并根据算出的距离的比率，混合多个音质特征的一部分或全部的声特征量，生成新的音质特征。

声音合成装置、声音合成方法以及程序-200880005607.1
发明人：加藤正德;近藤玲史;三井康行 -专利权人：日本电气株式会社
申请日： 2008-02-15 - 公布日： 2009-12-30 - 主分类号： G10L13/06
摘要：提供一种能够生成由于韵律变化量的不均匀而导致的音质劣化程度小的合成声音的装置、方法以及程序。声音合成装置具有从候选片段中选择适合目标片段环境的片段的片段选择部(161)，该声音合成装置还包括：韵律变化量计算部(20)，根据目标片段环境和候选片段的韵律信息来计算各候选片段的韵律变化量；选择基准计算部(21)，根据韵律变化量来计算选择基准；候选选择部(22)，根据韵律变化量和选择基准来进行选择候选的缩选；以及最适合片段检索部(14)，从被缩选出的候选片段中检索最适合片段。

声音合成装置-200780020871.8
发明人：广濑良文;加藤弓子;釜井孝浩 -专利权人：松下电器产业株式会社
申请日： 2007-05-11 - 公布日： 2009-07-22 - 主分类号： G10L13/06
摘要：一种声音合成装置，能够高速地进行声音内容的编辑，并可以容易地制作声音内容，其中包括：小规模声音单元DB(101)、小规模声音单元选择部(102)、小规模声音单元连接部(103)、韵律校正部(104)、大规模声音单元DB(105)、使小规模声音单元DB(101)和大规模声音单元DB(105)相对应的对应DB(106)、声音单元候补获得部(107)、大规模声音单元选择部(108)、以及大规模声音单元连接部(109)，该声音合成装置利用小规模声音单元DB(101)来编辑合成音，并通过根据编辑结果，利用大规模声音单元DB(105)进行高音质化，从而能够容易地在移动终端上制作声音内容。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]音质编辑装置及音质编辑方法有效

专利文献下载