[发明专利]确定文本语音单元的方法及系统有效

专利信息
申请号: 201510227742.2 申请日: 2015-05-06
公开(公告)号: CN106205601B 公开(公告)日: 2019-09-03
发明(设计)人: 祖漪清;王影;胡国平;胡郁;刘庆峰 申请(专利权)人: 科大讯飞股份有限公司
主分类号: G10L13/08 分类号: G10L13/08;G10L13/10;G10L15/18;G10L15/187;G10L15/26;G10L25/90
代理公司: 北京维澳专利代理有限公司 11252 代理人: 刘路尧;逢京喜
地址: 230088 安徽省*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种确定文本语音单元的方法及系统,该方法包括:接收待处理文本;确定所述待处理文本的音素集合;根据所述音素集合对所述待处理文本进行字音转换,得到所述待处理文本的语音符号序列;确定所述语音符号序列中的各音节结构;在各音节结构内,将声学层面紧密结合的音素组合在一起扩充为音素串;根据所述音素串及所述语音符号序列确定所述待处理文本的语音单元。利用本发明,可以有效避免紧密结合的语音单元被强行拆分的问题。
搜索关键词: 确定 文本 语音 单元 方法 系统
【主权项】:
1.一种确定文本语音单元的方法,其特征在于,包括:接收待处理文本;确定所述待处理文本的音素集合;根据所述音素集合对所述待处理文本进行字音转换,得到所述待处理文本的语音符号序列;确定所述语音符号序列中的各音节结构;在各音节结构内,将声学层面紧密结合的音素组合在一起扩充为音素串;根据所述音素串及所述语音符号序列确定所述待处理文本的语音单元。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510227742.2/,转载请声明来源钻瓜专利网。

同类专利
  • 语音合成方法、系统、终端设备和可读存储介质-201910516181.6
  • 彭话易;王健宗 - 平安科技(深圳)有限公司
  • 2019-06-14 - 2019-10-25 - G10L13/08
  • 本发明涉及语音语义领域,具体涉及一种语音合成方法、系统、终端设备和可读存储介质,通过确认欲合成的目标语音所要表达的情绪标签,并根据所述情绪标签生成情绪标签向量,然后结合所述文本向量和所述情绪标签向量生成梅尔语谱图;再根据所述梅尔语谱图生成所述目标语音,且所述目标语音能够表达出不同的情绪,如高兴、愤怒以及悲伤,进而使基于深度学习的语音合成系统合成的语音富有情感色彩并且更有表现力。
  • 一种基频建模方法及系统-201510195120.6
  • 殷翔;江源;王影;胡国平;胡郁;刘庆峰 - 科大讯飞股份有限公司
  • 2015-04-22 - 2019-10-18 - G10L13/08
  • 本发明公开了一种基频建模方法及系统,该方法包括:将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,所述短语层和所述单词层为较高韵律层,所述音节层、所述音素层和所述状态层为较低韵律层;确定所述音节层包含的声调信息对较高韵律层基频建模的影响;根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型,并且对于较高韵律层,在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响。利用本发明,能有效消除声调信息对较高韵律层建模的影响,进而能更自然地预测出基频特征。
  • 语音合成方法、系统、终端设备和可读存储介质-201910515578.3
  • 彭话易;王健宗 - 平安科技(深圳)有限公司
  • 2019-06-14 - 2019-10-15 - G10L13/08
  • 本发明提出一种语音合成方法、系统、终端设备和可读存储介质,通过获取文本数据和真人录音,并根据所述文本数据生成文本向量,再对真人录音所具有的韵律进行建模以生成韵律向量;然后结合所述文本向量和所述韵律向量生成目标语音,从而实现将真人录音中的韵律转移到合成的语音中。同时,本发明还通过真人录音中的韵律进行建模,并基于全局条件概率生成的方法,使合成的语音与输入的真人录音具有更为相似的韵律,进一步使合成语音具有高保真和高自然度的效果。
  • 多发音人语音合成方法、系统及装置-201910563533.3
  • 陶建华;傅睿博;温正棋 - 中国科学院自动化研究所
  • 2019-06-26 - 2019-10-15 - G10L13/08
  • 本发明涉及一种多发音人语音合成方法及系统,所述合成方法包括:从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;基于文本分析方法,从待测文本中提取文本特征;将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;根据所述发音人语音信息,通过基于神经网络的声码器,合成语音。本发明将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征,从而可提高对对发音人发音特征的精细描述;进一步通过基于神经网络的声码器,合成语音,从而可有效提供语音合成的准确性。
  • 方言转换方法及装置-201510958317.0
  • 宋治云;姜史哲 - 百度在线网络技术(北京)有限公司
  • 2015-12-18 - 2019-10-15 - G10L13/08
  • 本申请提出一种方言转换方法和装置,其中,该方法包括:接收第一方言输入信息;将所述第一方言输入信息合成第二方言语音信息;播放所述第二方言语音信息。通过本发明提供的方言转换方法和装置,实现了对输入方言的识别,并语音输出目标对象能识别的方言,提高了信息处理的灵活性和实用性。
  • 语音字体说话者以及韵律插值-201580010713.9
  • 栾剑;L·何;M·梁 - 微软技术许可有限责任公司
  • 2015-02-23 - 2019-10-15 - G10L13/08
  • 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。
  • 语音合成方法、装置、设备及计算机可读存储介质-201910420154.9
  • 王健宗;孙奥兰;彭话易;程宁 - 平安科技(深圳)有限公司
  • 2019-05-20 - 2019-09-27 - G10L13/08
  • 本申请提供一种语音合成方法、装置、设备及计算机可读存储介质,该方法包括:确定参考语音序列,并获取语音合成模型和待合成的目标文本序列对应的目标文本向量;通过所述参考编码器对所述参考语音序列进行编码,得到所述参考语音序列对应的目标参考嵌入向量;通过所述风格标记层对所述目标参考嵌入向量进行风格标记,得到所述参考语音序列对应的目标风格嵌入向量;通过所述语音合成层基于所述目标文本向量和所述目标风格嵌入向量,执行语音合成操作,得到目标语音。本申请涉及语音合成,通过目标风格嵌入向量和目标文本向量,共同合成语音,可以得到按照该目标风格嵌入向量表达的语音韵律合成语音,可以有效的提高合成语音的表达力精确性。
  • 确定文本语音单元的方法及系统-201510227742.2
  • 祖漪清;王影;胡国平;胡郁;刘庆峰 - 科大讯飞股份有限公司
  • 2015-05-06 - 2019-09-03 - G10L13/08
  • 本发明公开了一种确定文本语音单元的方法及系统,该方法包括:接收待处理文本;确定所述待处理文本的音素集合;根据所述音素集合对所述待处理文本进行字音转换,得到所述待处理文本的语音符号序列;确定所述语音符号序列中的各音节结构;在各音节结构内,将声学层面紧密结合的音素组合在一起扩充为音素串;根据所述音素串及所述语音符号序列确定所述待处理文本的语音单元。利用本发明,可以有效避免紧密结合的语音单元被强行拆分的问题。
  • 文本处理的方法、装置和电子设备-201910279457.3
  • 官砚楚;陈力;曾晓东 - 阿里巴巴集团控股有限公司
  • 2019-04-09 - 2019-08-30 - G10L13/08
  • 本申请实施例公开公开了一种文本处理的方法、装置和电子设备,属于互联网技术领域,该方法包括:获取音节数据,所述音节数据包括待处理中文文本中每个汉字的音节,所述每个汉字的音节包括多个组成部分;确定所述每个汉字的音节的多个组成部分对应的标识,其中,不同的组成部分对应的标识不同;生成与所述标识对应的向量。
  • 语音合成方法及装置、计算机设备及可读介质-201810565148.8
  • 顾宇;孙晓辉 - 百度在线网络技术(北京)有限公司
  • 2018-06-04 - 2019-08-27 - G10L13/08
  • 本发明提供一种语音合成方法及装置、计算机设备及可读介质。其方法包括:在语音拼接合成出现问题语音时,根据预先训练的时长预测模型和基频预测模型,预测问题语音对应的目标文本对应的每个音素的状态的时长以及每一帧的基频;根据目标文本对应的每个音素的状态的时长以及每一帧的基频,使用预先训练的语音合成模型,合成目标文本对应的语音;时长预测模型、基频预测模型和语音合成模型均基于语音拼接合成的音库训练得到。本发明的技术方案,避免补充录制语料重新建库,可以有效地缩短问题语音修复的时间,节省问题语音修复成本;可以保证合成后的语音的自然度和连续性得到改善,且与拼接合成的语音音质相比,不会发生改变,不会影响用户的听感。
  • 基于人工智能的字母音素转换模型生成方法及装置-201610102345.7
  • 陈志杰;康永国 - 百度在线网络技术(北京)有限公司
  • 2016-02-24 - 2019-07-30 - G10L13/08
  • 本申请提出一种基于人工智能的字母音素转换模型生成方法及装置,其中,该方法包括:在应用神经网络对训练数据中的每个单词进行字母音素转换的每次训练过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点;应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;最终对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。通过本申请提供的基于人工智能的字母音素转换模型生成方法和装置,提高了字母音素转换模型的学习能力和泛化能力,从而避免了过拟合现象。
  • 一种多语种混语文本处理方法及系统-201510278726.6
  • 祖漪清;闫润强;王影;胡国平;胡郁;刘庆峰 - 科大讯飞股份有限公司
  • 2015-05-27 - 2019-07-30 - G10L13/08
  • 本发明公开了一种多语种混语文本处理方法及系统,包括:根据发音原理确定用于描述混语文本发音情况的超音素集合,所述超音素集合包括:元音音素集合和辅音音素集合;收集包含主语种和次语种的混语文本;从所述混语文本中提取语法单元;根据所述语法单元及所述超音素集合构建混语文本的通用词典,所述通用词典中包含主语种和次语种中的语法单元及所述语法单元的发音信息;根据所述通用词典对所述混语文本进行字音转换,得到对应所述混语文本的语音符号序列。利用本发明提供的方法,可以解决当多语种混语文本对应主语种与次语种语音结构差别较大时,容易造成主语种缺失的次语种音素发音缺失的问题,从而提升多语种混语语音系统文本处理的应用效果。
  • 一种用于将文本数据转换为多种语音数据的系统和方法-201780058123.2
  • 苏德赫·邦格拉姆邦迪;阿克斯·摩提拉当格瑞 - 欧斯拉布斯私人有限公司
  • 2017-07-21 - 2019-07-30 - G10L13/08
  • 本发明提供了一种用于将文本数据转换为语音数据的系统和方法。首先,该系统使用户能够从计算设备的操作系统(OS)所支持的多种语言中选择语言。此外,在选择和复制任何文本数据时,系统向用户提供收听文本数据的音频输出的选项。当文本数据的语言是OS支持的多种语言中的一种语言时向用户提供用于以英语或所选择的语言收听文本数据的选项。此外,对于任何语言的文本数据,为用户提供了用英语收听文本数据的选项。一旦用户选择该选项,系统就将文本数据转换为语音数据。该语音数据作为一音频输出提供给用户。
  • 信息处理方法和装置-201910256349.4
  • 高澍;张亮 - 联想(北京)有限公司
  • 2019-03-29 - 2019-07-23 - G10L13/08
  • 本公开提供了一种信息处理方法。所述信息处理方法包括:获得播报内容,所述播报内容至少包括多个第一字符,所述多个第一字符未构成词组;调用语音播报单元;基于所述语音播报单元处理所述播报内容,且以语音方式输出所述播报内容。本公开还提供了另一种信息处理方法,所述信息处理方法包括获得至少一个匹配项,每个所述至少一个匹配项包括多个第一字符以及替代词语,调用语音播报单元,以及所述语音播报单元基于所述至少一个匹配项处理播报内容,以使得所述语音播报单元播报到所述多个第一字符时至少播报所述替代词语的语音。本公开还提供了相应的信息处理装置。
  • 一种基于自定义语音库的语音合成方法及装置-201910113373.2
  • 吴壮伟 - 平安科技(深圳)有限公司
  • 2019-02-14 - 2019-06-18 - G10L13/08
  • 本发明公开了一种基于自定义语音库的语音合成方法及装置。其中,一种基于自定义语音库的语音合成方法如下:分别在每一个场景类别下训练对应的语音模型,所述场景类别的数量为至少一个;判断所需场景,选择所述场景类别下的所述语音模型;所述语音模型接收外部信息输入,并根据外部信息输出符合所需场景的合成语音。以上方案中用户构建语音库,并划分为多种场景类别,基于场景类别的语音素材,从而训练出该场景模式下的语音模型,具有用户自定义训练,多声音输出等特点。同时地,该语音合成方法还包括自学习建模过程,能够应对当前场景,具有声音输出自然贴切等特点。
  • 一种声调评估方法-201610757767.8
  • 张劲松;林举;解焱陆 - 北京语言大学
  • 2016-08-29 - 2019-06-07 - G10L13/08
  • 本发明公开了一种声调评估方法,包括:分别建立基于帧级别特征的声调模型和基于音段级别特征的声调模型;根据所述基于帧级别特征的声调模型获取待识别语音的平均帧级别后验概率和对数后验比;根据基于音段级别特征的声调模型获取所述待识别语音的音段层级对数后验概率;根据所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率对所述待识别语音进行声调评估。根据本发明的声调评估方法,可以提高声调评估的鲁棒性。
  • 一种模拟发声方法、装置、电子设备及存储介质-201910037235.0
  • 谷晓佳 - 谷晓佳
  • 2019-01-15 - 2019-05-17 - G10L13/08
  • 本发明实施例公开了一种模拟发声的方法、装置、电子设备及存储介质,属于语言识别、语音合成技术,模拟发声方法包括:获取外部输入的信息,并进行信息类型识别;在识别到所述外部输入的信息为音源的情形下,获取并保存所述音源对应的地区语音;在识别到所述外部输入的信息为声音属性的情形下,获取并保存所述声音属性对应的声音元素;在识别到所述外部输入的信息为文本的情形下,识别文本中的文字,根据所述地区语音和所述声音元素对所述文字进行模拟发声。本方法能有针对性的服务用户,使得模拟发声的语言更为丰富、多元化,用户在打字过程中,可以学习不认识文字的读音,以及对于文字读音错误的纠正。进而提高人们学习文字的效率。
  • 语音合成方法、装置、系统及存储介质-201811648146.1
  • 杨杰 - 百度在线网络技术(北京)有限公司
  • 2018-12-29 - 2019-04-12 - G10L13/08
  • 本发明提供一种语音合成方法、装置、系统及存储介质,该方法,包括:确定当前场景信息;获取与当前场景信息相符合的所有候选发音人;根据预设的规则,对候选发音人进行排序,得到候选发音人列表;根据候选发音人列表,确定目标发音人;按照目标发音人的声音,将文本信息转换为目标语音。从而实现根据接收到的文本和场景属性,自动选择与场景相符合的发音人,使得合成语音可以根据不同的场景,变换最合适的发音人,使得最终合成的语音更加真实,提升了语音合成效果,用户体验佳。
  • 语音合成数据库停顿信息自动标注方法及系统-201610091554.6
  • 刘青松;许东星;王鸣;黄盼 - 云知声(上海)智能科技有限公司
  • 2016-02-19 - 2019-04-09 - G10L13/08
  • 本发明涉及一种语音合成数据库停顿信息自动标注系统及方法,该方法包括:获取语音合成数据库中待标注的语音数据;将所述语音数据转化为语音特征帧序列并判断所述语音特征帧序列中的停顿信息,形成停顿信息的预测位置;将所述语音数据转化为文本数据;利用自动切分对齐方法计算所述语音数据和所述文本数据在时间轴上的映射关系;基于所述映射关系将所述停顿信息插入到所述文本数据中以形成标注文本信息;以及利用自动切分对齐方法计算所述语音数据和所述标注文本信息在时间轴上的映射关系。本发明实现了自动标注数据中语音数据的停顿信息,节省了靠人工听来标注停顿的成本和时间,周期短,准确率高,还具有良好的经济效益。
  • 对话控制装置和方法-201780049114.7
  • 岩濑广;斋藤真里;河野真一 - 索尼公司
  • 2017-08-03 - 2019-04-02 - G10L13/08
  • 本发明涉及可以执行更加适当的对话控制的对话控制装置和方法。该对话控制装置设置有对话进度控制单元,该对话进度控制单元基于由理解行为请求位置划分的话语文本,在一个或多个理解行为请求位置处诱导用户的理解行为,并且基于话语文本和对理解行为的检测结果来控制随后的话语。本发明可以被应用于声音对话系统。
  • 文本处理方法、装置、电子设备及存储介质-201811413110.5
  • 李永强;张冉;张征 - 北京羽扇智信息科技有限公司
  • 2018-11-23 - 2019-03-29 - G10L13/08
  • 本发明实施例公开了一种文本处理方法、装置、电子设备及存储介质。该方法包括:识别输入文本中包括的至少一组英文字符串;如果确定英文字符串中包括不属于英文单词的目标字符串,则获取与目标字符串中每个英文字母对应的替换字符对目标字符串进行替换处理,替换字符不属于中文字;对替换处理后的输入文本进行文本分割,得到至少一个文本分词;根据中英文分词与中英文发音之间的映射关系,以及替换字符与中文音素发音之间的映射关系,获取输入文本中的各文本分词的发音。本发明实施例提供的技术方案,解决了现有技术中处理中文中夹杂着由字母组成的特殊名词的句子发音不协调的问题,增加了语音的自然度。
  • 基于基音同步频谱参数的语音识别系统和方法-201510114134.0
  • 陈成钧 - 纽约市哥伦比亚大学理事会
  • 2015-03-16 - 2019-03-29 - G10L13/08
  • 本发明定义了一种基于基音同步的语音识别系统和方法。语音信号首先经过一个确定基音周期标志的程序,来标定浊音音段中每一个基音周期的起点。这些基音周期的起点标志被送到一个处理单元,以对整个的语音信号产生出一组完整的分割点。根据分割点,语音信号被分割成与基音同步的而且互不重叠的帧。一个程序把每一帧的两个端点的数值做成等值。使用傅立叶分析,每个帧中的语音信号被转换为基音同步振幅频谱,然后用Laguerre函数把上述基音同步振幅频谱转换成一个代表瞬时音色的单位矢量,称为音色矢量。这些音色矢量然后与数据库中的音色矢量相比,找到最可能的音素序列。然后可能的音素序列被送到语言解码器,找出最可能的文本。
  • 用于生成音频的方法及装置-201910001986.7
  • 杨杰 - 百度在线网络技术(北京)有限公司
  • 2019-01-02 - 2019-03-19 - G10L13/08
  • 本申请实施例公开了用于生成音频的方法及装置。该方法的一具体实施方式包括:获取待处理文字信息的信息类型,上述信息类型用于表征上述待处理文字信息的内容分类;查询与上述信息类型对应的至少一条初始音频信息,上述初始音频信息用于将属于上述信息类型的文字信息转换为音频;从上述至少一条初始音频信息中确定出目标音频信息;通过上述目标音频信息对应的音频源生成上述待处理文字信息的音频。该实施方式提高了待处理文字信息和音频的匹配度。
  • 一种文本转语音的方法、装置、电子设备和存储介质-201811408955.5
  • 张征;张冉 - 北京羽扇智信息科技有限公司
  • 2018-11-23 - 2019-02-12 - G10L13/08
  • 本发明实施例公开了一种文本转语音的方法、装置、电子设备和存储介质,文本转语音的方法包括:获取与待处理文本相匹配的预设文本正规化模板;根据相匹配的所述预设文本正规化模板对所述待处理文本进行文本正规化处理,得到正规化文本;根据与所述预设文本正规化模板相对应的预分词模板,在所述正规化文本中添加预分词信息;根据所述预分词信息和分词模型对所述正规化文本进行分词,得到分词文本;将所述分词文本转换为语音信息。本发明实施例的技术方案,提高了分词的准确率,保证合成的语音的准确性。
  • 构建语音特征库的方法、语音合成方法、装置及设备-201510375429.3
  • 吕文玉;王道龙;刘孟 - 百度在线网络技术(北京)有限公司
  • 2015-06-30 - 2019-02-12 - G10L13/08
  • 本发明提供了一种构建语音特征库的方法、语音合成方法、装置及设备。该语音合成方法所使用的语音特征库中保存有每条个性化的文本信息对应的至少一个语境和与该条个性化的文本信息相同语义的至少一条文本信息。在进行语音合成时,即使提供的文本信息并非所需的个性化语音对应的个性化文本信息,也可以在语音特征库中首先查找到与需要进行语音合成的文本信息语义相同的个性化的文本信息,进而实现个性化的语音合成,从而使得个性化语音的使用不依赖于人的生老病死。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top