[发明专利]一种语音处理方法和装置有效

专利信息
申请号: 201610211171.8 申请日: 2016-04-06
公开(公告)号: CN107293285B 公开(公告)日: 2020-10-13
发明(设计)人: 康洪;傅华;曾侃;温建军 申请(专利权)人: 中国移动通信集团四川有限公司
主分类号: G10L13/06 分类号: G10L13/06;G10L15/26;G10L15/16;G06N3/04;G06N3/08
代理公司: 北京派特恩知识产权代理有限公司 11270 代理人: 张颖玲;蒋雅洁
地址: 610041 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种语音处理方法,按预设业务类型对各标准业务文本进行分类,确定各标准业务文本的业务类型;识别获取的语音,并转换成文本;确定转换后文本的各基本语言单位、以及所述各基本语言单位的语言功能类别;采用向量空间模型确定所述各基本语言单位对应的权值向量组成的权值向量矩阵;根据所述各标准业务文本及其业务类型、和所述权值向量矩阵,确定所述权值向量矩阵中所述各权值向量对应的基本语言单位的业务类型;根据所述各基本语言单位的业务类型和语言功能类别,将所述各基本语言单位组成输出文本,并对所述输出文本进行后处理。本发明还公开了一种语音处理装置。
搜索关键词: 一种 语音 处理 方法 装置
【主权项】:
一种语音处理方法,其特征在于,所述方法包括:按预设业务类型对各标准业务文本进行分类,确定各标准业务文本的业务类型;所述方法还包括:识别获取的语音,并转换成文本;确定转换后文本的各基本语言单位、以及所述各基本语言单位的语言功能类别;采用向量空间模型确定所述各基本语言单位对应的权值向量组成的权值向量矩阵;根据所述各标准业务文本及其业务类型、和所述权值向量矩阵,确定所述权值向量矩阵中所述各权值向量对应的基本语言单位的业务类型;根据所述各基本语言单位的业务类型和语言功能类别,将所述各基本语言单位组成输出文本,并对所述输出文本进行后处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团四川有限公司,未经中国移动通信集团四川有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610211171.8/,转载请声明来源钻瓜专利网。

同类专利
  • 信号生成处理装置-202180083413.9
  • 冈本拓磨;户田智基;志贺芳则;河井恒 - 国立研究开发法人情报通信研究机构
  • 2021-12-17 - 2023-09-01 - G10L13/06
  • 本发明实现信号生成处理装置,该信号生成处理装置实现可以保持语音合成处理或图像信号生成的速度且获得高质量的语音信号或图像信号的语音合成处理或图像信号生成处理。在信号生成处理装置中,第一子模型部~第N子模型部分别使用不同的噪声水平的范围中包含的噪声水平进行第一子模型部~第N子模型部中包含的学习模型的学习处理,从而获取已学习模型。也就是说,在信号生成处理装置中,可以针对各子模型部并行地进行处理,其结果是,可以高速地进行学习处理。另外,在信号生成处理装置中,在预测处理时,可以适当地选择所使用的子模型部进行处理,因此可以执行高精度的语音合成处理或图像生成处理。
  • 语音克隆模型的训练方法、可读存储介质和语音克隆方法-202010476440.X
  • 张子宁;杨晓艳;张振杰 - 新加坡依图有限责任公司(私有)
  • 2020-05-29 - 2023-08-08 - G10L13/06
  • 本申请提供了一种语音克隆模型的训练方法、可读存储介质和语音克隆方法,训练方法包括:将经过预处理的语料数据输入应用于语音克隆的神经网络模型,语料数据用于训练神经网络模型,语料数据包括多个发音人的多种语言的语音数据和语音数据对应的文本数据;利用神经网络模型的发音人嵌入模块和编码器模块分别对每个发音人的语音数据和相应的文本数据进行处理,生成发音人的语音嵌入数据和相应的文本数据的文本嵌入数据;将文本嵌入数据与语音嵌入数据合并,作为注意力机制模块的输入参数,并且将语音数据作为参考标准,训练神经网络模型;在损失函数满足预定值的情况下,得到应用于语音克隆的神经网络模型。
  • 车载语音定制系统、方法及设备-202310309467.3
  • 高斯雄;刁楷 - 重庆长安汽车股份有限公司
  • 2023-03-27 - 2023-06-27 - G10L13/06
  • 本发明实施例提供一种车载语音定制系统、方法及设备,属于智能语音交互技术领域。车载语音定制系统包括界面显示模块、信息管理模块、语音制作模块以及平台交易模块,界面显示模块,用于显示信息和识别用户操作,并基于用户操作进行对应模块的调用;信息管理模块,用于管理个性化语音包资源以及用户账号信息;语音制作模块,用于基于用户的编辑操作生成及存储个性化语音包资源;平台交易模块,用于对个性化语音包资源进行定价,并将个性化语音包资源上传至界面显示模块进行售卖。本发明实施例通过个性化制作及购买使用,实现了价值的转换,提高了用户的参与感和体验感。
  • 诗词旋律生成方法、电子装置及计算机可读存储介质-201811168589.0
  • 梅亚琦;朱照华;刘奡智;王健宗;肖京 - 平安科技(深圳)有限公司
  • 2018-10-08 - 2023-06-02 - G10L13/06
  • 本发明涉及大数据分析,提供一种诗词旋律生成方法、电子装置及计算机可读存储介质,包括:构建存储诗词样本及配乐样本的样本音乐库;提取诗词样本结构特征形成样本结构特征矩阵;提取配乐样本音高形成样本音高矩阵;构建结构特征和音高对应关系的第一概率矩阵及相邻音高之间转移关系的第二概率矩阵;构建未配乐新诗词特征矩阵;根据上述结构特征矩阵通过第一概率矩阵和第二概率矩阵生成新诗词音高序列;随机挑选配乐样本段,依次提取其音符时值,得到新诗词时值序列;通过新诗词音高序列和时值序列构建新诗词初始旋律序列;选取结构特征匹配度最高的诗词样本对应的配乐样本的旋律序列与初始旋律序列进行遗传交换操作,得到新诗词的最终旋律。
  • 语音克隆模型生成方法、装置及电子设备-202211419993.7
  • 司玉景;王通;李全忠 - 普强时代(珠海横琴)信息技术有限公司
  • 2022-11-14 - 2023-03-21 - G10L13/06
  • 本说明书实施例提供了一种语音克隆模型生成方法、装置及电子设备,其中,方法包括:构建包含多个说话人音色的语音合成音库;基于所述语音合成音库训练得到包含多个说话人ID的语音合成基础模型;获取目标说话人的语音和标注,从所述语音合成音库中查找到和所述目标说话人的发音相似度最高的说话人ID;在语音合成基础模型中设置该说话人的ID作为语音克隆的预训练模型,利用目标说话人的语音和标注文本,进行自适应训练,得到所述目标说话人的语音合成模型。本发明可以避免由于预训练模型和目标说话人发音差异较大而导致的语音克隆效果差的现象,进一步提高了语音克隆的合成效果和鲁棒性。
  • 基于无人机的语音交互方法、电子设备和存储介质-202210688857.1
  • 章国平 - 思必驰科技股份有限公司
  • 2022-06-16 - 2022-09-06 - G10L13/06
  • 本发明公开一种基于无人机的语音交互方法、电子设备和存储介质。在该方法中,从控制客户端接收模式操作指令,并确定所述模式操作指令所对应的无人机工作模式;当所述无人机工作模式是通话模式时,从所述控制客户端接收通话文本数据;合成所述通话文本数据所对应的询问音频,并进行语音播报操作。由此,能有效保障与无人机通话质量的可靠性。
  • 语音合成方法、装置、电子设备及存储介质-202210443052.0
  • 任凯盟;叶剑豪;周鸿斌;鄢楷强;贺天威;贺来朋;谭芃菲;卢恒 - 上海喜马拉雅科技有限公司
  • 2022-04-25 - 2022-08-05 - G10L13/06
  • 本发明涉及语音处理技术领域,提供一种语音合成方法、装置、电子设备及存储介质。通过在电子设备中预存包括声学子模型和声码器的语音合成模型和多个用户的标识及语音特征,获取目标用户输入的待处理文本并基于目标用户的标识获得目标语音特征;然后通过声学子模型基于待处理文本和目标语音特征,预测待处理文本的声学特征,该声学子模型是基于无文本标注的语音样本训练得到的;再通过声码器基于待处理文本的声学特征,生成待处理文本的合成语音。通过采用无文本标注的语音样本训练得到的声学子模型来进行语音合成,可以避免人工对语音数据进行文本标注,节省了大量的时间和人工成本,提高了语音合成的效率。
  • 一种停顿位置预测方法、语音合成方法及相关设备-202111339548.5
  • 祖漪清;朱荣华;刘晨宁;陆晨;邵鹏飞 - 科大讯飞股份有限公司
  • 2021-11-12 - 2022-03-11 - G10L13/06
  • 本申请提供了一种停顿位置预测方法、语音合成方法及相关设备,其中,停顿位置预测方法包括:获取目标文本;基于预先建立的第一词典,对目标文本进行分词,获得目标文本的分词结果,其中,第一词典中包括若干第一基本语言单元和若干第二基本语言单元,第一基本语言单元为发生连读的多个文法词组成的文法词串,第二基本语言单元为不与其他文法词发生连读的单个文法词;根据目标文本的分词结果,预测目标文本的停顿位置。经由本申请提供的停顿位置预测方法可预测出较为合理的停顿位置,根据采用本申请提供的停顿位置预测方法针对目标文本预测的停顿位置进行语音合成,能够获得效果较好的合成语音。
  • 将文本数据转换为音素序列的方法及设备-202110832833.4
  • 吴志勇;宋长河;周逸轩;卞衍尧 - 腾讯科技(深圳)有限公司;清华大学深圳国际研究生院
  • 2021-07-22 - 2021-12-21 - G10L13/06
  • 公开了一种将文本数据转换为音素序列的方法、装置、设备、和计算机可读存储介质。该将文本数据转换为音素序列的方法包括:基于所述文本数据中的句子,提取所述句子对应的句义特征和所述句子中的一个或多个连续字符对应的字符语义特征,基于所述句子对应的句义特征,确定所述句子对应的语法特征,基于所述字符语义特征和所述句子对应的语法特征,确定多音字特征,所述多音字特征指示字符的多音字发音信息,以及基于所述语法特征和所述多音字特征,确定所述句子对应的音素序列。本公开利用神经网络提取了文本数据中的语法特征和多音字特征并将上述的特征以级联的方式进行了融合,并可选地引入了文本数据中的变调信息,使得合成的语音更加自然。
  • 语音合成装置、语音合成方法及存储介质-201580082427.3
  • 田村正统;森田真弘 - 株式会社东芝
  • 2015-09-16 - 2021-12-17 - G10L13/06
  • 本公开涉及语音合成装置、语音合成方法及存储介质。实施方式的语音合成装置具有:存储部,将具有多个状态的统计模型的各状态下的、包含基音特征参数的音响特征参数的输出分布及基于时刻参数的持续长度分布作为统计模型信息进行存储;制作部,根据与输入文本对应的上下文信息及统计模型信息,制作统计模型序列;决定部,使用基于统计模型序列的各统计模型的各状态的持续长度分布而得到的持续时间长度及基于基音特征参数的输出分布而得到的基音信息,决定各状态的基音波形数;生成部,基于基音波形数来生成音响特征参数的输出分布列,基于该输出分布列来生成音响特征参数;及波形生成部,根据所生成的音响特征参数来生成语音波形。
  • 发音词典生成方法及装置、存储介质、电子设备-201710805626.3
  • 方昕;刘俊华;魏思;胡国平 - 科大讯飞股份有限公司
  • 2017-09-08 - 2021-05-04 - G10L13/06
  • 本公开提供一种发音词典生成方法及装置、存储介质、电子设备。该方法包括:获取待确定发音词语对应的语音片段,并针对所述待确定发音词语构建发音识别网络,所述发音识别网络中包括所述待确定发音词语的正确发音单元以及音变发音单元;利用所述发音识别网络对所述语音片段进行解码,确定出所述语音片段对应的发音路径,所述发音路径由所述正确发音单元和/或所述音变发音单元构成;计算所述发音路径表示的发音的置信度,并利用置信度高于预设值的发音路径表示的发音,生成所述待确定发音词语的发音词典。如此方案,可以使生成的发音词典更符合用户的实际发音,准确性更高。
  • 一种语音处理方法和装置-201610211171.8
  • 康洪;傅华;曾侃;温建军 - 中国移动通信集团四川有限公司
  • 2016-04-06 - 2020-10-13 - G10L13/06
  • 本发明公开了一种语音处理方法,按预设业务类型对各标准业务文本进行分类,确定各标准业务文本的业务类型;识别获取的语音,并转换成文本;确定转换后文本的各基本语言单位、以及所述各基本语言单位的语言功能类别;采用向量空间模型确定所述各基本语言单位对应的权值向量组成的权值向量矩阵;根据所述各标准业务文本及其业务类型、和所述权值向量矩阵,确定所述权值向量矩阵中所述各权值向量对应的基本语言单位的业务类型;根据所述各基本语言单位的业务类型和语言功能类别,将所述各基本语言单位组成输出文本,并对所述输出文本进行后处理。本发明还公开了一种语音处理装置。
  • 一种从BMS格式文件解析五线谱的方法-201911297590.8
  • 陈超 - 陈超
  • 2019-12-16 - 2020-05-01 - G10L13/06
  • 一种通过BMS(DTX)格式文件解析五线谱显示信息的算法,公知的标准BMS格式数据文件中只保存了每个音符的位置信息,并未保存每个音符的类型、时长、强弱音、左右手等附加信息,本发明使用一种循环递归算法,通过计算相邻两个音符的相对位置,推算出每个音符应有的时长(比如四分音符或八分音符)和类型(比如普通音符或休止符),通过对这些信息的补充,使BMS格式文件可以显示为五线谱。
  • 语音合成中预测基频帧的方法及系统-201610091573.9
  • 刘青松;许东星;王鸣;黄盼 - 云知声(上海)智能科技有限公司
  • 2016-02-19 - 2019-07-09 - G10L13/06
  • 本发明涉及一种语音合成中预测基频帧的方法及系统,该方法包括:输入待合成语音的文本信息;将所述文本信息转化为语音特征帧序列;预测每一语音特征帧是否为基频帧,以形成基频预测结果;将所述文本信息转化为音素信息序列;判断每一音素是否为含基频信息音素,以形成辅助信息,每一音素对应多个语音特征帧;以及将所述音素信息序列与所述语音特征帧序列相对应,并根据所述辅助信息修正所述基频预测结果以形成语音帧是否含有基频信息的结果。本发明从输入的文本信息中提取音素信息,利用音素信息是否带基频作为辅助信息,对基频预测结果进行修正,实现提高基频帧预测的准确率,进而提高合成后的语音的自然度,优化声音效果。
  • 基于语音合成的旋律生成方法、装置及终端设备-201910008136.X
  • 梅亚琦;刘奡智;王健宗 - 平安科技(深圳)有限公司
  • 2019-01-04 - 2019-06-07 - G10L13/06
  • 本发明适用于数据处理技术领域,提供了基于语音合成的旋律生成方法、装置、终端设备以及计算机可读存储介质,包括:获取目标歌词,并对所述目标歌词进行分词得到至少两个分词结果;根据预设的音符模板集和所述分词结果的字数为每个所述分词结果分配音符模板,并将已分配的所有所述音符模板组合为目标音符集;从预设的和声库挑选出组合和弦,为所述组合和弦中的每个和弦设置音阶,并将已设置音阶的所述组合和弦添加至所述目标音符集,生成并输出目标旋律,其中,所述和声库包括至少两个所述组合和弦。本发明基于目标歌词自动生成旋律,提升了旋律生成的效果和准确性。
  • 声音合成装置-201410133441.9
  • 大塚贵弘;川岛启吾;古田训;山浦正 - 三菱电机株式会社
  • 2014-04-03 - 2017-11-03 - G10L13/06
  • 得到能够制作高质量的合成声音的声音合成装置。候补声音片段系列制作部(1)针对输入语言信息系列(101),使用声音片段数据库(4)的DB声音片段(105)来制作候补声音片段系列(102)。输出声音片段系列决定部(2)使用表示与输入语言信息系列(101)、和表示候补声音片段系列(102)中的多个候补声音片段各自的属性的声音参数的共生条件(106)对应的值的参数(107),来计算候补声音片段系列(102)适合于输入语言信息系列(101)的程度,根据适合的程度,决定输出声音片段系列(103)。
  • 一种发音词典的构建方法及装置-201511016459.1
  • 王志铭;李晓辉;李宏言 - 阿里巴巴集团控股有限公司
  • 2015-12-29 - 2017-07-07 - G10L13/06
  • 本申请公开一种发音词典的构建方法,用以解决按照现有技术构建的发音词典的质量较差问题。方法包括将目标词汇的语音声学特征,输入语音识别解码器;其中,所述语音识别解码器中的发音词典包括目标词汇和目标词汇的候选发音音素序列;根据所述语音识别解码器输出的候选发音音素序列,确定所述目标词汇对应于输出的候选发音音素序列的概率分布;根据所述概率分布,从所述输出的候选发音音素序列中,选择作为所述目标词汇的正确发音的发音音素序列;根据所述正确发音的发音音素序列,构建发音词典。本申请还公开了一种发音词典的构建装置。
  • 语音合成字典创建装置、语音合成器、以及语音合成字典创建方法-201510404746.3
  • 桥健太郎;田村正统;大谷大和 - 株式会社东芝
  • 2015-07-10 - 2016-01-27 - G10L13/06
  • 本发明描述了语音合成字典创建装置、语音合成器、以及语音合成字典创建方法。根据实施例,语音合成字典创建装置包括表创建器、估计器、和字典创建器。表创建器被配置为基于采用相应的第一和第二语言的特定说话人的语音合成字典的节点分布之间的相似性来创建表。估计器被配置为基于采用第一语言的目标说话人的语音和所记录的文本、以及采用第一语言的特定说话人的语音合成字典来估计用于将采用第一语言的特定说话人的语音合成字典变换为采用第一语言的目标说话人的语音合成字典的矩阵。字典创建器被配置为基于表、矩阵、以及采用第二语言的特定说话人的语音合成字典来创建采用第二语言的目标说话人的语音合成字典。
  • 多音字标注模板生成方法和装置-201510695421.5
  • 肖朔;白洁;李秀林 - 百度在线网络技术(北京)有限公司
  • 2015-10-22 - 2016-01-06 - G10L13/06
  • 本发明公开了一种多音字标注模板生成方法和装置,其中,多音字标注模板生成方法包括:获取原始语料;对原始语料进行预处理,并生成包含多音字的语料数据;切分语料数据以生成多个分词,并对多个分词进行词性标注,以及进行近义词归一化处理;对归一化后的多个分词进行组合,并生成对应的句型;以及反向生成句型对应的多音字标注语料,并根据多音字标注语料生成多音字标注模板。本发明实施例的多音字标注模板生成方法和装置,减少了人工标注的工作量,并提升了多音字标注语料的抗噪性和容错性,进而在对多音字的读音进行预测时,提高了准确性。
  • 语音合成字典生成装置和语音合成字典生成方法-201510058451.5
  • 森田真弘 - 株式会社东芝
  • 2015-02-04 - 2015-08-12 - G10L13/06
  • 根据一个实施例,语音合成字典生成装置包括分析器、说话人自适应器、水平指定单元和确定单元。分析器被配置为分析语音数据,并生成包含对象说话人的话语特征的语音数据库。说话人自适应器被配置为通过基于数据库而将基本模型转换成更接近对象说话人的特征的说话人自适应来生成对象说话人的模型。水平指定单元被配置为接受表示说话人的话语技巧和/或说话人在语音合成字典的语言方面的母语水平的目标说话人水平的指定。确定单元被配置为根据目标说话人水平与对象说话人的说话人水平之间的关系,确定与在说话人自适应中的说话人特性再现的保真度有关的参数。
  • 具有谱稳定边界的跨音节中文语音合成基元构建方法-201410523220.2
  • 谢湘;焦祎姗 - 北京理工大学
  • 2014-10-07 - 2015-01-28 - G10L13/06
  • 本发明公开了一种具有谱稳定边界的跨音节中文语音合成基元构建方法,属于语音处理领域。本发明对所述语音流数据进行切分基元时从一个音节的中心元音开始,到与它相邻的下一个音节的中心元音结束,切分所得的跨音节基元由两组成:前一音节韵母的中心元音及其之后的部分,当前音节韵母的中心元音以及之前的部分,从而获得跨音节基元。本方法既能保留音节内及音节间的协同发音,又避免基元过短导致大量的拼接出现,从而有效提高合成语音的自然度和连贯性,且不会影响合成语音的音质表现。
  • 用于合成语音的方法和装置-201210501075.9
  • 康永国;李健 - 株式会社东芝
  • 2012-11-29 - 2014-06-11 - G10L13/06
  • 本发明提供用于合成语音的方法和装置。所述用于合成语音的装置,包括:输入单元,其输入文本句;文本分析单元,其对上述文本句进行文本分析以获得音素序列;查找单元,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;概率计算单元,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;时长预测单元,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;以及语音合成单元,其利用上述时长预测单元预测出的时长合成上述文本句的语音。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top