[发明专利]语音转换装置、语音转换方法、程序及记录介质在审

专利信息
申请号: 202280005607.1 申请日: 2022-06-01
公开(公告)号: CN115956269A 公开(公告)日: 2023-04-11
发明(设计)人: 广芝和之;小田桐优理;北冈伸也 申请(专利权)人: 多玩国株式会社
主分类号: G10L25/30 分类号: G10L25/30
代理公司: 北京银龙知识产权代理有限公司 11243 代理人: 范胜杰;曹鑫
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要: 语音转换装置(1)具备:输入部(11),其输入转换目标语音的指定;提取部(12),其对转换源语音的语音信号进行解析来提取包含音素和音高的时序数据;调整部(13),其使音高的高度与被指定的转换目标语音的高度一致;以及生成部(14),其生成将音素和音高按时序顺序输入能够学习多人的语音数据来合成指定的人的语音的深度学习模型中而合成了所指定的转换目标语音的语音信号。
搜索关键词: 语音 转换 装置 方法 程序 记录 介质
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于多玩国株式会社,未经多玩国株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202280005607.1/,转载请声明来源钻瓜专利网。

同类专利
  • 用于产生音频信号的系统和方法-202180089082.X
  • 齐心 - 深圳市韶音科技有限公司
  • 2021-05-14 - 2023-10-27 - G10L25/30
  • 一种用于产生音频信号的方法,可以包括获得骨传导音频信号和空气传导音频信号。所述方法还可包括获得经过训练的机器学习模型,所述经过训练的机器学习模型提供源于特定骨传导音频信号的骨传导数据集与源于特定等效空气传导音频信号的一个或多个等效空气传导数据集之间的映射关系。该方法还可以包括基于骨传导音频信号和空气传导音频信号,使用经过训练的机器学习模型来确定对应于骨传导音频信号的等效空气传导数据目标集。该方法还可以包括使音频信号输出设备基于等效空气传导数据目标集输出表示使用者语音的目标音频信号。
  • 使用神经网络进行音频处理-201780029191.6
  • 多米尼克·罗博列克;马修·谢里菲 - 谷歌有限责任公司
  • 2017-05-10 - 2023-09-12 - G10L25/30
  • 用于使用神经网络进行音频处理的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。所述系统之一包括多个神经网络层,其中,神经网络系统被配置为接收音频样本的时域特征并处理所述时域特征以生成所述音频样本的神经网络输出,所述多个神经网络层包括:频率变换(F‑T)层,被配置为应用由F‑T层参数集合定义的将时域特征的窗变换为频域特征的变换;以及一个或多个其他神经网络层,具有相应的层参数,其中,所述一个或多个神经网络层被配置为处理频域特征以生成神经网络输出。
  • 用于提供经处理的音频信号的装置、用于提供经处理的音频信号的方法、用于提供神经网络参数的装置和用于提供神经网络参数的方法-202180085895.1
  • 马丁·斯特劳斯;伯恩德·埃德勒 - 弗劳恩霍夫应用研究促进协会
  • 2021-05-06 - 2023-08-25 - G10L25/30
  • 本发明描述了一种用于基于输入音频信号提供经处理的音频信号的装置,其中该装置被配置为使用一个或多个流程块来处理噪声信号或者从噪声信号导出的信号,以便获得经处理的音频信号,其中该装置被配置为根据输入音频信号并且使用神经网络来适配使用一个或多个流程块执行的处理。本发明还描述了一种用于提供用于音频处理的神经网络参数的装置,其中该装置被配置为使用一个或多个流程块来处理训练音频信号或者其经处理的版本,以便获得训练结果信号,其中该装置被配置为根据训练音频信号的失真版本并且使用神经网络来适配使用一个或多个流程块执行的处理;其中该装置被配置为确定神经网络的神经网络参数,使得训练结果音频信号的特性接近或者包括预定特性。还提供了一种用于提供经处理的音频信号的方法和一种用于提供用于音频处理的神经网络参数的方法。本发明提供了使用神经网络的基于流程的音频信号处理的高效建模和音频信号增强能力之间的折衷。
  • 一种用于多说话者和多语言语音合成的端到端神经系统-202180080711.2
  • 刘砚清;徐志航;赵晟;李博涵;谭旭;李润楠 - 微软技术许可有限责任公司
  • 2021-09-13 - 2023-08-15 - G10L25/30
  • 系统被配置用于生成、训练和利用TTS(文本到语音)模型,TTS模型配置有变化适配器组件。变化适配器组件生成并应用隐式和显式数据,用于细化和改进TTS模型的声学模型部分对经编码的音素数据的处理,并且使得由TTS模型生成的预测的频谱图被有效且准确地创建,用于由声码器以对应于正在处理的文本数据的期望的目标语言和目标说话者语体风格进行渲染。通过TTS模型所使用的编码和解码构象器的改变,诸如通过在编码/解码构象器堆栈中的自注意处理之前应用卷积处理,变化适配器组件所实现的效率和准确性还可以进一步受益。
  • 虚假音频检测-202180080979.6
  • 乔尔·肖尔;阿兰纳·福斯特·斯洛克姆 - 谷歌有限责任公司
  • 2021-11-11 - 2023-08-04 - G10L25/30
  • 一种用于确定合成语音的方法(600)包括接收表征由用户设备(102)获得的流式音频(118)中的语音的音频数据(120)。该方法还包括使用经训练的自监督模型(210)生成多个音频特征向量(212),每个音频特征向量表示音频数据的一部分的音频特征。该方法还包括使用浅鉴别器模型(222)基于多个音频特征向量中的每个音频特征向量的对应音频特征,生成指示音频数据中合成语音的存在的得分(224)。该方法还包括确定得分是否满足合成语音检测阈值。当得分满足合成语音检测阈值时,该方法包括确定用户设备获得的音频数据中的语音包括合成语音。
  • 用于语音唤醒的低资源关键短语检测-201680063783.5
  • T·伯克莱特;J·霍弗 - 英特尔公司
  • 2016-09-01 - 2023-08-04 - G10L25/30
  • 讨论了与用于诸如语音唤醒之类的应用的关键短语检测有关的技术。此类技术可包括基于来自声学模型的子表音单元的评分来更新基于起始状态的拒绝模型和关键短语模型以生成拒绝似然评分和关键短语似然评分以及基于拒绝似然评分和关键短语似然评分来确定所接收音频输入是否与预定关键短语相关联。
  • 自适应声音事件分类-202180077242.9
  • F·萨基;Y·郭;E·维斯 - 高通股份有限公司
  • 2021-11-19 - 2023-07-18 - G10L25/30
  • 一种设备包括一个或多个处理器,该一个或多个处理器被配置成向声音事件分类模型提供音频数据样本。该一个或多个处理器还被配置成:基于声音事件分类模型的响应于音频数据样本的输出来确定音频数据样本的声音类别是否被声音事件分类模型识别出。该一个或多个处理器被进一步配置成:基于确定声音类别未被识别出,确定声音事件分类模型是否对应于与音频数据样本相关联的音频场景。该一个或多个处理器还被配置成:基于确定声音事件分类模型对应于与音频数据样本相关联的音频场景,存储基于音频数据样本的模型更新数据。
  • 用于源分离的帧级置换不变训练-202180070431.3
  • 刘晓宇;J·庞斯普吉 - 杜比实验室特许公司;杜比国际公司
  • 2021-10-13 - 2023-06-27 - G10L25/30
  • 描述了一种训练用于声源分离的基于深度学习的系统的方法。该系统包括用于从音频信号的表示中逐帧提取声源表示的分离级,以及用于为每个帧生成指示所提取的声源表示的帧到相应声源的分配置换的向量的聚类级。音频信号的表示是基于波形的表示。分离级使用帧级置换不变训练来进行训练。此外,聚类级被训练为音频信号的帧生成嵌入向量,其允许确定所提取的声音信号和已用于帧的声源的标签之间的相应分配置换的估计。还描述了一种使用基于深度学习的系统进行声源分离的方法。
  • 用于生成音频信号的元数据的系统和方法-202180067206.4
  • N·莫里茨;G·维切恩;堀贵明;J·勒鲁克斯 - 三菱电机株式会社
  • 2021-04-27 - 2023-06-23 - G10L25/30
  • 提供了一种音频处理系统。该音频处理系统包括输入接口,其被配置为接受音频信号。此外,该音频处理系统包括存储器,其被配置为存储被训练以确定不同起因的多个并发音频事件的不同类型的属性的神经网络,其中,属性的类型包括语音音频事件和非语音音频事件的时间相关属性和时间不可知属性。此外,该音频处理系统包括处理器,其被配置为利用神经网络处理音频信号以生成音频信号的元数据,该元数据包括音频信号中的一个或多个音频事件的一个或多个属性。
  • 使用持续时间预测的文本到语音-202180063748.4
  • 张羽;艾萨克·伊利亚斯;比扬哈·春;贾晔;吴永辉;麦克·赫扎努夫斯基;乔纳森·沈 - 谷歌有限责任公司
  • 2021-10-04 - 2023-06-06 - G10L25/30
  • 使用持续时间预测从文本数据合成音频数据的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。所述方法中的一个包括:使用第一神经网络在多个输入时间步长的每一个处处理包括相应文本元素的输入文本序列,以生成修改的输入序列,对于每个输入时间步长,该序列包括输入文本序列中的相应文本元素的表示;使用第二神经网络处理修改的输入序列,以针对每个输入时间步长生成输出音频序列中对应文本元素的预测持续时间;根据预测持续时间对修改的输入序列进行上采样,以生成中间序列,该中间序列包括多个中间时间步长中的每一个的相应中间元素;并且,使用中间序列生成输出音频序列。
  • 用于分级音频源分离的系统和方法-202180065480.8
  • G·维切恩;J·勒鲁克斯;E·马尼洛 - 三菱电机株式会社
  • 2021-06-02 - 2023-05-30 - G10L25/30
  • 音频处理系统包括存储神经网络的存储器,该神经网络被训练为处理音频混合以输出对音频混合中存在的音频源的集合的至少一个子集的估计。音频源经受对音频源的集合实施父子层级体系的分级约束,使得父音频源包括其一个或多个子音频源的混合。该子集包括父音频源及其子音频源中的至少一个子音频源。该系统还包括处理器以使用神经网络处理所接收的输入音频混合,以根据父子层级体系估计音频源的子集及其相互关系。该系统还包括输出接口,该输出接口被配置为呈现提取的音频源及其相互关系。
  • 结合标记数据和未标记数据学习音频质量指标的方法-202180058804.5
  • J·塞拉;J·庞斯普伊格;S·帕斯夸尔 - 杜比国际公司
  • 2021-06-21 - 2023-05-05 - G10L25/30
  • 描述了一种训练用于确定对音频输入的音频质量的指示的基于神经网络的系统的方法。所述方法包括获得包括音频样本的至少一个训练集作为输入。所述音频样本包括第一类型的音频样本和第二类型的音频样本,其中,所述第一类型的音频样本中的每一个用指示相应的预定音频质量指标的信息来标记,并且其中,所述第二类型的音频样本中的每一个用指示相对于参考音频样本的音频质量指标的相应音频质量指标的信息来标记。所述方法进一步包括:将所述训练集输入到所述基于神经网络的系统中;以及迭代地训练所述系统以预测所述训练集中的所述音频样本的相应标签信息。
  • 用于确定生成神经网络的参数的方法和装置-202180049232.4
  • A·比斯沃斯;S·普莱恩 - 杜比国际公司
  • 2021-05-31 - 2023-03-28 - G10L25/30
  • 本文描述了一种确定用于处理音频信号的生成神经网络的参数的方法,其中生成神经网络包括映射到编码特征空间的编码器级、以及解码器级,每个级包括多个卷积层,具有一个或更多的权重系数,该方法包括多个周期,顺序过程为:基于修剪控制信息对任一级或两个级的权重系数进行修剪,修剪控制信息确定针对各个卷积层被修剪的权重系数的数量;基于训练数据集训练经修剪的生成神经网络;基于损失函数确定经训练和修剪的生成神经网络的损失;基于所确定的损失和目标损失确定更新的修剪控制信息。还描述了相应的装置、程序和计算机可读存储介质。
  • 存储器、麦克风、音频数据处理方法、装置、设备和系统-201980096054.3
  • 徐俊丽 - 重庆中嘉盛世智能科技有限公司
  • 2019-05-17 - 2022-03-22 - G10L25/30
  • 本发明涉及存储器、麦克风、音频数据处理方法、装置、设备和系统,其中所述方法包括,对用户进行发声特性测定,获取用户在模仿预设声音时对应的声音特性;根据用户的声音特性与目标声音的对应关系,生成用户的声音优化规则;根据用户实时发声的音频数据,获取用户的当前声音特性;以当前声音特性为参数,根据声音优化规则确定当前声音修正值;根据当前声音修正值对音频数据进行实时的声音修正。本申请可以使用户的演唱效果所体现出来的音效中,包括用户原本无法唱出的频率、音色、口音等声音特征,从而满足用户个性化的声音优化的需求。此外,本申请的声音优化的应用场景还可以包括用于用户的演说等其他的声音表达时的声音优化需求。
  • 语音识别系统及使用语音识别系统的方法-201880091966.7
  • J·勒鲁克斯;堀贵明;S·赛特尔;关博史;渡部晋司;J·赫尔希 - 三菱电机株式会社
  • 2018-10-24 - 2020-11-24 - G10L25/30
  • 用于语音识别系统的系统和方法,该语音识别系统用于识别包括多个讲话者的交叠语音的语音。该系统包括硬件处理器。计算机储存存储器存储数据并且具有存储于其上的计算机可执行指令,该计算机可执行指令在由处理器执行时将实现所存储的语音识别网络。输入接口接收声学信号,所接收的声学信号包括多个讲话者的语音信号的混合体,其中多个讲话者包括目标讲话者。所存储的语音识别网络的编码器网络和解码器网络被训练为将所接收的声学信号变换为针对每个目标讲话者的文本。使得编码器网络输出一组识别编码,并且解码器网络使用一组识别编码以输出针对每个目标讲话者的文本。输出接口传输针对每个目标讲话者的文本。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top