[发明专利]语音转换方法、装置和系统及存储介质在审

申请号：	202011609527.6	申请日：	2020-12-30
公开（公告）号：	CN112750446A	公开（公告）日：	2021-05-04
发明（设计）人：	武剑桃;李秀林	申请（专利权）人：	标贝（北京）科技有限公司
主分类号：	G10L21/013	分类号：	G10L21/013;G10L25/27
代理公司：	北京睿邦知识产权代理事务所(普通合伙) 11481	代理人：	徐丁峰;戴亚南
地址：	100192 北京市海淀区西小口路66号中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种语音转换方法、装置和系统及存储介质。方法包括：获取源说话者的源语音；对源语音进行特征提取；将源识别声学特征输入语音识别模型，以获得源说话者的语音后验概率；将多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型，以获得目标合成声学特征，目标合成声学特征包括与至少部分时间帧一一对应的合成声学特征向量，至少部分时间帧包括多个时间帧中的所有有效时间帧；基于有效声学特征进行语音合成，以获得目标说话者的有效语音；语音识别模型或特征转换模型还输出源音频状态信息，多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧基于源音频状态信息确定。这种联合建模的方式可有效提升语音转换的实时性。
搜索关键词：	语音转换方法装置系统存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于标贝（北京）科技有限公司，未经标贝（北京）科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202011609527.6/，转载请声明来源钻瓜专利网。

上一篇：语音转换方法、装置和系统及存储介质
下一篇：苏打水两段提升输送系统

同类专利

语音转换模型训练方法、语音转换方法、装置及介质-202310688583.0
发明人：张旭龙;王健宗;程宁 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-09 - 公布日： 2023-10-27 - 主分类号： G10L21/013
摘要：本申请涉及语音转换技术领域，提供了一种语音转换模型训练方法、语音转换方法、装置及介质，方法部分包括：通过编码器从预设语音样本中提取语音样本特征。然后基于预设掩码策略对语音样本进行解耦，得到的样本特征表示，将样本特征表示输入至生成器，并训练生成器根据样本特征表示重建语音样本梅尔频谱图，得到目标样本梅尔频谱图，根据目标样本梅尔频谱图和预设语音样本对应的原始样本梅尔频谱图，计算语音转换模型的语音重构损失。基于对抗损失和语音重构损失优化语音转换模型中的参数，得到训练好的语音转换模型。通过预设掩码策略和预设对抗网络对语音样本特征进行解耦，提高了语音转换模型的鲁棒性，进而提高了训练效率。

音频生成网络的训练方法、音频生成方法以及装置-202310161152.9
发明人：张泽旺 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-02-24 - 公布日： 2023-10-27 - 主分类号： G10L21/013
摘要：本申请提供一种音频生成网络的训练方法、音频生成方法及装置，应用于人工智能等各种场景，该音频生成网络的训练方法包括：输入样本内容编码特征、样本音色编码特征和目标样本语音音色至预设音频生成网络得到样本预测音频；输入样本预测音频和样本源音频至预设音频判别网络得到音频判别结果；基于样本预测音频、样本源音频和音频判别结果，确定第一损失函数和第二损失函数；根据第一损失函数和第二损失函数更新网络的参数，得到目标音频生成网络。本申请实施例通过端对端的训练即可得到目标音频生成网络，无需分多个阶段进行训练，提高了目标音频生成网络的训练精度，降低了目标音频生成网络的训练成本。

客服语音优化方法、装置、设备及存储介质-202310994885.0
发明人：刁振宇;周奕昕;勾善文;陈静;杨福理;张进;李宁妮;赵晓宇;周倩;刘燕;马莉;彭娜;李梦婷 -专利权人：中国联合网络通信集团有限公司
申请日： 2023-08-08 - 公布日： 2023-10-27 - 主分类号： G10L21/013
摘要：本申请提供一种客服语音优化方法、装置、设备及存储介质，涉及计算机技术领域，用于解决客户人员回复的声音不满足用户的听觉需求，降低用户的使用体验的问题。该方法包括：获取目标用户特征信息。根据目标对应关系和目标用户特征信息，确定目标用户特征信息对应的目标音色信息，目标对应关系包括：多个预设用户特征信息与多个预设音色信息之间的对应关系。获取初始客服语音信息，并将初始客服语音信息转换为目标音色信息对应的目标客服语音信息。

一种端到端的口音转换方法-202010239586.2
发明人：刘颂湘;王迪松;曹悦雯;孙立发;吴锡欣;康世胤;吴志勇;刘循英;蒙美玲 -专利权人：深圳市达旦数生科技有限公司
申请日： 2020-03-30 - 公布日： 2023-10-27 - 主分类号： G10L21/013
摘要：本发明公开了一种端到端的口音转换方法，将非地道口音转换为地道口音，属于语音处理技术领域，也可用于将发音障碍的患者的语音转换为标准语音，包括实现口音转换方法的口音转换系统，口音转换系统包括语音识别模块、说话人编码器、语音合成模块、神经网络声码器，语音识别模块用于将输入的非地道口音的声学特征调整为地道口音的信号参数，信号参数仅与非地道口音的说话内容相关；非地道口音的信号参数和说话人向量输入至语音合成模块，经语音合成模块处理过的语音最后通过神经网络声码器即可合成特定说话人的地道口音；有益效果是：在转换过程中无需地道口音参考音频的任何指导，即能够将非地道口音转换为地道口音，并且保持说话人的原本音色。

用于通过利用对抗性扰动来实现公共音频数据中的说话者去标识的方法和系统-202280013653.6
发明人：张杨勇;M·希尔瓦尼恩;S·S·阿罗拉 -专利权人：维萨国际服务协会
申请日： 2022-02-10 - 公布日： 2023-10-13 - 主分类号： G10L21/013
摘要：提供了一种用于通过利用对抗性扰动来实现公共音频数据中的说话者去标识的方法。该方法能够包括接收与至少一个语音样本相关联的音频数据。该语音样本中的一个或多个语音样本可以朝向至少一个分类器模型的决策边界的边缘被扰动。每个语音样本的一个音调能够被扰动，以使每个语音样本在该至少一个分类器模型的该决策边界上移位以提供至少一个去标识的语音样本。能够对具有该至少一个去标识的语音样本的媒体文件进行编码。还公开了一种系统和计算机程序产品。

歌声美化方法、装置、计算机设备及存储介质-202310606940.4
发明人：张旭龙;王健宗;程宁;茹港徽 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-26 - 公布日： 2023-10-13 - 主分类号： G10L21/013
摘要：本发明公开了一种歌声美化方法、装置、计算机设备及存储介质，该方法包括获取至少一段待美化歌声；对待美化歌声进行音高提取，得到音高数据；对音高数据进行音高修正，得到修正数据；对待美化歌声进行内容提取，得到内容数据；对待美化歌声进行音色提取，得到音色数据；对修正数据、内容数据和音色数据进行特征融合，得到美化歌声。本发明通过分别提取音高、内容和音色，实现了对噪音和杂音的剔除，提升了对待美化歌声的修正效果，进而提高了歌声美化程度，以及实现了对歌声的实时美化。通过对音高进行修正，解决了唱歌跑调的问题，实现了对歌声的美化，进而在改变音高的同时，保持音色特征不变。

音频处理方法、装置、电子设备及存储介质-202210510772.4
发明人：赵情恩 -专利权人：北京百度网讯科技有限公司
申请日： 2022-05-11 - 公布日： 2023-10-03 - 主分类号： G10L21/013
摘要：本公开提供了一种音频处理方法、装置、电子设备及存储介质，涉及计算机技术领域，尤其涉及语音技术领域。具体实现方案为：从原始音频获取第一目标特征向量，其中，第一目标特征向量用于表征原始音频的内容特征；从待迁移音频获取第二目标特征向量和第三目标特征向量，其中，第二目标特征向量用于表征待迁移音频的风格韵律特征，第三目标特征向量用于表征待迁移音频的说话人特征；对第一目标特征向量、第二目标特征向量和第三目标特征向量进行声谱解码处理，得到目标声谱特征；将目标声谱特征转换成目标音频。

一种虚拟直播环境下的实时语音转换方法和装置-202310608250.2
发明人：卢立;陈钱牛;顾哲涵;巴钟杰;林峰;任奎 -专利权人：浙江大学;浙江大学杭州国际科创中心
申请日： 2023-05-26 - 公布日： 2023-09-22 - 主分类号： G10L21/013
摘要：本发明公开了一种虚拟直播环境下的实时语音转换方法和装置，高度保留了扮演者的语气、语调等身份无关的语音特征，为用户提供了无需注册、重训练即可在个人电脑上流畅运行的服务。此外，该方法提供20种以上的虚拟音色以供选择、切换，为VTuber提供更加多元化、个性化的虚拟角色扮演效果，更好地服务虚拟直播场景。本方法可以实现低延迟和高质量的实时语音生成，能够实现实时转换并控制实时延迟仅为70.8ms，在语音质量和易懂度上与最先进的基于Diffusion的多目标语音转换方法相当，在语音相似性上领先于目前的主流方法。

基于对抗学习的说话人语音转换方法及相关设备-202011632876.X
发明人：梁爽;缪陈峰;马骏;王少军 -专利权人：平安科技（深圳）有限公司
申请日： 2020-12-31 - 公布日： 2023-09-22 - 主分类号： G10L21/013
摘要：本发明涉及数据处理技术领域，提供一种基于对抗学习的说话人语音转换方法、装置、计算机设备及存储介质，包括：预处理训练数据，得到MFCC特征与基频特征；输入MFCC特征与基频特征至初始说话人语音转换模型进行训练；调用对抗算法训练内容编码器与内容判别器，直至达到纳什均衡状态；获取域判别器的总损失函数，并检测总损失函数是否收敛；当检测结果为总损失函数收敛时，确定目标说话人语音转换模型；获取待转换音频与目标音频，并调用内容编码器处理待转换音频，得到目标内容编码，调用属性编码器处理目标音频，得到目标属性编码；输入目标内容编码与目标属性编码至生成器，得到转换后的说话人语音。本发明能够提高说话人语音转换的效率与质量。

声音优化方法、电子设备、存储介质及程序产品-202310640370.0
发明人：柴金详;谭宏冰;王斌;栾欣洋 -专利权人：魔珐（上海）信息科技有限公司;上海墨舞科技有限公司
申请日： 2023-05-31 - 公布日： 2023-09-19 - 主分类号： G10L21/013
摘要：本申请提供了声音优化方法、电子设备、计算机可读存储介质及计算机程序产品。声音优化方法用于对直播间的虚拟主播的声音进行优化，所述虚拟主播采用中之人驱动，所述方法包括：使用第一终端设备获取所述中之人的原始语音信息，并对所述原始语音信息进行过滤处理，得到中间语音信息；根据声音规则对所述中间语音信息对应的声音特征进行调整，以得到目标语音信息；所述声音规则包括虚拟主播的音调、音量、基音频率和情感类型中的至少一种；将所述目标语音信息实时发送至所述直播间的所有用户的第二终端设备。本申请利用过滤处理和声音特征调整步骤，使用户得到优化后的虚拟主播的声音,满足客户对直播间的虚拟主播的声音进行优化的需求。

基于自然语言模式调节机器人音色、角色和语速的方法-202310519067.5
发明人：靳晓鹏;林古山;苏雷;张建建;龚诚 -专利权人：北京微呼科技有限公司
申请日： 2023-05-10 - 公布日： 2023-09-19 - 主分类号： G10L21/013
摘要：本申请提供了一种基于自然语言模式调节机器人音色、角色和语速的方法包括：S1、确认第一通话事件并确认呼出角色，根据呼出角色从音色数据子库定义音色；S2、呼出电话；S3、根据第一通话事件，确认出第一文本信息，并按照词义对第一文本信息进行拆解，而后将拆解后的第一文本信息音频化，形成间隙输出式的第一语音信息；S4、将第一语音信息与情绪数据子库中的一情绪状态进行绑定，并根据情绪状态从文字数据子库中调取语气助词分段式对第一语音信息进行嵌入添加，形成第二语音信息；S5、分段式播出第二语音信息，并实时判断是否收到反馈信息；若是，则根据反馈信息对应调整第一通话事件，形成第二通话事件并重新执行步骤S3～S5的步骤。

一种基于说话人对抗子网络的语音转换方法-202310314078.X
发明人：陈牧图;夏宇闻;祁泽源;龚剡驿;纪科旭;罗姝雯;谢跃 -专利权人：南京工程学院
申请日： 2023-03-28 - 公布日： 2023-09-19 - 主分类号： G10L21/013
摘要：本发明公开了一种基于说话人对抗子网络的语音转换方法。本发明通过在将说话人对抗子网络嵌入至语音转换模型StarGAN‑VC2中，提出了添加说话人对抗子网络辅助特征解码的策略，并融合了说话人对抗损失函数与生成器损失函数，使得二者在对抗中提高编码器的说话人身份信息去除效果，同时为了更好地适应语音转换任务，引入了自适应实例归一化算法辅助特征解码，能够有效的提升语音转换的质量以及说话人相似度，因此，使得语音在转换过程中，具有检验与反馈机制，非语义特征剔除彻底，可以在保持多对多的非平行语料转换方法优越性的前提下，创造出一个说话人身份信息去除辅助与验证机制，语音转换效果好，具有良好的应用前景。

一种音频转换模型的训练方法、装置、电子设备及存储介质-202310967497.3
发明人：任凯盟;周鸿斌;卢恒 -专利权人：上海珠峰智人信息科技有限公司
申请日： 2023-08-02 - 公布日： 2023-09-19 - 主分类号： G10L21/013
摘要：本发明的实施例提供了一种音频转换模型训练方法、装置、电子设备及存储介质，涉及模型训练技术领域，方法包括：确定待训练歌唱音频，确定待训练歌唱音频的内容表征、音色表征、基频以及梅尔信息，基于内容表征、音色表征、基频以及梅尔信息计算待训练歌唱音频的损失惩罚项信息，将损失惩罚项信息输入待训练的音频转换模型，以获得更新后的音频转换模型，返回执行基于内容表征、音色表征、基频以及梅尔信息计算待训练歌唱音频的损失惩罚项信息至的将损失惩罚项信息输入待训练的音频转换模型，以获得更新后的音频转换模型步骤，直至达到训练次数。基于训练好的音频转换模型对歌唱音频进行转换，可以提高歌声中口技的转换以及跨语言的转换效果。

音频信号处理方法、装置、电子设备及存储介质-201910955139.4
发明人：朱睿;黄俊;王燕南 -专利权人：腾讯科技（深圳）有限公司
申请日： 2019-10-09 - 公布日： 2023-09-15 - 主分类号： G10L21/013
摘要：本申请实施例提供了一种音频信号处理方法、装置、电子设备及存储介质，涉及信息处理技术领域。该方法包括：获取用户所录制的待处理音频信号；提取待处理音频信号的音频特征；获取待处理音频信号的原声音频信号的标准音频特征，原声音频信号包括原声声音信号和背景音频信号；基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行修正处理，得到修正后的音频信号。本申请技术方案利用易于获取的原声音频信号的标准音频特征，对待处理音频信号进行修正处理，从而实现了对用户所录制的音频的美化，不依赖干声模版，扩大了声音美化技术的适用范围，避免了人工标注出现的错误，提升了音频美化的效果。

一种语音转换说话人溯源方法及装置-202310236391.6
发明人：任延珍;朱洪承;翟黎明;孙宗锟;沈茹冰;王丽娜 -专利权人：武汉大学
申请日： 2023-03-10 - 公布日： 2023-08-29 - 主分类号： G10L21/013
摘要：本发明公开了一种语音转换说话人溯源方法及装置。针对语音转换技术在实际应用过程中滥用时难以主动追溯源说话人身份的问题，本发明设计了一个基于异步VAE‑Glow的追溯方法，既能在语音转换过程中并行隐藏源说话人身份，又能从压缩的转换语音中准确地恢复隐藏的源说话人身份甚至原始语音。本方法可与任意的语音转换框架集成并用于各类社交媒体和语音通话应用中，在不影响转换语音质量的前提下实现说话人身份的隐藏和溯源，在面临大范围比特率(16～128kbps)的主流音频和语音压缩标准(如AAC、MP3、Opus和SILK)时仅凭0.74s的语音就能实现接近100％的溯源准确率。

音频处理模型的训练方法、音频转换方法及装置-202310576603.5
发明人：朱鹏程;薛鹤洋;毕梦霄;郭帅;张晴;吕唐杰 -专利权人：网易（杭州）网络有限公司
申请日： 2023-05-19 - 公布日： 2023-08-22 - 主分类号： G10L21/013
摘要：本申请提供了一种音频处理模型的训练方法、音频转换方法、装置、电子设备及计算机可读存储介质，训练方法包括：确定样本音频数据的样本发音特征；将样本发音特征输入第一待训练模型进行数值化编码得到数值化的第一输出特征，第一待训练模型为基于过去的信息对数据进行数值化编码的模型；将样本发音特征输入第二模型进行数值化编码得到数值化的第二输出特征，第二模型为基于过去和未来的信息对数据进行处理的模型；基于减小第一输出特征与第二输出特征之间的差别的第一参数调整原则，对第一待训练模型进行参数调整，得到调整后第一模型；根据调整后第一模型确定音频处理模型。如此，使得流式歌声转换能够实现流式推理的同时保证了流式推理的效果。

基于人工智能的语音转换方法、装置、计算机设备及介质-202310611107.9
发明人：张旭龙;王健宗;程宁;唐怀朕 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-26 - 公布日： 2023-08-22 - 主分类号： G10L21/013
摘要：本发明适用于金融科技领域，尤其涉及一种基于人工智能的语音转换方法、装置、计算机设备及介质。本发明通过编码器提取待转换语音的优化语义特征和优化韵律特征，以及参考语音的参考说话人特征，使用解码器得到目标转换语音，通过编码器提取待转换语音的第一语义特征、第一韵律特征和第一说话人特征，以及增广语音的第二语义特征和第二韵律特征，将第一语义特征、第一韵律特征和第一说话人特征输入至解码器得到重构语音，并计算模型损失来训练编码器和解码器，提高了编码器和解码器的准确率，从而提高了语音转换的准确性，在金融科技领域中，为客户提供了自然性、表现力、丰富性更高的机器人客服服务，提升了服务质量和客户体验。

一种变声方法、装置及电子设备-202110455422.8
发明人：戈文硕;刘恺;陈伟 -专利权人：北京搜狗科技发展有限公司
申请日： 2021-04-26 - 公布日： 2023-08-22 - 主分类号： G10L21/013
摘要：本发明公开了一种变声方法，在将源说话人的语音转换为目标说话人的目标语音以指定方言进行输出的过程中，将源说话人的原语音数据输入到语音识别模型中进行特征提取，将提取的原始音频识别特征，以及目标语音和指定方言输入到目标变声模型中，输出携带有指定方言的目标说话人的声学特征，再将其进行输出；此时，由于目标变声模型是自适应语音识别模型对至少一个训练说话人提取的自适应音频识别特征，以及至少一个训练说话人的声音特征进行模型训练得到的，如此，在将原始音频识别特征，以及目标语音和指定方言输入到目标变声模型中进行预测时，能够使得目标变声模型能够实现任意说话人的普通话音频到指定音色和带有指定方言口音的音频的转换。

基于人工智能的语音转换方法、装置、计算机设备及介质-202310724428.X
发明人：张旭龙;王健宗;程宁;唐怀朕 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-16 - 公布日： 2023-08-18 - 主分类号： G10L21/013
摘要：本发明适用于语音转换技术领域，尤其涉及一种基于人工智能的语音转换方法、装置、计算机设备及介质。本发明确定音素序列中的M个边界帧及其对应的持续时长，提取文本序列的第一文本韵律特征序列，并根据边界帧对应的目标位置对应的特征值，构建对应边界帧的持续时长的特征值序列，并按顺序将所有边界帧对应的特征值序列组成第二文本韵律特征序列，根据文本序列、第二文本韵律特征和目标音色重构得到目标重构语音，通过提取第一文本韵律特征序列并进行特征值修正，提高了对语义信息和韵律信息的表征准确性，降低了待转换语音中的说话人信息对重构语音的影响，提高了语音转换的准确性，在金融场景中提高了机器人客服的自然性、表现力和服务质量。

基于BLSTM的分频拓谱抗噪语音转换方法-202011288173.X
发明人：孙蒙;苗晓孔;张雄伟;曹铁勇;郑昌艳;李莉 -专利权人：中国人民解放军陆军工程大学
申请日： 2020-11-17 - 公布日： 2023-08-18 - 主分类号： G10L21/013
摘要：本发明公开了一种基于BLSTM的分频拓谱抗噪语音转换方法，具体步骤为：对源语音和目标语音进行滤波，并提取语音特征参数，所述语音特征参数包括基频、声道谱、非周期成分；将提取到的源语音和目标语音的声道谱进行动态时间规整对齐；将对齐后的源语音和目标语音声道谱分别输入分频转换的BLSTM网络模型进行训练，得到对应的特征转换网络；构建全局统计方差一致性滤波模型；将待转换语音滤波后，提取待转换语音的特征参数，并进行预处理；将预处理后的待转换语音的特征参数进行参数化的语音合成，生成最终的转换语音。本发明设计全新的融合规则，将分频转换后的部分进行融合，进而得到更加接近目标的声道谱，从而提升语音转换的相似度。

语音转换方法、装置、计算机设备及存储介质-202310688026.9
发明人：张旭龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-09 - 公布日： 2023-08-15 - 主分类号： G10L21/013
摘要：本发明涉及语音转换和数字医疗领域，尤其涉及一种语音转换方法、装置、计算机设备及存储介质。其方法包括：获取用户输入的初始语音数据和目标语音信息；利用矢量量化技术对初始语音数据进行风格信息的剔除处理，得到待处理语音内容数据；对待处理语音内容数据进行音素对齐处理，得到音素对齐内容数据；根据目标语音长度和目标语音风格，对音素对齐内容数据进行语音转换，生成目标语音数据。本发明通过矢量量化技术以及音素对齐处理消除初始语音数据中初始说话人的风格信息，提高目标语音数据的准确性和音质效果。根据目标语音长度和目标语音风格对音素进行语音转换，实现语音时间的可控性和目标语音风格的可选择性，提高语音转换的灵活性。

语音转换方法、装置、设备及存储介质-202310695522.7
发明人：张旭龙;王健宗;程宁;张睿哲 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-12 - 公布日： 2023-08-08 - 主分类号： G10L21/013
摘要：本发明涉及人工智能技术，揭露一种语音转换方法，包括：任意选取训练数据集中的一个训练数据，得到目标训练数据；分别提取目标训练数据中训练语音及转换语音标签的语音特征；利用转换模型中对提取的训练语音的语音特征进行特征转换，得到转换语音特征；基于转换语音特征与提取的转换语音标签的语音特征的差异判断转换模型是否收敛；当转换模型不收敛，对转换模型的模型参数进行二阶梯度自适应调整更新，并返回任意选取一个训练数据步骤；当转换模型收敛，利用此时的转换模型对待转换语音进行语音转换，得到目标转换语音。本发明还提出一种语音转换装置、设备以及介质，可用于金融领域，提高了保险投保注意事项解说语音的语音转换的效率。

语音转换方法和装置、电子设备及存储介质-202310715792.X
发明人：张旭龙;王健宗;程宁 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-16 - 公布日： 2023-08-08 - 主分类号： G10L21/013
摘要：本申请实施例提供了一种语音转换方法和装置、电子设备及存储介质，属于数字医疗技术领域。该方法包括：获取样本语音数据；通过原始音色编码器得到样本音色向量；通过原始内容编码器得到样本内容向量；通过原始对象特征编码器得到样本对象特征向量；通过原始解码器得到样本语音重构数据；根据样本语音数据、样本语音重构数据进行语音比对，得到语音损失数据；对样本音色向量、样本内容向量、样本对象特征向量得到解耦损失数据；根据语音损失数据、解耦损失数据对原始语音模型得到目标语音模型；通过目标语音模型、预设的目标转换对象数据对获取的目标语音数据进行语音转换，得到转换语音数据。本申请实施例能够提高语音转换的准确性。

语音转换方法和装置、电子设备及存储介质-202310716965.X
发明人：张旭龙;王健宗;程宁 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-16 - 公布日： 2023-08-04 - 主分类号： G10L21/013
摘要：本申请实施例提供了一种语音转换方法和装置、电子设备及存储介质，属于数字医疗技术领域。该方法包括：获取样本语音数据和参考语音数据；通过目标音色编码器对参考语音数据进行处理，得到参考音色向量；通过原始内容编码器对样本语音数据进行处理，得到样本内容向量；通过目标解码器对参考音色向量和样本内容向量进行处理，得到样本重构语音数据；通过原始内容编码器对样本重构语音数据进行处理，得到重构内容向量；根据重构内容向量、样本内容向量对原始语音模型进行调整，得到目标语音模型；通过目标语音模型、预设的目标转换对象数据对预先获取到的目标语音数据进行语音转换，得到转换语音数据。本申请实施例能够提高语音转换的准确性。

音频处理方法、装置、终端及存储介质-201911219026.4
发明人：黄中一 -专利权人：广州酷狗计算机科技有限公司
申请日： 2019-12-03 - 公布日： 2023-08-01 - 主分类号： G10L21/013
摘要：本发明公开了一种音频处理方法、装置、终端及存储介质，属于音频处理技术领域。所述方法包括：通过提取第一音频的第一音色特征，基于该第一音色特征，筛选出相近的目标音频，基于目标音频的目标音色特征，将第一音频转换为融合有目标音色特征和第一音色特征的第二音频，从而对音频的音色进行了改变，丰富了音频处理过程。且梅尔频谱影响了音频的磁性程度、基频微扰、振幅微扰等多种特性，因此，第二音频融合了第一音频和目标音频的梅尔频谱等音色特征，使得处理之后的音频在音色上有进一步的美化，提高了音频处理之后得到的音频的真实性。

语音机器人与人工座席音色归一化的方法、系统及设备-202211743483.5
发明人：吕正东;杨双成 -专利权人：深度好奇（杭州）科技有限公司
申请日： 2022-12-26 - 公布日： 2023-07-28 - 主分类号： G10L21/013
摘要：本发明涉及语音变声技术领域，具体涉及一种语音机器人与人工座席音色归一化的方法、系统及设备，目的在于改善变声效果。本发明提出的语音机器人与人工座席音色归一化的方法包括：当有客户电话呼入/有电话外呼任务时，向语音机器人发送接听/外呼指令；将语音机器人的音色转换为座席团队的平均音色；当通话需要转由人工接听时，向座席团队中的人工座席发送接听指令；将接听电话的人工座席的音色转换为座席团队的平均音色。采用本发明的方法变声效果更为自然。

一种用于实时情感语音转换的方法及系统-202310538032.6
发明人：冯超;徐颖;凌天格 -专利权人：上海格子互动信息技术有限公司
申请日： 2023-05-12 - 公布日： 2023-07-18 - 主分类号： G10L21/013
摘要：本申请实施例涉及音频处理技术领域，尤其涉及一种用于实时情感语音转换的方法及系统。本发明具体包括步骤一、实时采集用户录入语音数据；步骤二、将用户录入语音数据传送至模型文件中进行预处理；步骤三、待预处理完成后进行音频输出。本发明所述实时情感语音转换方法，将用户音色文件针对性匹配模型文件进行预处理，不同模型文件对应不同的待匹配音色数据，用以帮助用户自由选择音色，提高用户体验。

一种数据处理方法、装置及电子设备-202110189853.4
发明人：师圣;杜杨洲;杨琳 -专利权人：联想（北京）有限公司
申请日： 2021-02-18 - 公布日： 2023-06-27 - 主分类号： G10L21/013
摘要：本申请公开了一种数据处理方法、装置及电子设备，包括获取第一音频数据，将第一音频数据进行转换，获得第一音频图像；基于第一音频图像，生成第二音频图像；对第二音频图像对应的音频特征信息进行处理，获得第二音频数据。通过音频图像的转换方式，实现了通过已有音频数据生成与之具有相同的语义，且不同音频属性特征的音频数据的目的，降低了数据收集的时间成本及难度。

基于变分自编码网络双向化损失函数的语音转换方法-202310167537.6
发明人：姚喜佳;李艳雄;阮春尧;刘彬;张炫凯;孙建鑫 -专利权人：华南理工大学
申请日： 2023-02-27 - 公布日： 2023-06-23 - 主分类号： G10L21/013
摘要：本发明公开了一种基于变分自编码网络双向化损失函数的语音转换方法，过程如下：选取并划分语音数据；从各个语音样本提取声学特征；构建文本编码器、说话人编码器与解码器：将语音输入文本编码器和说话人编码器，分别提取文本信息和说话人信息，再通过解码器得到重构语音；构造双向化损失函数并训练网络，使得相同说话人的不同语音样本的说话人发音特性信息一致且提取的文本信息的散度值尽可能小；采用语音测试集评测此变分自编码网络的语音转换性能。本发明通过构造文本编码器和说话人编码器，分离说话人发音特性信息和文本信息，实现一次性语音转换。采用双向化损失函数训练变分自编码网络，在不增加算法复杂度的前提下提高语音转换性能。

音色转换方法、装置、存储介质及计算机设备-202310177862.0
发明人：刘子威;赵鑫;程斌 -专利权人：北京智美源素科技有限公司
申请日： 2023-02-17 - 公布日： 2023-06-23 - 主分类号： G10L21/013
摘要：本发明公开了一种音色转换方法、装置、存储介质及计算机设备，涉及人工智能技术领域，主要在于能够提高音色的转换准确度。其中方法包括：获取待转换音频数据和目标音色；将待转换音频数据输入至预设语义预测模型中进行语义预测，得到待转换音频数据对应的语义信息向量；确定目标音色对应的音色特征向量；将语义信息向量和音色特征向量进行交叉处理，得到音色交叉特征向量；将音色交叉特征向量输入至预设音色转换模型中进行音色转换，得到目标音频，其中，目标音频为带有目标音色和待转换音频数据中原始语气的音频。本发明适用于对音色进行转换。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音转换方法、装置和系统及存储介质在审

专利文献下载