“G10L21/01”专利分类搜索_专利查询_文献下载_出售_求购_买卖_交易

钻瓜专利网为您找到相关结果172个，建议您升级VIP下载更多相关专利

[发明专利]语音转换模型训练方法、语音转换方法、装置及介质-CN202310688583.0在审
发明人：张旭龙;王健宗;程宁 -专利权人：平安科技（深圳）有限公司
申请日： 2023-06-09 - 公布日： 2023-10-27 - 主分类号： G10L21/013 文献下载
摘要：本申请涉及语音转换技术领域，提供了一种语音转换模型训练方法、语音转换方法、装置及介质，方法部分包括：通过编码器从预设语音样本中提取语音样本特征。然后基于预设掩码策略对语音样本进行解耦，得到的样本特征表示，将样本特征表示输入至生成器，并训练生成器根据样本特征表示重建语音样本梅尔频谱图，得到目标样本梅尔频谱图，根据目标样本梅尔频谱图和预设语音样本对应的原始样本梅尔频谱图，计算语音转换模型的语音重构损失。基于对抗损失和语音重构损失优化语音转换模型中的参数，得到训练好的语音转换模型。通过预设掩码策略和预设对抗网络对语音样本特征进行解耦，提高了语音转换模型的鲁棒性，进而提高了训练效率。
语音转换模型训练方法装置介质

[发明专利]音频生成网络的训练方法、音频生成方法以及装置-CN202310161152.9在审
发明人：张泽旺 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-02-24 - 公布日： 2023-10-27 - 主分类号： G10L21/013 文献下载
摘要：本申请提供一种音频生成网络的训练方法、音频生成方法及装置，应用于人工智能等各种场景，该音频生成网络的训练方法包括：输入样本内容编码特征、样本音色编码特征和目标样本语音音色至预设音频生成网络得到样本预测音频；输入样本预测音频和样本源音频至预设音频判别网络得到音频判别结果；基于样本预测音频、样本源音频和音频判别结果，确定第一损失函数和第二损失函数；根据第一损失函数和第二损失函数更新网络的参数，得到目标音频生成网络。本申请实施例通过端对端的训练即可得到目标音频生成网络，无需分多个阶段进行训练，提高了目标音频生成网络的训练精度，降低了目标音频生成网络的训练成本。
音频生成网络训练方法以及装置

[发明专利]客服语音优化方法、装置、设备及存储介质-CN202310994885.0在审
发明人：刁振宇;周奕昕;勾善文;陈静;杨福理;张进;李宁妮;赵晓宇;周倩;刘燕;马莉;彭娜;李梦婷 -专利权人：中国联合网络通信集团有限公司
申请日： 2023-08-08 - 公布日： 2023-10-27 - 主分类号： G10L21/013 文献下载
摘要：本申请提供一种客服语音优化方法、装置、设备及存储介质，涉及计算机技术领域，用于解决客户人员回复的声音不满足用户的听觉需求，降低用户的使用体验的问题。该方法包括：获取目标用户特征信息。根据目标对应关系和目标用户特征信息，确定目标用户特征信息对应的目标音色信息，目标对应关系包括：多个预设用户特征信息与多个预设音色信息之间的对应关系。获取初始客服语音信息，并将初始客服语音信息转换为目标音色信息对应的目标客服语音信息。
客服语音优化方法装置设备存储介质

[发明专利]一种端到端的口音转换方法-CN202010239586.2有效
发明人：刘颂湘;王迪松;曹悦雯;孙立发;吴锡欣;康世胤;吴志勇;刘循英;蒙美玲 -专利权人：深圳市达旦数生科技有限公司
申请日： 2020-03-30 - 公布日： 2023-10-27 - 主分类号： G10L21/013 文献下载
摘要：本发明公开了一种端到端的口音转换方法，将非地道口音转换为地道口音，属于语音处理技术领域，也可用于将发音障碍的患者的语音转换为标准语音，包括实现口音转换方法的口音转换系统，口音转换系统包括语音识别模块、说话人编码器、语音合成模块、神经网络声码器，语音识别模块用于将输入的非地道口音的声学特征调整为地道口音的信号参数，信号参数仅与非地道口音的说话内容相关；非地道口音的信号参数和说话人向量输入至语音合成模块，经语音合成模块处理过的语音最后通过神经网络声码器即可合成特定说话人的地道口音；有益效果是：在转换过程中无需地道口音参考音频的任何指导，即能够将非地道口音转换为地道口音，并且保持说话人的原本音色。
一种端到端口音转换方法

[发明专利]用于通过利用对抗性扰动来实现公共音频数据中的说话者去标识的方法和系统-CN202280013653.6在审
发明人：张杨勇;M·希尔瓦尼恩;S·S·阿罗拉 -专利权人：维萨国际服务协会
申请日： 2022-02-10 - 公布日： 2023-10-13 - 主分类号： G10L21/013 文献下载
摘要：提供了一种用于通过利用对抗性扰动来实现公共音频数据中的说话者去标识的方法。该方法能够包括接收与至少一个语音样本相关联的音频数据。该语音样本中的一个或多个语音样本可以朝向至少一个分类器模型的决策边界的边缘被扰动。每个语音样本的一个音调能够被扰动，以使每个语音样本在该至少一个分类器模型的该决策边界上移位以提供至少一个去标识的语音样本。能够对具有该至少一个去标识的语音样本的媒体文件进行编码。还公开了一种系统和计算机程序产品。
用于通过利用对抗性扰动实现公共音频数据中的说话标识方法系统

[发明专利]歌声美化方法、装置、计算机设备及存储介质-CN202310606940.4在审
发明人：张旭龙;王健宗;程宁;茹港徽 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-26 - 公布日： 2023-10-13 - 主分类号： G10L21/013 文献下载
摘要：本发明公开了一种歌声美化方法、装置、计算机设备及存储介质，该方法包括获取至少一段待美化歌声；对待美化歌声进行音高提取，得到音高数据；对音高数据进行音高修正，得到修正数据；对待美化歌声进行内容提取，得到内容数据；对待美化歌声进行音色提取，得到音色数据；对修正数据、内容数据和音色数据进行特征融合，得到美化歌声。本发明通过分别提取音高、内容和音色，实现了对噪音和杂音的剔除，提升了对待美化歌声的修正效果，进而提高了歌声美化程度，以及实现了对歌声的实时美化。通过对音高进行修正，解决了唱歌跑调的问题，实现了对歌声的美化，进而在改变音高的同时，保持音色特征不变。
歌声美化方法装置计算机设备存储介质

[发明专利]音频处理方法、装置、电子设备及存储介质-CN202210510772.4有效
发明人：赵情恩 -专利权人：北京百度网讯科技有限公司
申请日： 2022-05-11 - 公布日： 2023-10-03 - 主分类号： G10L21/013 文献下载
摘要：本公开提供了一种音频处理方法、装置、电子设备及存储介质，涉及计算机技术领域，尤其涉及语音技术领域。具体实现方案为：从原始音频获取第一目标特征向量，其中，第一目标特征向量用于表征原始音频的内容特征；从待迁移音频获取第二目标特征向量和第三目标特征向量，其中，第二目标特征向量用于表征待迁移音频的风格韵律特征，第三目标特征向量用于表征待迁移音频的说话人特征；对第一目标特征向量、第二目标特征向量和第三目标特征向量进行声谱解码处理，得到目标声谱特征；将目标声谱特征转换成目标音频。
音频处理方法装置电子设备存储介质

[发明专利]一种虚拟直播环境下的实时语音转换方法和装置-CN202310608250.2在审
发明人：卢立;陈钱牛;顾哲涵;巴钟杰;林峰;任奎 -专利权人：浙江大学;浙江大学杭州国际科创中心
申请日： 2023-05-26 - 公布日： 2023-09-22 - 主分类号： G10L21/013 文献下载
摘要：本发明公开了一种虚拟直播环境下的实时语音转换方法和装置，高度保留了扮演者的语气、语调等身份无关的语音特征，为用户提供了无需注册、重训练即可在个人电脑上流畅运行的服务。此外，该方法提供20种以上的虚拟音色以供选择、切换，为VTuber提供更加多元化、个性化的虚拟角色扮演效果，更好地服务虚拟直播场景。本方法可以实现低延迟和高质量的实时语音生成，能够实现实时转换并控制实时延迟仅为70.8ms，在语音质量和易懂度上与最先进的基于Diffusion的多目标语音转换方法相当，在语音相似性上领先于目前的主流方法。
一种虚拟直播环境实时语音转换方法装置

[发明专利]基于对抗学习的说话人语音转换方法及相关设备-CN202011632876.X有效
发明人：梁爽;缪陈峰;马骏;王少军 -专利权人：平安科技（深圳）有限公司
申请日： 2020-12-31 - 公布日： 2023-09-22 - 主分类号： G10L21/013 文献下载
摘要：本发明涉及数据处理技术领域，提供一种基于对抗学习的说话人语音转换方法、装置、计算机设备及存储介质，包括：预处理训练数据，得到MFCC特征与基频特征；输入MFCC特征与基频特征至初始说话人语音转换模型进行训练；调用对抗算法训练内容编码器与内容判别器，直至达到纳什均衡状态；获取域判别器的总损失函数，并检测总损失函数是否收敛；当检测结果为总损失函数收敛时，确定目标说话人语音转换模型；获取待转换音频与目标音频，并调用内容编码器处理待转换音频，得到目标内容编码，调用属性编码器处理目标音频，得到目标属性编码；输入目标内容编码与目标属性编码至生成器，得到转换后的说话人语音。本发明能够提高说话人语音转换的效率与质量。
基于对抗学习说话人语转换方法相关设备

[发明专利]声音优化方法、电子设备、存储介质及程序产品-CN202310640370.0在审
发明人：柴金详;谭宏冰;王斌;栾欣洋 -专利权人：魔珐（上海）信息科技有限公司;上海墨舞科技有限公司
申请日： 2023-05-31 - 公布日： 2023-09-19 - 主分类号： G10L21/013 文献下载
摘要：本申请提供了声音优化方法、电子设备、计算机可读存储介质及计算机程序产品。声音优化方法用于对直播间的虚拟主播的声音进行优化，所述虚拟主播采用中之人驱动，所述方法包括：使用第一终端设备获取所述中之人的原始语音信息，并对所述原始语音信息进行过滤处理，得到中间语音信息；根据声音规则对所述中间语音信息对应的声音特征进行调整，以得到目标语音信息；所述声音规则包括虚拟主播的音调、音量、基音频率和情感类型中的至少一种；将所述目标语音信息实时发送至所述直播间的所有用户的第二终端设备。本申请利用过滤处理和声音特征调整步骤，使用户得到优化后的虚拟主播的声音,满足客户对直播间的虚拟主播的声音进行优化的需求。
声音优化方法电子设备存储介质程序产品

[发明专利]基于自然语言模式调节机器人音色、角色和语速的方法-CN202310519067.5在审
发明人：靳晓鹏;林古山;苏雷;张建建;龚诚 -专利权人：北京微呼科技有限公司
申请日： 2023-05-10 - 公布日： 2023-09-19 - 主分类号： G10L21/013 文献下载
摘要：本申请提供了一种基于自然语言模式调节机器人音色、角色和语速的方法包括：S1、确认第一通话事件并确认呼出角色，根据呼出角色从音色数据子库定义音色；S2、呼出电话；S3、根据第一通话事件，确认出第一文本信息，并按照词义对第一文本信息进行拆解，而后将拆解后的第一文本信息音频化，形成间隙输出式的第一语音信息；S4、将第一语音信息与情绪数据子库中的一情绪状态进行绑定，并根据情绪状态从文字数据子库中调取语气助词分段式对第一语音信息进行嵌入添加，形成第二语音信息；S5、分段式播出第二语音信息，并实时判断是否收到反馈信息；若是，则根据反馈信息对应调整第一通话事件，形成第二通话事件并重新执行步骤S3～S5的步骤。
基于自然语言模式调节机器人音色角色语速方法

[发明专利]一种基于说话人对抗子网络的语音转换方法-CN202310314078.X在审
发明人：陈牧图;夏宇闻;祁泽源;龚剡驿;纪科旭;罗姝雯;谢跃 -专利权人：南京工程学院
申请日： 2023-03-28 - 公布日： 2023-09-19 - 主分类号： G10L21/013 文献下载
摘要：本发明公开了一种基于说话人对抗子网络的语音转换方法。本发明通过在将说话人对抗子网络嵌入至语音转换模型StarGAN‑VC2中，提出了添加说话人对抗子网络辅助特征解码的策略，并融合了说话人对抗损失函数与生成器损失函数，使得二者在对抗中提高编码器的说话人身份信息去除效果，同时为了更好地适应语音转换任务，引入了自适应实例归一化算法辅助特征解码，能够有效的提升语音转换的质量以及说话人相似度，因此，使得语音在转换过程中，具有检验与反馈机制，非语义特征剔除彻底，可以在保持多对多的非平行语料转换方法优越性的前提下，创造出一个说话人身份信息去除辅助与验证机制，语音转换效果好，具有良好的应用前景。
一种基于说话对抗网络语音转换方法

[发明专利]一种音频转换模型的训练方法、装置、电子设备及存储介质-CN202310967497.3在审
发明人：任凯盟;周鸿斌;卢恒 -专利权人：上海珠峰智人信息科技有限公司
申请日： 2023-08-02 - 公布日： 2023-09-19 - 主分类号： G10L21/013 文献下载
摘要：本发明的实施例提供了一种音频转换模型训练方法、装置、电子设备及存储介质，涉及模型训练技术领域，方法包括：确定待训练歌唱音频，确定待训练歌唱音频的内容表征、音色表征、基频以及梅尔信息，基于内容表征、音色表征、基频以及梅尔信息计算待训练歌唱音频的损失惩罚项信息，将损失惩罚项信息输入待训练的音频转换模型，以获得更新后的音频转换模型，返回执行基于内容表征、音色表征、基频以及梅尔信息计算待训练歌唱音频的损失惩罚项信息至的将损失惩罚项信息输入待训练的音频转换模型，以获得更新后的音频转换模型步骤，直至达到训练次数。基于训练好的音频转换模型对歌唱音频进行转换，可以提高歌声中口技的转换以及跨语言的转换效果。
一种音频转换模型训练方法装置电子设备存储介质

[发明专利]音频信号处理方法、装置、电子设备及存储介质-CN201910955139.4有效
发明人：朱睿;黄俊;王燕南 -专利权人：腾讯科技（深圳）有限公司
申请日： 2019-10-09 - 公布日： 2023-09-15 - 主分类号： G10L21/013 文献下载
摘要：本申请实施例提供了一种音频信号处理方法、装置、电子设备及存储介质，涉及信息处理技术领域。该方法包括：获取用户所录制的待处理音频信号；提取待处理音频信号的音频特征；获取待处理音频信号的原声音频信号的标准音频特征，原声音频信号包括原声声音信号和背景音频信号；基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行修正处理，得到修正后的音频信号。本申请技术方案利用易于获取的原声音频信号的标准音频特征，对待处理音频信号进行修正处理，从而实现了对用户所录制的音频的美化，不依赖干声模版，扩大了声音美化技术的适用范围，避免了人工标注出现的错误，提升了音频美化的效果。
音频信号处理方法装置电子设备存储介质

[发明专利]一种语音转换说话人溯源方法及装置-CN202310236391.6在审
发明人：任延珍;朱洪承;翟黎明;孙宗锟;沈茹冰;王丽娜 -专利权人：武汉大学
申请日： 2023-03-10 - 公布日： 2023-08-29 - 主分类号： G10L21/013 文献下载
摘要：本发明公开了一种语音转换说话人溯源方法及装置。针对语音转换技术在实际应用过程中滥用时难以主动追溯源说话人身份的问题，本发明设计了一个基于异步VAE‑Glow的追溯方法，既能在语音转换过程中并行隐藏源说话人身份，又能从压缩的转换语音中准确地恢复隐藏的源说话人身份甚至原始语音。本方法可与任意的语音转换框架集成并用于各类社交媒体和语音通话应用中，在不影响转换语音质量的前提下实现说话人身份的隐藏和溯源，在面临大范围比特率(16～128kbps)的主流音频和语音压缩标准(如AAC、MP3、Opus和SILK)时仅凭0.74s的语音就能实现接近100％的溯源准确率。
一种语音转换说话溯源方法装置

1
2
3
4
5
6
7
8
9
10
11
12
下一页»
尾页
共 172 条