专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果172个,建议您升级VIP下载更多相关专利
  • [发明专利]语音转换模型训练方法、语音转换方法、装置及介质-CN202310688583.0在审
  • 张旭龙;王健宗;程宁 - 平安科技(深圳)有限公司
  • 2023-06-09 - 2023-10-27 - G10L21/013
  • 本申请涉及语音转换技术领域,提供了一种语音转换模型训练方法、语音转换方法、装置及介质,方法部分包括:通过编码器从预设语音样本中提取语音样本特征。然后基于预设掩码策略对语音样本进行解耦,得到的样本特征表示,将样本特征表示输入至生成器,并训练生成器根据样本特征表示重建语音样本梅尔频谱图,得到目标样本梅尔频谱图,根据目标样本梅尔频谱图和预设语音样本对应的原始样本梅尔频谱图,计算语音转换模型的语音重构损失。基于对抗损失和语音重构损失优化语音转换模型中的参数,得到训练好的语音转换模型。通过预设掩码策略和预设对抗网络对语音样本特征进行解耦,提高了语音转换模型的鲁棒性,进而提高了训练效率。
  • 语音转换模型训练方法装置介质
  • [发明专利]音频生成网络的训练方法、音频生成方法以及装置-CN202310161152.9在审
  • 张泽旺 - 腾讯科技(深圳)有限公司
  • 2023-02-24 - 2023-10-27 - G10L21/013
  • 本申请提供一种音频生成网络的训练方法、音频生成方法及装置,应用于人工智能等各种场景,该音频生成网络的训练方法包括:输入样本内容编码特征、样本音色编码特征和目标样本语音音色至预设音频生成网络得到样本预测音频;输入样本预测音频和样本源音频至预设音频判别网络得到音频判别结果;基于样本预测音频、样本源音频和音频判别结果,确定第一损失函数和第二损失函数;根据第一损失函数和第二损失函数更新网络的参数,得到目标音频生成网络。本申请实施例通过端对端的训练即可得到目标音频生成网络,无需分多个阶段进行训练,提高了目标音频生成网络的训练精度,降低了目标音频生成网络的训练成本。
  • 音频生成网络训练方法以及装置
  • [发明专利]一种端到端的口音转换方法-CN202010239586.2有效
  • 刘颂湘;王迪松;曹悦雯;孙立发;吴锡欣;康世胤;吴志勇;刘循英;蒙美玲 - 深圳市达旦数生科技有限公司
  • 2020-03-30 - 2023-10-27 - G10L21/013
  • 本发明公开了一种端到端的口音转换方法,将非地道口音转换为地道口音,属于语音处理技术领域,也可用于将发音障碍的患者的语音转换为标准语音,包括实现口音转换方法的口音转换系统,口音转换系统包括语音识别模块、说话人编码器、语音合成模块、神经网络声码器,语音识别模块用于将输入的非地道口音的声学特征调整为地道口音的信号参数,信号参数仅与非地道口音的说话内容相关;非地道口音的信号参数和说话人向量输入至语音合成模块,经语音合成模块处理过的语音最后通过神经网络声码器即可合成特定说话人的地道口音;有益效果是:在转换过程中无需地道口音参考音频的任何指导,即能够将非地道口音转换为地道口音,并且保持说话人的原本音色。
  • 一种端到端口音转换方法
  • [发明专利]歌声美化方法、装置、计算机设备及存储介质-CN202310606940.4在审
  • 张旭龙;王健宗;程宁;茹港徽 - 平安科技(深圳)有限公司
  • 2023-05-26 - 2023-10-13 - G10L21/013
  • 本发明公开了一种歌声美化方法、装置、计算机设备及存储介质,该方法包括获取至少一段待美化歌声;对待美化歌声进行音高提取,得到音高数据;对音高数据进行音高修正,得到修正数据;对待美化歌声进行内容提取,得到内容数据;对待美化歌声进行音色提取,得到音色数据;对修正数据、内容数据和音色数据进行特征融合,得到美化歌声。本发明通过分别提取音高、内容和音色,实现了对噪音和杂音的剔除,提升了对待美化歌声的修正效果,进而提高了歌声美化程度,以及实现了对歌声的实时美化。通过对音高进行修正,解决了唱歌跑调的问题,实现了对歌声的美化,进而在改变音高的同时,保持音色特征不变。
  • 歌声美化方法装置计算机设备存储介质
  • [发明专利]音频处理方法、装置、电子设备及存储介质-CN202210510772.4有效
  • 赵情恩 - 北京百度网讯科技有限公司
  • 2022-05-11 - 2023-10-03 - G10L21/013
  • 本公开提供了一种音频处理方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及语音技术领域。具体实现方案为:从原始音频获取第一目标特征向量,其中,第一目标特征向量用于表征原始音频的内容特征;从待迁移音频获取第二目标特征向量和第三目标特征向量,其中,第二目标特征向量用于表征待迁移音频的风格韵律特征,第三目标特征向量用于表征待迁移音频的说话人特征;对第一目标特征向量、第二目标特征向量和第三目标特征向量进行声谱解码处理,得到目标声谱特征;将目标声谱特征转换成目标音频。
  • 音频处理方法装置电子设备存储介质
  • [发明专利]基于对抗学习的说话人语音转换方法及相关设备-CN202011632876.X有效
  • 梁爽;缪陈峰;马骏;王少军 - 平安科技(深圳)有限公司
  • 2020-12-31 - 2023-09-22 - G10L21/013
  • 本发明涉及数据处理技术领域,提供一种基于对抗学习的说话人语音转换方法、装置、计算机设备及存储介质,包括:预处理训练数据,得到MFCC特征与基频特征;输入MFCC特征与基频特征至初始说话人语音转换模型进行训练;调用对抗算法训练内容编码器与内容判别器,直至达到纳什均衡状态;获取域判别器的总损失函数,并检测总损失函数是否收敛;当检测结果为总损失函数收敛时,确定目标说话人语音转换模型;获取待转换音频与目标音频,并调用内容编码器处理待转换音频,得到目标内容编码,调用属性编码器处理目标音频,得到目标属性编码;输入目标内容编码与目标属性编码至生成器,得到转换后的说话人语音。本发明能够提高说话人语音转换的效率与质量。
  • 基于对抗学习说话人语转换方法相关设备
  • [发明专利]一种基于说话人对抗子网络的语音转换方法-CN202310314078.X在审
  • 陈牧图;夏宇闻;祁泽源;龚剡驿;纪科旭;罗姝雯;谢跃 - 南京工程学院
  • 2023-03-28 - 2023-09-19 - G10L21/013
  • 本发明公开了一种基于说话人对抗子网络的语音转换方法。本发明通过在将说话人对抗子网络嵌入至语音转换模型StarGAN‑VC2中,提出了添加说话人对抗子网络辅助特征解码的策略,并融合了说话人对抗损失函数与生成器损失函数,使得二者在对抗中提高编码器的说话人身份信息去除效果,同时为了更好地适应语音转换任务,引入了自适应实例归一化算法辅助特征解码,能够有效的提升语音转换的质量以及说话人相似度,因此,使得语音在转换过程中,具有检验与反馈机制,非语义特征剔除彻底,可以在保持多对多的非平行语料转换方法优越性的前提下,创造出一个说话人身份信息去除辅助与验证机制,语音转换效果好,具有良好的应用前景。
  • 一种基于说话对抗网络语音转换方法
  • [发明专利]音频信号处理方法、装置、电子设备及存储介质-CN201910955139.4有效
  • 朱睿;黄俊;王燕南 - 腾讯科技(深圳)有限公司
  • 2019-10-09 - 2023-09-15 - G10L21/013
  • 本申请实施例提供了一种音频信号处理方法、装置、电子设备及存储介质,涉及信息处理技术领域。该方法包括:获取用户所录制的待处理音频信号;提取待处理音频信号的音频特征;获取待处理音频信号的原声音频信号的标准音频特征,原声音频信号包括原声声音信号和背景音频信号;基于待处理音频信号的音频特征和标准音频特征,对待处理音频信号进行修正处理,得到修正后的音频信号。本申请技术方案利用易于获取的原声音频信号的标准音频特征,对待处理音频信号进行修正处理,从而实现了对用户所录制的音频的美化,不依赖干声模版,扩大了声音美化技术的适用范围,避免了人工标注出现的错误,提升了音频美化的效果。
  • 音频信号处理方法装置电子设备存储介质
  • [发明专利]一种语音转换说话人溯源方法及装置-CN202310236391.6在审
  • 任延珍;朱洪承;翟黎明;孙宗锟;沈茹冰;王丽娜 - 武汉大学
  • 2023-03-10 - 2023-08-29 - G10L21/013
  • 本发明公开了一种语音转换说话人溯源方法及装置。针对语音转换技术在实际应用过程中滥用时难以主动追溯源说话人身份的问题,本发明设计了一个基于异步VAE‑Glow的追溯方法,既能在语音转换过程中并行隐藏源说话人身份,又能从压缩的转换语音中准确地恢复隐藏的源说话人身份甚至原始语音。本方法可与任意的语音转换框架集成并用于各类社交媒体和语音通话应用中,在不影响转换语音质量的前提下实现说话人身份的隐藏和溯源,在面临大范围比特率(16~128kbps)的主流音频和语音压缩标准(如AAC、MP3、Opus和SILK)时仅凭0.74s的语音就能实现接近100%的溯源准确率。
  • 一种语音转换说话溯源方法装置

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top