[发明专利]一种情感化的音频生成方法和装置在审
| 申请号: | 202110034593.3 | 申请日: | 2021-01-11 |
| 公开(公告)号: | CN112837700A | 公开(公告)日: | 2021-05-25 |
| 发明(设计)人: | 黄家鸿 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
| 主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/30;G10L13/02;G06F16/65;G06F16/68;G06N3/04;G06N3/08 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 吴文心 |
| 地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 情感 音频 生成 方法 装置 | ||
本发明实施例提供了一种情感化的音频生成方法及装置,通过获取目标音频,并确定该目标音频对应的目标特征向量,然后将该目标特征向量输入音频生成模型中,生成针对目标音频的情感音频,其中,音频生成模型可以为根据音频数据的音色特征、情感特征以及音频内容等训练得到的模型,通过该音频生成模型可以生成与该同一音频关联,且带有不同“情绪”的情感音频,不仅丰富了情感音频的类型,而且可以避免了混淆不同用户之间的音色问题,保证了音频生成质量。
技术领域
本发明涉及语音技术领域,特别是涉及一种情感化的音频生成方法和一种情感化的音频生成装置。
背景技术
随着人工智能技术的发展,科技人员在图像、音频等领域取得了巨大的突破。在音频领域,人机对话一直是个比较热门的研究方向,有比较多的产品落地,如苹果公司的终端语音助手Siri,微软公司的语音助手小冰等。其中,语音生成(Text To Speech,TTS)技术是这些产品能够实现的一项关键技术。
在游戏领域中,可以采用TTS技术对游戏技能或者NPC(Non-Player Character,非玩家角色)与玩家之间交互等。随着用户对人工智能的期望越来越高,用户期望机器生成的音频能够有情绪化的表现,例如带有“生气”、“焦虑”、“高兴”、“厌烦”等情绪出现,而不是机械性的音频播放。
发明内容
本发明实施例是提供一种情感化的音频生成方法,以解决或部分现有技术中无法生成带有情感化的音频以及情感音频类型不丰富的问题。
相应的,本发明实施例还提供了一种情感化的音频生成装置,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种情感化的音频生成方法,包括:
获取目标音频;
确定所述目标音频对应的目标特征向量;
将所述目标特征向量输入预设的目标音频生成模型,生成针对所述目标音频的情感音频。
可选地,所述确定所述目标音频对应的目标特征向量,包括:
获取所述目标音频对应的第一音色特征以及第一情绪特征;
对所述第一音色特征进行向量化映射,生成第一特征向量;
对所述第一情绪特征进行向量化映射,生成第二特征向量。
可选地,所述将所述目标特征向量输入预设的音频生成模型,生成针对所述目标用户的情感音频,包括:
将所述第一特征向量与所述第二特征向量输入预设的目标音频生成模型,生成与所述第一音色特征对应的多个第一情感音频,以及与所述第一情绪特征对应的多个第二情感音频。
可选地,所述目标音频生成模型通过如下方式生成:
获取音频训练样本,所述音频训练样本包括非情感音频样本以及初始情感音频样本;
对所述初始情感音频样本进行复制,获得目标情感音频样本;
根据所述非情感音频样本与所述目标情感音频样本,生成所述目标音频生成模型。
可选地,所述非情感音频样本包括不同用户对应的第一音频,所述目标情感音频样本包括携带不同情绪信息的第二音频,所述根据所述非情感音频样本与所述目标情感音频样本,生成所述目标音频生成模型,包括:
获取所述第一音频对应的第二音色特征,所述第二音频对应的第二情绪特征,以及所述音频训练样本对应的文本内容;
采用所述文本内容、所述第二音色特征以及所述第二情绪特征,生成所述目标音频生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110034593.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种肠胃手术检查护理台
- 下一篇:一种小型微带滤波器及其制备工艺





