[发明专利]一种情感化的音频生成方法和装置在审

申请号：	202110034593.3	申请日：	2021-01-11
公开（公告）号：	CN112837700A	公开（公告）日：	2021-05-25
发明（设计）人：	黄家鸿	申请（专利权）人：	网易（杭州）网络有限公司
主分类号：	G10L25/60	分类号：	G10L25/60;G10L25/30;G10L13/02;G06F16/65;G06F16/68;G06N3/04;G06N3/08
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	吴文心
地址：	310052 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种情感音频生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种情感化的音频生成方法及装置，通过获取目标音频，并确定该目标音频对应的目标特征向量，然后将该目标特征向量输入音频生成模型中，生成针对目标音频的情感音频，其中，音频生成模型可以为根据音频数据的音色特征、情感特征以及音频内容等训练得到的模型，通过该音频生成模型可以生成与该同一音频关联，且带有不同“情绪”的情感音频，不仅丰富了情感音频的类型，而且可以避免了混淆不同用户之间的音色问题，保证了音频生成质量。

技术领域

本发明涉及语音技术领域，特别是涉及一种情感化的音频生成方法和一种情感化的音频生成装置。

背景技术

随着人工智能技术的发展，科技人员在图像、音频等领域取得了巨大的突破。在音频领域，人机对话一直是个比较热门的研究方向，有比较多的产品落地，如苹果公司的终端语音助手Siri，微软公司的语音助手小冰等。其中，语音生成(Text To Speech，TTS)技术是这些产品能够实现的一项关键技术。

在游戏领域中，可以采用TTS技术对游戏技能或者NPC(Non-Player Character，非玩家角色)与玩家之间交互等。随着用户对人工智能的期望越来越高，用户期望机器生成的音频能够有情绪化的表现，例如带有“生气”、“焦虑”、“高兴”、“厌烦”等情绪出现，而不是机械性的音频播放。

发明内容

本发明实施例是提供一种情感化的音频生成方法，以解决或部分现有技术中无法生成带有情感化的音频以及情感音频类型不丰富的问题。

相应的，本发明实施例还提供了一种情感化的音频生成装置，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种情感化的音频生成方法，包括：

获取目标音频；

确定所述目标音频对应的目标特征向量；

将所述目标特征向量输入预设的目标音频生成模型，生成针对所述目标音频的情感音频。