[发明专利]一种基于解耦表示学习的说话人脸视频生成方法有效
申请号: | 202010420200.8 | 申请日: | 2020-05-18 |
公开(公告)号: | CN111666831B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 熊盛武;林承德;路雄博;陈燚雷;刘锋;陈如意;曹丹凤 | 申请(专利权)人: | 武汉理工大学;武汉水象电子科技有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06V10/764;G10L25/63 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 表示 学习 说话 视频 生成 方法 | ||
1.一种基于解耦表示学习的说话人脸视频生成方法,其特征在于,该方法包含如下步骤:
步骤一,通过分类对抗的解耦表示学习方法从说话视频Video中提取说话人物的视频人物身份特征、视频语音特征以及视频情绪特征,实现说话人脸视频关键特征的解耦;
步骤二,通过分类对抗的解耦表示学习方法从说话音频Audio中提取说话人的音频人物身份特征、音频语音特征以及音频情绪特征,实现音频关键特征的解耦;
步骤三,使用对偶学习模型实现音频语音特征和视频语音特征这两个不同隐空间的相互映射,并使用对偶学习模型实现音频情绪特征和视频情绪特征这两个不同隐空间的相互映射;
步骤三的具体实现方式如下,
假设A和V分别为音频语音特征和视频语音特征,其中音频语音特征记为视频语音特征记为则对偶对抗生成模型DualGAN的损失函数结构如下:
假设生成器G将生成生成结果记为则其损失函数:
其中,表示v采样于说话视频中的语音特征Dv为视频语音真假判别器,表示a采样于音频中的语音特征G(a)表示由a生成
假设生成器F将生成则其损失函数:
其中,Da为音频语音真假判别器,F(v)表示生成器将生成
对偶一致性损失函数
最终DualGAN的损失函数如下:
L(G,F,DA,DV)=LGAN(G,Dv,A,V)+LGAN(F,Da,V,A)+λLDual(G,F)
其中,λ表示权重,取值0~0.5;
同理,利用对偶学习模型完成音频情绪特征到视频情绪特征的转换,转换结果记为
步骤四,最后联合视频人物身份特征、映射到该空间的音频语音特征及音频情绪特征,共同生成说话人脸视频。
2.根据权利要求1所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:
所述步骤二分类对抗的解耦表示学习方法,包括3个编码器以及6个分类器,对于输入视频,第一阶段:先固编码器,训练更新分类器对编码器输出的视频人物身份特征进行视频语音及视频情绪分类;然后固定该分类器,训练更新编码器,使其输出的视频人物身份特征无法对视频样本进行视频语音及视频情绪的分类,从而迫使编码器学习出不包含视频语音特征及视频情绪特征的干净视频人物身份特征;第二阶段:先固编码器,训练更新分类器对编码器输出的视频语音特征对视频样本进行人物身份及视频情绪的分类;然后固定该分类器,训练更新编码器,使其输出的视频语音特征无法对视频样本进行人物身份及视频情绪的分类,从而迫使编码器学习出不包含视频人物身份特征及视频情绪特征的干净视频语音特征;第三阶段:先固编码器,训练更新分类器对编码器输出的视频情绪特征进行视频语音及视频人物身份分类;然后固定该分类器,训练更新编码器,使其输出的视频情绪特征无法对视频样本进行视频语音及视频人物身份的分类,从而迫使编码器学习出不包含视频语音特征及视频人物身份特征的干净视频情绪特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学;武汉水象电子科技有限公司,未经武汉理工大学;武汉水象电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010420200.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种农业用甘蔗搅碎榨汁装置
- 下一篇:一种船用电泵的系统总成及其工作方法