[发明专利]一种基于条件生成对抗网络的声音预测人脸方法在审
| 申请号: | 202110273900.3 | 申请日: | 2021-03-15 |
| 公开(公告)号: | CN112906815A | 公开(公告)日: | 2021-06-04 |
| 发明(设计)人: | 许曼玲;戴宪华 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00;G10L25/30;G10L25/48 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 条件 生成 对抗 网络 声音 预测 方法 | ||
1.一种基于条件生成对抗网络的声音预测人脸方法,其特征在于,所述预测方法包括下列步骤:
S1、数据构建,采集声音数据,进行数据清洗并根据说话者年龄及性别标注制作one-hot标签编码,其中,标签共包括4类年龄属性和2类性别属性;采集人脸图像数据,进行数据清洗并根据人脸的年龄及性别标注制作one-hot标签编码,保持声音标签数据与人脸标签数据制作规则的一致性;
S2、设计及训练声音分类网络模型,该网络模型分为三个子网络,分别为提取声音大尺度特征的梅尔频谱转化网络、对声音特征进行特征识别的预训练resnet50网络、根据识别出的特征对声音数据进行分类的全连接网络;以经过数据处理的声音数据作为输入,优化该网络的分类输出与声音标签编码之间的相似度,实现声音分类网络模型的收敛;
S3、设计及训练人脸生成网络,该网络由预训练的CGAN网络构成,以随机种子及人脸标签数据为输入,使得CGAN网络的生成器与鉴别器在博弈中达到平衡,实现人脸生成网络的收敛;
S4、模型预测,将声音数据经过预处理后输入声音分类网络,获得对应的标签编码;将标签编码输入人脸生成网络,获得预测的说话者人脸图像输出。
2.如权利要求1所述的一种基于条件生成对抗网络的声音预测人脸方法,其特征在于,所述步骤S1中声音数据采集Common Voice开源数据集中汉语(中国大陆)声音数据,该数据集包含原始的年龄、性别标注;人脸图像数据采集UTKface开源数据集中亚裔人脸数据,该数据集包含原始的年龄、性别标注。
3.如权利要求1所述的一种基于条件生成对抗网络的声音预测人脸方法,其特征在于,所述步骤S1中数据清洗步骤包括:清除无声声音片段;清除标注残缺的声音数据及人脸图像数据;裁剪声音数据使其时间长度统一。
4.如权利要求1所述的一种基于条件生成对抗网络的声音预测人脸方法,其特征在于,所述步骤S1中one-hot标签编码分为八种情况,分别为:男性小于19岁、男性19-29岁、男性30-39岁、男性大于40岁、女性小于19岁、女性19-29岁、女性30-39岁、女性大于40岁,将其分别编码为(00000001,00000010,00000100,00001000,00010000,00100000,01000000,10000000)。
5.如权利要求1所述的一种基于条件生成对抗网络的声音预测人脸方法,其特征在于,所述步骤S2过程如下:首先以经过处理的声音数据作为输入,利用梅尔频谱转化网络提取声音的梅尔频谱特征;接着将特征频谱输入预训练的resnet50网络,得到声音的特征识别;最后将resnet50网络的输出经过处理后输入全连接网络,得到声音分类标签;优化最终输出的声音分类标签与one-hot编码标签的相似度,更新分类网络的权重。
6.如权利要求1所述的一种基于条件生成对抗网络的声音预测人脸方法,其特征在于,所述步骤S3过程如下:以随机噪声及人脸标签数据为CGAN网络生成器的输入,输出为随机人脸图像;将该随机人脸图像及人脸标签数据、真实人脸图像数据作为CGAN网络鉴别器的输入,输出值用于判定生成器生成的图像是否为真实图像、是否符合标签数据要求;同时训练生成器与鉴别器,更新网络权重;待网络稳定后取生成器为人脸生成为网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110273900.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:水果速溶茶及其制备方法
- 下一篇:一种重金属污染土壤修复剂和修复方法





