[发明专利]一种视听伪造检测方法及装置有效
申请号: | 202210062374.0 | 申请日: | 2022-01-19 |
公开(公告)号: | CN114596609B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 赫然;黄怀波;刘晨雨;李佳;段俊贤 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06F18/24;G06F18/22;G06V10/75 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 刘亚平 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视听 伪造 检测 方法 装置 | ||
本发明提供一种视听伪造检测方法及装置,该方法包括:获取待测视频数据;其中,待测视频数据包括至少两个视频帧,每个视频帧均包括至少一组由人脸图像和音频数据组成的视听对;将各视听对输入至训练好的双流网络,得到待测视频数据的伪造检测结果;其中,双流网络包括图像网络分支、音频网络分支和预测网络;图像网络分支用于提取人脸图像的面部关键点特征,并基于面部关键点特征提取人脸图像的帧间一致性特征;音频网络分支用于提取音频数据的音频特征,并基于音频特征提取音频数据的时间一致性特征;预测网络基于帧间一致性特征和时间一致性特征获取待测视频数据的伪造检测结果。本发明能够全面准确地对待测视频数据进行真伪检测。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种视听伪造检测方法及装置。
背景技术
最近几年来,深度学习的快速发展使得人们可以利用神经网络尤其是生成对抗网络生成高可信度的伪造视频,导致单从人类视觉上难以分辨。所以伪造产品在社交媒体上传播的安全问题逐渐成为社会关注的热点,如何提出一种高效的伪造检测策略显得十分重要。
以往的伪造检测工作大多是捕捉视频帧内的伪影。随着伪造技术的不断完善,这类伪造检测方法的缺点或者所依赖的线索被逐渐攻克。
传统伪造方法生成的伪造视频大多是按帧处理。帧间的不协调性很容易就可以被人眼识破。然而,现在基于学习的deepfake,尤其是对抗生成网络生成的视频具有较高的真实性,造成现有伪造检测方法无法对待测视频数据进行准确有效地检测。
发明内容
本发明提供一种视听伪造检测方法及装置,用以解决现有技术中无法对待测视频数据进行准确有效地检测的缺陷,实现伪造检测准确性地有效提高。
本发明提供一种视听伪造检测方法,包括:
获取待测视频数据;其中,所述待测视频数据包括至少两个视频帧,每个所述视频帧均包括至少一组由人脸图像和音频数据组成的视听对;
将各所述视听对输入至训练好的双流网络,得到所述待测视频数据的伪造检测结果;
其中,所述双流网络包括图像网络分支、音频网络分支和预测网络;
所述图像网络分支用于提取所述人脸图像的面部关键点特征,并基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
所述音频网络分支用于提取所述音频数据的音频特征,并基于所述音频特征提取所述音频数据的时间一致性特征;
所述预测网络用于基于所述人脸图像的帧间一致性特征和所述音频数据的时间一致性特征获取所述待测视频数据的伪造检测结果。
根据本发明提供的一种视听伪造检测方法,所述图像网络分支包括依次连接的第一特征提取网络和帧间一致性提取模块;所述音频网络分支包括依次连接的第二特征提取网络和时间一致性提取模块;
所述第一特征提取网络和所述第二特征提取网络分别用于提取所述人脸图像的面部关键点特征和所述音频数据的音频特征;
所述帧间一致性提取模块用于基于所述面部关键点特征提取所述人脸图像的帧间一致性特征;
所述时间一致性提取模块用于基于所述音频特征提取所述音频数据的时间一致性特征;
其中,所述第一特征提取网络和所述第二特征提取网络分别基于样本数据集中人脸图像的帧内一致性损失和音频数据的内部一致性损失进行训练。
根据本发明提供的一种视听伪造检测方法,所述第一特征提取网络包括依次连接的人脸及关键点检测网络和关键点校正网络;其中,
所述人脸及关键点检测网络用于对所述人脸图像进行人脸检测,并对所述人脸检测结果进行关键点检测,得到面部初始关键点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210062374.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多云场景算力网格化方法及系统
- 下一篇:一种神经外科用脊柱手术托架装置