[发明专利]一种基于双判别器生成对抗网络的唇语识别方法及装置有效
申请号: | 202110772322.8 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113239902B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 刘丽;张成伟;张雪毅;薛桂香;赵雨 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06T17/00;G06N3/04 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 曾志鹏 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 判别 生成 对抗 网络 识别 方法 装置 | ||
1.一种基于双判别器生成对抗网络的唇语识别方法,其特征在于,包括以下步骤:
从视频中导出不同角度的人脸图片,根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集;
根据所述唇部多角度数据集得到生成器数据集,并从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集;
训练所述生成器数据集、身份判别器数据集、角度判别器数据集得到对抗网络数据模型,训练所述角度分类数据集得到角度分类器;
利用所述角度分类器对待识别的视频进行唇语识别,得到第一唇部图像,利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像;
从所述0°唇部图像提取唇部特征向量,对所述唇部特征向量进行建模分类,得到唇部分类结果,根据所述唇部分类结果导出识别语言;
生成对抗网络模型包含一个生成器,一个身份判别器,一个角度判别器;
生成器是以带有偏转的唇部图像为输入,输出转换后的唇部图像的网络模型;
身份判别器以身份判别器数据集的成对的两张身份相同或身份不同的图片为输入,经卷积后得到身份特征向量,再将所述身份特征向量拼接在一起,经过全连接网络计算后得到一个身份数值,所述身份数值表示身份判别器对身份属性差异的评分;
角度判别器以角度判别器数据集的成对的两张身份相同,角度不同的图片为输入,经卷积后得到角度特征向量,将所述角度特征向量拼接在一起,经过全连接网络计算后得到一个角度数值,所述角度数值表示角度判别器对角度属性差异的评分。
2.根据权利要求1所述的基于双判别器生成对抗网络的唇语识别方法,其特征在于,所述从视频中导出不同角度的人脸图片,根据所述人脸图片中不同的头部偏转角度得到唇部多角度数据集,包括:
将视频中人脸图片按照不同角度进行的每一帧拆分,得到每一帧的正视图,左视图,右视图组成的三视图图片;
使用人脸建模工具和所述三视图图片对每一帧面部图像进行人脸建模,导出人脸模型;
对所述人脸模型的不同角度对应的视图,使用标注工具标注特征点,定位唇部区域,裁切出唇部区域,得到唇部多角度数据集。
3.根据权利要求1所述的基于双判别器生成对抗网络的唇语识别方法,其特征在于,所述根据所述人脸图片得到生成器数据集,从所述唇部多角度数据集分别提取得到身份判别器数据集、角度判别器数据集、角度分类数据集,包括:
使用头部姿态估计算法对所述唇部多角度数据集的人脸进行处理,得到人脸的偏转角度;
根据所述唇部多角度数据集中的随机选取不同的人脸图片,并标记每张人脸图片的说话者身份和偏转角度;
从所述唇部多角度数据集的人脸身份提取身份判别器数据集,从所述唇部多角度数据集中头部偏转角度提取角度判别器数据集,从所述唇部多角度数据集的人脸角度提取角度分类数据集。
4.根据权利要求1所述的基于双判别器生成对抗网络的唇语识别方法,其特征在于,所述利用所述角度分类器对待识别的视频进行唇语识别,得到第一唇部图像,利用所述对抗网络数据模型转换所述第一唇部图像得到0°唇部图像,包括:
待识别的视频分离出人脸的图片输入到角度分类器,得到第一唇部图像,并对所述第一唇部图像进行估算,得到待识别人脸偏转的角度;
通过所述对抗网络数据模型构建6个一级转换器,利用所述一级转换器对所述待识别人脸偏转的角度进行一级转换,得到0°唇部图像、±20°唇部图像、±40°唇部图像;
利用所述角度判别器数据集、身份判别器数据集、生成器数据集构建二级转换器,将±20°唇部图像、±40°唇部图像转换为0°唇部图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110772322.8/1.html,转载请声明来源钻瓜专利网。