[发明专利]一种基于卷积自编码模型的唇部特征提取方法在审
申请号: | 201910437384.6 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110163156A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 陈志;周松颖;岳文静;周传;陈璐;刘玲;江婧;任杰 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G10L15/25 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈国强 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于卷积自编码模型的唇部特征提取方法,该发明首先通过对用户输入的视频逐帧提取唇部区域;然后对每帧唇部区域图像进行处理;处理完成后利用卷积自编码模型来提取唇部区域图像特征,最后将特征输入到LSTM进行训练,LSTM根据输入的特征对单词进行分类,从而完成对唇部的读取。本发明通过对唇部图像的压缩与重构,有助于帮助我们从唇部图像中提取视觉特征,从而得到更准确的潜在表示空间,能够有效提升唇读的准确性与可靠性。 | ||
搜索关键词: | 唇部 唇部区域 自编码 卷积 特征提取 图像 读取 视觉特征 视频逐帧 特征输入 图像特征 唇读 重构 单词 压缩 分类 帮助 | ||
【主权项】:
1.一种基于卷积自编码模型的唇部特征提取方法,其特征在于,包括以下步骤:步骤1)输入一个视频,所述视频为带有唇部区域的单人说话视频,逐帧提取视频中的唇部区域图像;步骤2)当每帧唇部区域图像被提取出来后,对每帧图像进行灰度化处理,给每个视频附加黑帧,使得视频中的帧数恒定;步骤3)通过使用卷积自编码模型来对步骤2)中处理过后的唇部区域图像进行特征提取,所述卷积自编码模型包括通过利用输入层与输出层之间的映射关系实现样本重构,其中输入层和输出层具有相同规模;步骤31)令输入层x={x1,x2,...,xm},输出层
所述x代表输入数据,
代表输出数据,1,2,…m代表输入层和输出层的节点个数;步骤32)初始化H个卷积核,每个卷积核搭配一个偏置b,与输入数据x进行卷积后生成k个特征图h,公式如下:hk=f(x*wk+bk),其中:*表示二维卷积运算,w表示连接权重,f(.)表示激活函数;步骤33)对特征图h进行池化操作,保留池化时的位置关系的矩阵,方便之后反池化的操作;步骤34)对特征图h进行反池化操作,用到保留池化时的位置关系的矩阵,将数据还原到原始大小的矩阵的相应位置;步骤35)每张特征图h与其对应的权矩阵的转置进行卷积操作并将结果求和,然后加上偏置c,输出数据为:
其中:
表示第k个特征图的权矩阵wk的转置;步骤36)确定损失函数来更新权值,此处采用最小均方差函数,公式如下:
所述最小均方差函数是用输出数据减去输入数据的平方和再求均值,
表示第i个输出数据,xi,i∈[1,n]表示第i个输入数据,i表示n中的一个数值,n表示取m中节点个数n个,2n是为了简化求导;步骤37)当确定损失函数后,对w和b求导,通过梯度下降法调整权重参数最小化重构误差,目标函数梯度值公式如下:
δhk指卷积层的k个特征图h的残差,
指解码层的残差,
指k个特征图h的转置,*指二维卷积运算;步骤4)当训练好卷积自编码模型后,丢弃卷积解码器,使用卷积编码器获取视频的每一帧特征;步骤5)当获取到每个帧的特征时,对LSTM进行训练,所述LSTM为长短期记忆网络,包括输入门、遗忘门和输出门;步骤51)将特征输入到LSTM进行训练,LSTM根据输入的特征输出概率以对单词进行分类;步骤52)经过步骤4)提取唇部图像的每一帧特征
所述
表示第j帧的特征,T表示这段视频的总帧数,N表示
维度,j表示唇部图像的第j帧,R表示向量空间;步骤53)使用LSTM完成一个输入序列到输出类别的映射:
输入序列
为唇部图像的每一帧特征,输出类别y~T为在T时刻对说话内容的预测值;步骤54)输入特征经过第1层LSTM层,输出为h1∈RN'×T,所述N'为隐藏层的节点个数;步骤55)经过第2层LSTM层,输出为h2∈RN'×T;步骤56)在LSTM最后一层,最后一层设为第L层,最后一个时间点输出为
步骤57)使用softmax将
映射为预测值
的分布
所述softmax表示归一化指数函数,C表示预测值的取值范围,c'表示预测值中的一种取值,Wzy为softmax权值,softmax损失函数使用交叉熵函数作为损失函数
其中:yz=1表示该段视频的唇语的标签为第z类,yz=0表示该段视频的唇语的标签不为第z类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910437384.6/,转载请声明来源钻瓜专利网。