[发明专利]基于声谱图及深度残差网络的音频通用隐写分析方法及系统在审
申请号: | 201910347996.6 | 申请日: | 2019-04-28 |
公开(公告)号: | CN110120228A | 公开(公告)日: | 2019-08-13 |
发明(设计)人: | 任延珍;柳登凯;熊翘楚;傅建明;王丽娜 | 申请(专利权)人: | 武汉大学 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/27;G10L19/018 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 隐写分析 声谱图 残差 通用的 算法 压缩编码标准 音频压缩标准 编码标准 分布特性 分类特征 信号提取 音频信号 音频压缩 原始信号 综合考虑 网络 通用 参数域 分析器 构建 局限 压缩 挖掘 检测 | ||
1.一种基于声谱图及深度残差网络的音频通用隐写分析方法,其特征在于,包括以下步骤:
步骤1:针对原始音频数据,进行声谱图特征提取和特征预处理,获得预处理的特征矩阵;
步骤2:对预处理的特征矩阵,送入残差网络S-ResNet,训练残差网络S-ResNet得到多个分类特征;
步骤3:利用SVM进行分类,判断是Cover还是Stego;其中,Cover表示载体音频,即未进行秘密信息嵌入的音频;Stego表示载密音频,即进行了秘密信息嵌入的音频。
2.根据权利要求1所述的基于声谱图及深度残差网络的音频通用隐写分析方法,其特征在于,步骤1中所述声谱图特征提取,具体实现包括以下子步骤:
(1)对音频信号x进行分帧操作;
(2)对每一帧音频信号加窗操作;
(3)进行快速傅里叶变换,得到音频每一帧的频率表达;
其中,xt(n)为当前帧的音频信号,t为音频帧索引;w(n)为滑动窗口函数,N表示滑动窗口的长度,采样率为fs,则k表示频率索引,频率分辨率为fs/2N;
(4)通过快速傅里叶变换得到音频每一帧的频率表达后,对其进行取绝对值操作并转换为对数表达,获得声谱图特征矩阵SP(k,t);
SP(k,t)=20×log10|Xt(k)| (式2)。
3.根据权利要求1所述的基于声谱图及深度残差网络的音频通用隐写分析方法,其特征在于:步骤1中所述特征预处理,是通过帧内一阶二阶差分以及帧间一阶二阶差分固定卷积滤波器对声谱图特征进行预处理。
4.根据权利要求1所述的基于声谱图及深度残差网络的音频通用隐写分析方法,其特征在于:步骤2中所述残差网络S-ResNet,包括10个A类型、10个B类型、10个C类型的卷积单元,其中每隔两个卷积单元进行一次shortcut残差连接;在A、B类型和B、C类型卷积单元结构过渡时,由于卷积核个数增加了一倍,特征维度减小为原来的一半,因此在shortcut过程中对样本数据进行了步长为2的池化,保证卷积操作后得到的特征图维度一致,采用zero-padding的方式对通道数进行扩充;最后经过全局池化得到40维分类特征。
5.根据权利要求4所述的基于声谱图及深度残差网络的音频通用隐写分析方法,其特征在于:每个卷积单元结构均包含批量归一化层、非线性激活函数层以及卷积层;
所述批量归一化层,用于对每一卷积层前的输入进行批量归一化使其分布保持一致以加快训练速度,对于有d维的输入x=(x(1),...,x(k),...,x(d)),批量归一化为均值为0方差为1的正态分布如公式(3);
其中,E[x(k)]表示期望,表示标准差;
在批量归一化层层后,附加一个修正线性单元(Rectified Linear Unit,ReLU)作为非线性激活函数来去掉输入信号的负数部分,ReLU的函数表达式如式(4);
f(x)=max(0,x) (式4)
所述卷积层,卷积核大小为3×3,步长为1,输入通道数与输出通道数一致,对应于三种类型的卷积单元,分别为10,20,40。
6.根据权利要求1所述的基于声谱图及深度残差网络的音频通用隐写分析方法,其特征在于,步骤3中所述利用SVM进行分类,从训练集和测试集音频切片中提取三种不同窗长声谱图通过残差网络获得3个40维特征拼接成120维特征,训练集得到的120维特征用于训练SVM分类器,基于训练好的SVM模型以及测试集的120维特征判断测试集中音频切片是否含有秘密信息。
7.一种基于声谱图及深度残差网络的音频通用隐写分析系统,其特征在于:包括声谱图特征预处理模块、残差网络S-ResNet模块、分类模块;
所述声谱图特征预处理模块,用于针对原始音频数据,进行声谱图特征提取和特征预处理,获得预处理的特征矩阵;
所述残差网络S-ResNet模块,用于对预处理的特征矩阵,送入残差网络S-ResNet,训练残差网络S-ResNet得到多个分类特征;
所述分类模块,用于利用SVM进行分类,判断是Cover还是Stego;其中,Cover表示载体音频,即未进行秘密信息嵌入的音频;Stego表示载密音频,即进行了秘密信息嵌入的音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910347996.6/1.html,转载请声明来源钻瓜专利网。