[发明专利]基于生成对抗网络的语音验证码生成方法有效

申请号：	202011159897.4	申请日：	2020-10-27
公开（公告）号：	CN112287323B	公开（公告）日：	2022-10-21
发明（设计）人：	高海昌;王萍;袁忠妮;郭晓妍	申请（专利权）人：	西安电子科技大学
主分类号：	G06F21/36	分类号：	G06F21/36;G06N3/04;G06N3/08
代理公司：	陕西电子工业专利中心 61205	代理人：	陈宏社;王品华
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于生成对抗网络语音验证方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于生成对抗网络的语音验证码生成方法，其特征在于，包括以下步骤：

(1)获取训练样本集、测试样本集和帧序列集：

(1a)从第三方开源平台获取N个原始语音验证码的音频文件，若音频文件的格式不是wav，则将其格式转换为wav，并对每个wav格式的音频文件首尾的噪音部分进行裁剪，得到音频文件集X＝{X₁,X₂,...,X_n,...,X_N}，其中N≥1200，X_n表示第n个裁剪后的长度为L_n的音频文件；

(1b)任选I个音频文件作为训练样本集，将其余N-I个音频文件作为测试样本集，其中

(1c)设分帧的帧数为M，F为分帧的帧长，K为帧移，并对每个音频文件X_n进行分帧，若X_n不足M帧，以P_n为长度对其末尾补零，得到N个音频文件分帧结果组成的帧序列集X'＝{X₁',X'₂,...,X'_n,...,X'_N}，其中X'_n表示X_n分帧后的包括M个音频向量的帧序列

(2)构建语音验证码生成网络模型A2Captcha：

构建包括生成对抗网络GAN和目标语音识别系统ASR的语音验证码生成网络模型A2Captcha，其中生成对抗网络GAN包括生成器网络G以及与其级联的判别器网络D，G采用包含多个卷积层、多个残差块和多个转置卷积层的卷积神经网络，G的损失函数为L_G，D采用包含全连接层和多个卷积层的卷积神经网络，D的损失函数为L_D，ASR与G级联，采用包括开源的Deepspeech以及开源的Lingvo的自动语音识别系统，其中：

L_G＝L_adv+α₁L_g+α₂L_TVD

其中L_adv表示对抗损失函数，S表示每次迭代训练时用到的训练样本的数目，l_f()表示交叉熵损失函数，表示第s个带有对抗扰动噪声的语音验证码样本，表示ASR对识别的Deepspeech识别结果，表示ASR对识别的Lingvo识别结果，t_fake表示目标转录标签，L_g表示内置损失函数，D()表示判别器网络D的输出结果，L_TVD表示全变分去噪损失函数，ω为L_TVD的损失权重参数，α₁、α₂为L_G损失权重系数，λ为L_D的梯度惩罚权重参数；

(3)对语音验证码生成网络模型A2Captcha进行迭代训练：

(3a)初始化生成器网络G的权重参数为θ_G，判别器网络D的权重参数为θ_D，迭代次数为q，最大迭代次数为Q，Q≥50000，并令q＝0；

(3b)将从X'中随机选取的S个帧序列X′_train＝{X₁',X'₂,...,X'_s,...,X'_S}作为语音验证码生成网络模型A2Captcha的输入进行前向推进，生成器网络G对每个帧序列X'_s中的每个音频向量进行特征变换，得到对抗扰动噪声序列Z′_train＝{Z′₁,Z'₂,...,Z′_s,...,Z'_S}，其中1≤S＜I，Z′_s表示X'_s对应的对抗扰动噪声序列，表示对应的对抗扰动噪声向量；

(3c)按照m从小到大的次序将Z′_s中所有对抗扰动噪声向量进行连接，实现对Z′_s的音频合并，得到对抗扰动噪声音频集Z_train＝{Z₁,Z₂,...,Z_s,...Z_S}，其中Z_s表示Z′_s对应的对抗扰动噪声音频；

(3d)判断Z_train中是否存在对抗扰动噪声音频对应的音频文件的末尾进行了补零，若是，将该对抗扰动噪声音频末尾补零的长度置零，并将Z_s添加到对应的音频文件X_s中，得到带有对抗扰动噪声的语音验证码样本集其中表示X_s对应的带有对抗扰动噪声的语音验证码样本；

(3e)将X_train和作为判别器网络D_q的输入进行前向传播，分别提取X_train和中每一个X_s和的特征，并将X_s标记为1，将标记为0，得到S个音频文件的预测标签D_q(X_train)＝{D_q(X₁),D_q(X₂),...,D_q(X_s),...,D_q(X_S)}和S个带有对抗扰动噪声的语音验证码样本的预测标签

(3f)将作为目标语音识别系统ASR的输入进行识别，得到Deepspeech识别结果集和Lingvo识别结果其中表示的Deepspeech识别结果，表示的Lingvo识别结果；

(3g)采用对抗损失函数L_adv，通过t_fake、f_Deepspeech和f_Lingvo计算生成器网络G对抗损失L_adv的损失值同时采用内置损失函数L_g，通过D_q(X_train)和中所有的预测标签计算生成器网络G内置损失L_g的损失值采用全变分去噪损失函数L_TVD，通过和X_train计算生成器网络G的全变分去噪损失L_TVD的损失值并通过和计算生成器网络G损失函数L_G的损失值然后采用梯度下降法，通过对生成器网络G_q各层的权重参数θ_G进行更新；

(3h)采用损失函数L_D，通过D_q(X_train)和中所有的预测标签计算判别器网络D的损失值然后采用梯度下降法，通过对生成器网络D_q各层的权重参数θ_D进行更新；

(3i)判断q＝Q是否成立，若是，得到训练好的语音验证码生成网络模型A2Captcha^*，否则，令q＝q+1，并执行步骤(3b)；

(4)获取语音验证码的生成结果：

(4a)将测试样本集中的所有测试样本X_test＝{X₁,X₂,...,X_j,...,X_N-I}和其对应的分帧后的帧序列集X′_test＝{X₁′,X'₂,...,X'_j,...,X'_N-I}作为训练好的语音验证码生成网络模型A2Captcha^*的输入并前向推进，生成器网络G^*对X′_test中的每一帧X'_j的每个音频向量进行特征转换，得到对抗扰动噪声序列Z′_test＝{Z′₁,Z'₂,...,Z'_j,...,Z'_N-I}，Z'_j表示X'_j对应的对抗扰动噪声序列，表示对应的对抗扰动噪声向量；

(4b)按照m从小到大的次序将Z'_j中所有对抗扰动噪声向量进行连接，实现对Z'_j的音频合并，得到对抗扰动噪声音频集Z_test＝{Z₁,Z₂,...,Z_j,...Z_N-I}，其中Z_j表示Z'_j对应的对抗扰动噪声音频；

(4c)判断Z_test中是否存在对抗扰动噪声音频对应的音频文件的末尾进行了补零，若是，将该对抗扰动噪声音频末尾补零的长度置零，并将Z_j添加到对应的音频文件X_j中，得到语音验证码集其中表示X_j对应的语音验证码。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011159897.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种中央处理器物理信号电气特性测试装置、系统及方法
下一篇：一种黄瓜的保鲜贮藏方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于生成对抗网络的语音验证码生成方法有效

专利文献下载