[发明专利]一种基于改进的生成式对抗网络的图像语句转换方法在审

申请号：	201710598010.3	申请日：	2017-07-20
公开（公告）号：	CN107392147A	公开（公告）日：	2017-11-24
发明（设计）人：	蔡强;薛子育;毛典辉;李海生;祝晓斌	申请（专利权）人：	北京工商大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04
代理公司：	北京科迪生专利代理有限责任公司11251	代理人：	安丽
地址：	100048***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于改进生成对抗网络图像语句转换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于改进的生成式对抗网络的图像语句转换方法，其特征在于，包括以下步骤：

(1)利用基于区域的卷积神经网络对图像进行显著性检测，对检测部分进行分析，产生词向量；

(2)利用生成式对抗网络中的生成器对步骤(1)中产生的词向量进行拼接，所述生成器利用两个长短时记忆模型，即句子模型和词汇模型，句子模型根据词向量不断生成句子；词汇模型将根据语境优化句子中的单词，使之更符合人类的表达习惯；

(3)利用生成式对抗网络中的鉴别器对步骤(2)生成的句子进行结构分析，同时学习语料库中的对比语句，对生成语句中的词汇与语料库语句中的词汇一一检查，利用欧氏距离计算词汇相似程度即相似度，使得该相似度计算值满足设定阈值，则所生成语句通过混淆鉴别器，获得了输出语句；

(4)利用步骤(2)中的生成器和步骤(3)中的鉴别器形成生成式对抗网络，沿着梯度下降最快的方向，在避免梯度消失的基础上对网络进行训练，通过在生成器训练过程中设置检测点，使生成器生成的语句，足以蒙骗鉴别器的鉴别效果，将所述语句进行输出。

2.根据权利要求1所述的基于改进的生成式对抗网络的图像语句转换方法，其特征在于：在步骤(1)中基于区域的卷积神经网络对图像进行显著性检测所涉及的计算方式为：

其中，θ_C是CNN模型的参数，W_M是h×4096维的矩阵，h是多通道嵌入空间的大小，I_p表示图像的像素点；

输入的每张图像转换成具有N个词的序列，用编码为h维的向量，对图像中出现的各个显著性区域对应产生词向量。

3.根据权利要求1所述的基于改进的生成式对抗网络的图像语句转换方法，其特征在于：在步骤(2)生成式对抗网络中的生成器中长短时记忆模型所涉及的计算公式为：

yt=soft max{Woh*f(Whxxt+Whhht-1+bh+Whi[CNNθC(i)])+bo}]]>

其中，W_hi，W_hx，W_hh，W_oh，x_i以及b_h，b_o都是需要学习的参数，是所有网络的最后一层，y_t是生成器输出尽可能接近语料库中句子分布的句子；

该过程利用句子模型和词汇模型将利用CNN模型提取出的向量生成的经过优化的句子，作为鉴别器的输入。

4.根据权利要求1所述的基于改进的生成式对抗网络的图像语句转换方法，其特征在于：在步骤(4)生成式对抗网络生成器和鉴别器的训练过程中所涉及的计算公式为：

min maxG,DSC(G,DS)=ES^~S[DS(S^)]-ES^~S1:t[DS(S^)]]]>

其中，GAN的目标函数为是语料库中句子的子集，S，S_1:t是CNN模型的参数，W_M是h×4096维的矩阵,h是多通道嵌入空间的大小，I_p表示图像的像素点，E(·)表示计算期望值，每张图像转换成具有N个词的序列，可以用编码为h维的向量；

在训练过程中，生成器G的目标就是尽量生成与原始数据接近的结果去欺骗鉴别器D；而D的目标就是尽量把G生成的结果和真实数据区分开来，直到生成器和鉴别器达到平衡输出分布接近真实语料库的句子，生成器的目标计算方式为：

其中，γ为平衡参数实现时一般设置为接近0的值，生成式对抗网络的优化过程依赖于生成器与语料库语句中的词汇进行检查利用欧氏距离计算词汇相似程度，使得该距离满足设定阈值，则所生成语句通过混淆鉴别器。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工商大学，未经北京工商大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710598010.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载