[发明专利]一种基于卷积循环混合模型的图像描述方法有效
| 申请号: | 201610231898.2 | 申请日: | 2016-04-14 |
| 公开(公告)号: | CN105938485B | 公开(公告)日: | 2019-06-14 |
| 发明(设计)人: | 李玉鑑;丁勇;刘兆英 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F16/58 | 分类号: | G06F16/58;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于卷积循环混合模型的图像描述方法,属于机器学习中的深度学习领域;对于文本描述而言由于句子中词具有很强的上下文关系,因此可以用一种语言模型来对文本数据进行编码。具体步骤包括:(1)提取图像特征;(2)对图像特征编码;(3)对图像描述文本编码;(4)对模型进行训练;(5)利用训练模型生成图像的文本描述。本发明在机器视觉和自然语言处理具有广泛的应用,在图像描述方法方面提出了新的思路和解决方法。目前在图像描述中,对文本的编码是随机生成的,具有一定的盲目性,而且效果也不好。而本发明利用word2Vec对文本进行编码,解决了图像描述中对描述文本的编码问题,弥补了其随机性、盲目性和不稳定性的缺陷。大大提高了图像描述的应用能力,为机器视觉的发展奠定了基础。 | ||
| 搜索关键词: | 一种 基于 卷积 循环 混合 模型 图像 描述 方法 | ||
【主权项】:
1.一种基于卷积循环混合模型的图像描述方法,其特征在于:用文本语言描述图像内容上,具体步骤如下,步骤1、对图像进行编码,具体步骤如下:步骤1.1、用卷积神经网络对图像进行特征提取,该网络在ImageNet数据集上进行参数学习;输入一张训练图像It,经过网络进行特征提取,最后得到一个大小为4096的特征向量Ft;步骤1.2、通过一个4096*256的映射矩阵We对提取的特征向量Ft进行编码,编码后得到一个大小为256的向量v:v=FtTWe+bm (1)其中We是一个映射矩阵,bm是偏置,都是需要学习的参数;步骤2、对文本进行编码,计算机无法处理文本数据,必须先将文本编码成计算机能识别的数据;在编码文本数据所用的方法是Word2Vec,该方法是一个深度学习模型,能够将一个词映射到一个向量空间,通过计算向量空间上的相似度表示文本语义上的相似度,具体步骤如下:步骤2.1、对原始数据集中的描述文本进行低频处理,选取词频大于等于5的词,去除低频词汇,处理后的语料库为C,大小为2537;步骤2.2、对词库C里面的每个词按照词频构建Haffman树,叶子结点表示语料中的词,非叶子结点只做辅助,并非是真实的结点,都标记为0或者1,左边标为1,右边标为0,表示的是一个逻辑回归函数;步骤2.3、根据构建好的Haffman树计算词的概率,具体如下:
其中,w表示语料库中的词;lw表示词w所在的层数;
表示词w在j层的取值;Vw表示词w的向量估计值;
表示词w在第j层的参数估计;
步骤2.4、最大似然估计模型参数,具体如下:
P(context(w))≈P(w) (4)
其中,context(w)表示词w的上下文信息,即w前window个词和后window个词,但不包括词w,在实现过程中window=5;函数Γ是要优化的目标函数,为了方便求梯度,令:
θ的梯度计算:
V的梯度计算:
在Word2Vec的实现过程中,对于词向量Vw的更新,先从根到词w更新所有参数后,再更新context(w)中每一个词的向量:
其中,u∈context(w),α为学习率;步骤2.5、经过步骤2.4以后,可以得到词库C中每个词w∈C的词向量Vw,在实现过程中Vw的是256维的向量;步骤3、生成图像的文本描述模型,采用的是一个多模型的长短时记忆循环神经网络具体方法如下:步骤3.1、对图像的文本描述进行预处理,包括两个方面:步骤3.1.1对文本描述做低频处理,在实现过程中个选择频率大于等于5的词,处理后词库中词的的个数为2537;步骤3.1.2对低频处理后大小为2537,中的词创建索引,第一个词的索引为1,最后一个词的索引为2537,除此以外增加了一个索引0表示句子的开头和结尾标注,一共2538个索引;步骤3.1.3对词库中的所有词按照索引构建一个大小为2538*256的映射矩阵We,矩阵中的第i行对应着索引为i的词;步骤3.2、向前传播过程,给定一个包含N个词的图像文本描述X,先通过词索引将词转化为一个大小为N+1的索引向量,向量的第一个元素为0表示句子的开始,索引向量通过查找词编码的映射矩阵We,得到一个(N+1)*D的词特征矩阵,连同图像编码向量一起作为长短时记忆网络的输入,该网络是一个三层网络,输入层大小为256个神经元;隐含层,大小为256个神经元;输出层,大小为2538个神经元;具体过程如下,其中1≤t≤N+1:
yt=σ(Wohht+bd) (11)其中,
为激活函数;i,f,o,c分别表示长短时记忆网络结构中的输入门、遗忘门、输出门、记忆细胞,它们和隐含层具有相同的维度;xt是大小为(N+1)*D词特征矩阵的第t行;Wxi是输入到输入门权值;Whi是上一时刻隐含层到输入门的权值;Wci是上一时刻记忆细胞到输入门的权值;bi是当前时刻输入门偏置;Wxf是输入到遗忘门的权值;Whf是上一时刻遗忘门到当前时刻遗忘门的权值;Wcf是上一时刻记忆细胞到遗忘门的权值;bf是当前时刻遗忘门偏置;Wxc是输入到记忆细胞的权值;Whc是上一时刻隐含层到当前时刻记忆细胞的权值;bc是当前时刻记忆细胞的偏置;Wxo是输入到输出门的权值;Who是上一时刻输出门到当前时刻输出门的权值;Wco是当前时刻记忆细胞到输出门之间的权值;bo是当前时刻输出门的偏置;Woh是隐含层到输出层的权值;bd是输出层的偏置;一个(N+1)*D的训练样本经过前向过程得到一个Y=(N+1)*T的输出,在这里T的大小是2538,每一列元素表示词库中每个词出现的概率;步骤3.3、计算残差,将输入的文本X通过词索引将词转化为一个大小为N+1的索引向量IL,该向量的最后一个元素为0表示句子的结束;通过步骤3.2的前向计算得到的矩阵Y与对索引向量IL词对应的的标签矩阵相减,每个词的标签是one‑hot形式表示的一维向量,第t(1≤t≤N+1)个词对应的索引位置取值为1,其他都为0;训练样本的第t个词经过前向传播得到的输出Yt,训练样本中第t个词的索引为i,IL向量第t个词的索引j,残差表达式如下:
其中下标ti,表示训练样本中第t个词出现的索引序号i;得到每个句子的残差以后开始反向学习,计算模型中参数的梯度;步骤3.4、反向计算过程,利用步骤3.3中残差计算模型中参数的梯度,计算公式,并利用随机梯度下降法对参数进行优化;步骤3.5、不断的重复步骤3.2、3.3、3.4,实现模型参数优化,迭代次数为15000;步骤4、利用训练好的模型生成图像描述,读取测试图像,将测试图像先提取特征然后编码,将编码后的图像输入到步骤3.2,得到图像描述。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610231898.2/,转载请声明来源钻瓜专利网。





