[发明专利]一种基于多模态低秩双线性池化的图像内容问答方法有效

申请号：	201710611041.8	申请日：	2017-07-25
公开（公告）号：	CN107480206B	公开（公告）日：	2020-06-12
发明（设计）人：	俞俊;余宙;项晨钞	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F16/583	分类号：	G06F16/583;G06F40/289;G06N3/08
代理公司：	浙江千克知识产权代理有限公司 33246	代理人：	裴金华
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多模态低秩双线性池化图像内容问答方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多模态低秩双线性池化的图像内容问答方法，其特征在于包括以下步骤：

给定图像、相应的问题和答案，构成三元组作为训练集；

步骤（1）、数据预处理，对图像和文本数据提取特征；

对图像预处理：先将图像缩放到统一的尺寸大小，再使用现有的深度神经网络提取图像的特征；

对问题和答案的文本数据的预处理：

问题文本数据：首先分词，构建问题文本字典，将问题文本保留前个词语并把词语替换成字典中的索引值，得到文本索引向量；

答案文本数据：不分词，构建答案字典并截取频率最高的个答案；并将给定的答案转换成答案字典中的索引值，最后转换成维的一位有效编码答案向量；

步骤（2）、创建多模态低秩双线性池化模型,进行特征融合；

输入不同模态的图像的视觉特征向量和问题的文本特征向量，使用提出的基于神经网络实现的多模态低秩双线性池化模型进行图像和文本特征有效融合，输出指定维度的融合特征；

步骤（3）、基于协同关注点建模的神经网络模型

针对问题文本：首先将问题文本的一位有效编码特征利用词语向量化技术转换成矩阵；将转换后的问题矩阵输入到长短期记忆网络并输出维向量，其中是问题的词语个数，是LSTM输出特征维度；对问题生成注意点区域特征，并生成带注意点信息的问题特征；将生成的和图像的特征输入步骤（2）描述的多模态低秩双线性池化模型，得到输出特征；对图像提取注意点区域特征，其中是一个多通道特征矩阵，其中每个通道代表一个图像注意点区域特征；将图像特征同的每一个通道做SoftAttention操作，并将结果拼接起来生成输出，将同一起输入到步骤（2）的多模态低秩双线性池化模型，并输出；对做全连接操作后产生一个维向量，再经过一个softmax产生概率输出作为网络的输出预测值；其中是构建的答案字典的大小；

步骤（4）、模型训练

根据产生的预测值同该问题的实际答案的差异，并利用反向传播算法对步骤（3）定义的神经网络的模型参数进行训练，直至整个网络模型收敛。

2.根据权利要求1所述的一种基于多模态低秩双线性池化的图像内容问答方法，其特征在于步骤（1）所述的数据预处理及对图像和文本进行特征提取，具体如下:

1-1.对图像进行特征提取，使用现有的深度神经网络提取图像特征，形成图像特征，其中，是图像特征的通道数，和分别是图像特征的高和宽；

1-2.对于问题文本首先将问题文本拆分成固定单词个数的单词列表，其具体公式如下：

（公式1）

其中是单词字符串，为单词数；

根据单词字典将单词列表中的词语转化成索引值，得到固定长度的索引值向量,其具体公式如下：

（公式2）

其中是在单词字典中的索引值；

1-3.将答案文本记为，直接将答案替换成答案字典中的索引，之后将答案转化成一个维且只在元素上值为1，其余元素全为0的一位有效编码向量，其中是答案字典的大小，其具体公式如下：

（公式3）