[发明专利]一种基于CNN/LSTM的盲人辅助视觉系统有效
申请号: | 201811573815.3 | 申请日: | 2018-12-21 |
公开(公告)号: | CN109753900B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 潘红光;雷心宇;黄向东;温帆;张奇;米文毓;苏涛 | 申请(专利权)人: | 西安科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G10L13/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710055*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 cnn lstm 盲人 辅助 视觉 系统 | ||
1.一种基于CNN/LSTM的盲人辅助视觉系统,包括:
图像采集装置,实时采集使用者周围图像;
控制系统,搭载使用大量带标注的图片预训练的深度神经网络,实时翻译出所处场景中包含的信息,所述深度神经网络使用深度卷积神经网络,采用带有标注的数据集对神经网络进行训练,使用Dropout算法对深度卷积神经网络进行优化,再使用空洞卷积代替池化层;采用长短时记忆网络LSTM对深度卷积神经网络输出的特征图进行翻译,同时使用BPTT算法更新LSTM单元参数,最终输出数据集中图片标注的文字信息,得到一个能将图片信息翻译成文字信息的预训练好的深度神经网络;其中,使用深度卷积神经网络对数据集中作为训练集的部分进行处理,将图像转换为一个长度固定的特征向量,使用Dropout算法优化卷积神经网络,加速深度卷积神经网络的收敛,所述使用空洞卷积代替池化层是在卷积时向卷积核元素之间塞入空格;所述深度卷积神经网络输出的特征图与单词嵌入式向量拼接在一起,共同组成一个多模特征,送入长短时记忆网络LSTM进行翻译;
语音播报系统,以语音形式播报所述信息;
其特征在于,卷积计算过程如下:
Ij,k,j∈[0,x),k∈[0,x)
Wl,m,l∈[0,y),m∈[0,y)
其中
其中,Ij,k表示输入图像,Wl,m表示卷积对应的权重,x为输入层尺寸,x*x表示输入层大小,y为卷积核尺寸,y*y表示卷积核大小,其中,j,k均表示像素点在图像上的位置坐标,l,m为卷积核对应权重的位置,σ为修正线性单元Relu激活函数,φ为一次卷积计算后的输出值,bias为偏置;
在卷积时向卷积核元素之间塞入空格的具体公式如下:
n=y+(y-1)*(d-1)
其中d是一个超参数,(d-1)为塞入的空格数,n为加入空格后的卷积核大小;
其中,i为输入空洞卷积的大小,s为步长,o为空洞卷积后特征图的大小,p为填充的像素数;
所述LSTM的具体函数如下:
其中,ft为遗忘门,控制着上一单元的状态被遗忘的程度,σ为ReLU激活函数,it为输入门,为tan h产生的一个新的候选向量,和it一起控制新信息被加入的多少,ct为记忆单元新的状态,ct-1为上一记忆单元的状态,ot为输出门,用于控制当前的单元状态有多少被过滤,ht为本单元的输出,ht-1为上一个单元的输出,Wf,Wh,Wi,Wc,Wo均为各门的权重,bf,bi,bc,bo为各门偏置,xt为t时刻LSTM单元的输入;
使用BPTT算法更新LSTM单元参数,具体公式如下:
式中,p表第p个样本,k,m表示隐藏层中的某一层,wkj表示隐藏层k到j之间的权重,n表示样本个数,j表示输出层的层数,xpj(t)表示t时刻第p个样本中j层的输入,ypj(t)表示t时刻隐藏层第p个样本中j层的输出,ypj(t-1)表示t-1时刻隐藏层第p个样本中j层的输出,ypk表示网络输出,zpk为目标输出,δpk=(zpk-ypk)·g′(ypk)为第p个样本的输出残差,g′(ypk)为第p个样本的输出网络函数的导数,为隐层残差,表示为从输出层到第m隐层中的输出残差与本层权重的加权求和,ΔWkj为输出层与隐藏层之间的权重,ΔVjt为输入层与隐藏层之间的权重,ΔUji为隐藏层之间的权重,η为求导数时产生的常数;
经过LSTM顶端的softmax函数的变换,生成单词序列的概率向量矩阵,并转化为相应的单词序列,Softmax函数公式为
其中,表示单词表中的某个词汇,V表示单词表,该式意为某个词汇的softmax值等于该单词的指数与所有单词指数和的比值,通过该式得到输出的第j个单词属于单词表中所有单词的概率向量;
使用距离函数求取生成单词序列矩阵与参考句子中的单词序列矩阵之间的距离,其公式为
其中,wk为融合第k个阶段时使用的权值,K为单词矩阵的总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安科技大学,未经西安科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811573815.3/1.html,转载请声明来源钻瓜专利网。