[发明专利]面向视觉障碍人士的深度视觉问答系统的构建方法有效

申请号：	201710128118.6	申请日：	2017-03-06
公开（公告）号：	CN106951473B	公开（公告）日：	2019-11-26
发明（设计）人：	潘浩杰;刘洋;周君沛;陆家林	申请（专利权）人：	浙江大学
主分类号：	G06F16/583	分类号：	G06F16/583;G06F16/332;G06F16/33;G06K9/00;G06N3/04;G06N3/08
代理公司：	33200 杭州求是专利事务所有限公司	代理人：	邱启旺<国际申请>=<国际公布>=<进入
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种面向视觉障碍人士的深度视觉问答系统的构建方法，该方法在训练阶段：先采集到的图片和相应的问答文本构成训练集；对于图片采用卷积神经网络提取图片的特征；对于问题文本，使用词向量的技术将问题转换为词向量列表，并作为LSTM的输入对问题特征进行提取；最后将图片和问题特征进行元素点积后进行分类操作获得答案预测值，与训练集中的答案标签进行比对计算损失，然后用反向传播算法对模型进行优化。在运行阶段：客户端获得用户拍摄的照片和提问文本并上传到服务端，服务端对上传的照片和问题文本输入到训练好的模型中，以同样的方式提取特征，通过分类器输出相应的答案预测值回馈到客户端；客户端以语音输出的形式反馈给用户。
搜索关键词：	面向视觉障碍人士深度问答系统构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向视觉障碍人士的深度视觉问答系统的构建方法，其特征在于，该方法包括如下步骤：/n(1)数据收集和标注/n(1.1)数据收集：拍摄视觉障碍人士的生活场景图片，或者从互联网通过网络爬虫的方式对相关图片进行检索和爬取，图片的数量至少为几十万的数量级；/n(1.2)数据标注：对每一张图片都相应地标注至少三个问题，每个问题至少给出十个答案，每个答案对应一个置信度；/n(2)数据清洗和预处理/n(2.1)对于某一个问题的所有答案记为a₁，a₂，...a_n，n为一个问题对应答案的总个数，这些答案对应的置信度为w₁，w₂，...，W_n，a₁，a₂，...a_n中有m个不同的答案，记为A₁，A₂，...A_m，将相同答案的置信度进行统计累加，得到W₁，W₂，...W_m；从而获得A_k，A_k即为该问题的最终答案，其中k的取法如下；k＝argmax{W_l}，l＝1，2，...，m；进而获得所有问题对应的答案，这些答案构成答案集S_a1；/n(2.2)对S_a1进行统计和筛选，获得出现频率最高的M_a个答案，将这些答案加入到一个新的答案集S_a2中，记再对所有问题进行逐一检索，如果该问题的答案不属于S_a2，则将该问题删除；若图片对应的所有问题均被删除，则删除该图片；将剩下的问题数量记为N；/n(2.3)对步骤(2.2)获得的S_a2采用one-hot编码方式获得每个答案对应的one-hot向量，构成one-hot向量表；/n(2.4)通过步骤(2.2)对问题进行删除后，将剩下的问题的最终答案，通过查询步骤(2.3)得到的one-hot向量表，得到每个最终答案对应的one-hot向量；记为{Y⁽⁰⁾，Y⁽¹⁾，...，Y^(N-1)}，Y⁽⁰⁾为第0个答案对应的one-hot向量，Y⁽¹⁾为第1个答案对应的one-hot向量，Y^(N-1)为第N-1个答案对应的one-hot向量；/n(2.5)通过步骤(2.2)对问题进行删除后，将每一个问题进行分词，得到该问题的单词列表，根据现有的词向量表，将单词列表中的每个单词映射为词向量，从而得到词向量列表；对于在词向量表中没有的单词，该单词对应的词向量为零向量；统计所有问题对应的词向量列表的长度，得到长度的最大值为L_q；对长度小于L_q的词向量列表，用零向量进行填充，填充至其长度为L_q，从而将每一个问题都转换成了一个长度为L_q的词向量列表；记为{V_Q⁽⁰⁾，V_Q⁽¹⁾，...，V_Q^(N-1)}，V_Q⁽⁰⁾为第0个问题的词向量列表，V_Q⁽¹⁾为1个问题的词向量列表，V_Q^(N-1)为N-1个问题的词向量列表；/n(2.6)通过步骤(2.2)对图片进行删除后，将剩下的每一张图片缩放至固定大小；采用VGGNet来提取缩放后的图片I的特征向量V_I；提取公式如下：/nV_I＝CNN_vgg(I)/n从而每一个问题对应的图片都转换成了一个长度为L_hidden的特征向量；记为{V_I⁽⁰⁾，V_I⁽¹⁾，...，V_I^(N-1)}，V_I⁽⁰⁾为第0个问题对应的图片的特征向量，V_I⁽¹⁾为第1个问题对应的图片的特征向量，V_I^(N-1)为第N-1个问题对应的图片的特征向量；/n(2.7)将步骤(2.4)获得的{Y⁽⁰⁾，Y⁽¹⁾，...，Y^(N-1)}，步骤(2.5)获得的{V_Q⁽⁰⁾，V_Q⁽¹⁾，...，V_Q^(N)}，步骤(2.6)获得的{V_I⁽⁰⁾，V_I⁽¹⁾，...，V_I^(N-1)}，作为训练集；记为{(V_Q⁽⁰⁾，V_I⁽⁰⁾，Y⁽⁰⁾)，(V_Q⁽¹⁾，V_I⁽¹⁾，Y⁽¹⁾)，...，(V_Q^(N-1)，V_I^(N-1)，Y^(N-1))}；/n(3)视觉问答模型训练/n(3.1)构建LSTM神经网络/n(3.1.1)对于步骤(2.5)获得的第i个问题对应的词向量列表V_Q⁽ⁱ⁾，将V_Q⁽ⁱ⁾中的每一个词向量都标识成一个输入向量，即将词向量列表记为其中均为词向量列表中的词向量；/n(3.1.2)构建L_q个LSTM单元，第t个单元以作为输入，其中为长度为L_hidden的向量，是由上一个单元输出，每个单元的计算过程如下：/n /n /n /n /n /n /n其中σ为sigmoid函数：W_in，W_f，W_o，W_c，U_in，U_f，U_o，U_c均为待训练的参数；1≤t≤L_q；为第t层的隐藏层的输出；当t为1，h₀取为零向量；/n(3.1.3)将L_q个LSTM单元连成链状结构，取最后一层隐藏层的输出来表征问题V_Q⁽ⁱ⁾的特征；/n(3.1.4)重复步骤(3.1.1)-步骤(3.1.3)获得所有问题的特征，这些特征构成特征向量集，记为/n(3.2)计算损失代价/n(3.2.1)将步骤(2.6)中获得的图片的特征向量集{V_I⁽⁰⁾，V_I⁽¹⁾，...，V_I^(N-1)}与步骤(3.1.4)中获得问题的特征向量集进行计算，获得中间输入向量集{X⁽⁰⁾，X⁽¹⁾，...，X^(N-1)}，其中/n /n(3.2.2)将步骤(3.2.1)中获得的{X⁽⁰⁾，X⁽¹⁾，...，X^(N-1)}作为分类器的输入，并将步骤(2.4)获得的{Y⁽⁰⁾，Y⁽¹⁾，...，Y^(N-1)}作为标注，构成一组输入集{(X⁽¹⁾，Y⁽¹⁾)，(X⁽²⁾，Y⁽²⁾)，...，(X^(N-1)，Y^(N-1))}；/n(3.2.3)采用softmax函数和交叉熵函数计算损失代价CE：/nθ⁽ⁱ⁾＝U·X⁽ⁱ⁾+b/n /n /n其中U，b为待训练参数；(X⁽ⁱ⁾，Y⁽ⁱ⁾)为输入集中的第i个输入；/n(3.3)反向传播训练模型的建立/n采用任何一个深度学习库，进行反向传播训练神经网络的搭建，将步骤(2.7)的训练集输入到搭建好的神经网络中进行训练，训练过程中使得损失代价小于设定的阈值，从而确定步骤(3.1.2)中的参数W_in，W_f，W_o，W_c，U_in，U_f，U_o，U_c和步骤(3.2.3)中的参数U，b，最后获得视觉问答模型M；/n(4)深度视觉问答系统的建立/n(4.1)移动端获得数据/n通过移动端相机拍摄获得图片I′，对用户的语音输入处理获得问题Q′；/n(4.2)服务端操作数据/n(4.2.1)将步骤(3)训练好的模型M加载到服务器中，/n(4.2.2)通过步骤(4.1)获得图片I′，问题Q′，经过步骤(2.6)获得I′的特征向量V_I′，经过步骤(2.5)获得Q′的词向量列表V_Q′；/n(4.2.3)将步骤(4.2.2)获得的V_I′，V_Q′输入到步骤(4.2.1)获得的模型M中，经过步骤(3.2.3)得到取在步骤(2.2)中获得的S_a2中，获得正确答案Ans_k′；/n(4.3)服务端反馈数据/n将步骤(4.2.3)获得的Ans_k′传输到移动客户端，客户端获得答案，记为Ans′_k′；/n(4.4)客户端反馈用户/n将步骤(4.3)中获得的Ans′_k′用语音的形式输出给用户。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710128118.6/，转载请声明来源钻瓜专利网。

上一篇：一种可调节格栅板间隙的填料支撑装置
下一篇：一种PE中间体多元醇反应釜全缩器填料结构

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]面向视觉障碍人士的深度视觉问答系统的构建方法有效

专利文献下载