[发明专利]一种基于VQA的交通信号辅助判别方法及系统在审
| 申请号: | 202310166626.9 | 申请日: | 2023-02-22 |
| 公开(公告)号: | CN116416581A | 公开(公告)日: | 2023-07-11 |
| 发明(设计)人: | 贾荫鹏;李彬;孙善宝;罗清彩 | 申请(专利权)人: | 山东浪潮科学研究院有限公司 |
| 主分类号: | G06V20/54 | 分类号: | G06V20/54;G06V20/56;G06V10/82;G06V10/774;G06V10/80;G06F16/332;G06F16/33;G06N3/0442;G06N3/08 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜丽洁 |
| 地址: | 250100 山东省济*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 vqa 交通信号 辅助 判别 方法 系统 | ||
1.一种基于VQA的交通信号辅助判别方法,其特征在于,具有如下步骤:
S1、收集交通信号的道路、路口及驾驶场所的图片,根据内容标注问题及答案,形成数据集;
S2、利用步骤S1中所产生的数据集训练VQA模型,调整参数及多模态融合方式;
S3、将训练完成的最终VQA模型下发至机动车车机系统;
S4、机动车驾驶时通过前置摄像头拍摄路面及路口照片并通过图片特征提取模块提取图片特征并保存;
S5、当出现有疑问的交通场所时,司机通过语音对系统进行询问;
S6、机动车车机系统利用语音识别模块将语音转为文字并通过词嵌入模型将问题转为VQA模型可识别的向量;
S7、VQA模型中文字编码器将问题向量转为中间向量,并与步骤S4产生的与提问时间相近的若干图片特征进行多模态融合,将融合结果送至解码器获得问题答案;
S8、机动车车机系统将VQA模型所得的文字答案转为语音并播报。
2.根据权利要求1所述的一种基于VQA的交通信号辅助判别方法,其特征在于,所述VQA模型整体采用序列-序列结构,采用目标检测模型R-CNN作为图片特征提取模块,采用LSTM网络作为问题语义提取网络,将两部分特征进行融合作为编码器输出,采用LSTM网络作为解码器的主干网络进行答案生成。
3.根据权利要求2所述的一种基于VQA的交通信号辅助判别方法,其特征在于,所述词嵌入模型将文本转为包含语义及上下文信息的特征向量,采用CBOW模型。
4.根据权利要求3所述的一种基于VQA的交通信号辅助判别方法,其特征在于,多模态融合采用向量拼接的方式,根据训练情况提高问题特征向量的出现次数。
5.一种基于VQA的交通信号辅助判别系统,其特征在于,收集交通信号的道路、路口及驾驶场所的图片,根据内容标注问题及答案,形成数据集,所产生的数据集训练VQA模型,调整参数及多模态融合方式,将训练完成的最终VQA模型下发至机动车车机系统;
机动车驾驶时通过前置摄像头拍摄路面及路口照片并通过图片特征提取模块提取图片特征并保存,当出现有疑问的交通场所时,司机通过语音对系统进行询问;
机动车车机系统利用语音识别模块将语音转为文字并通过词嵌入模型将问题转为VQA模型可识别的向量,VQA模型中文字编码器将问题向量转为中间向量,并与提问时间相近的若干图片特征进行多模态融合,将融合结果送至解码器获得问题答案;
机动车车机系统将VQA模型所得的文字答案转为语音并播报。
6.根据权利要求5所述的一种基于VQA的交通信号辅助判别系统,其特征在于,所述VQA模型整体采用序列-序列结构,采用目标检测模型R-CNN作为图片特征提取模块,采用LSTM网络作为问题语义提取网络,将两部分特征进行融合作为编码器输出,采用LSTM网络作为解码器的主干网络进行答案生成。
7.根据权利要求6所述的一种基于VQA的交通信号辅助判别系统,其特征在于,所述词嵌入模型将文本转为包含语义及上下文信息的特征向量,采用CBOW模型。
8.根据权利要求7所述的一种基于VQA的交通信号辅助判别方法,其特征在于,多模态融合采用向量拼接的方式,根据训练情况提高问题特征向量的出现次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮科学研究院有限公司,未经山东浪潮科学研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310166626.9/1.html,转载请声明来源钻瓜专利网。





