[发明专利]一种多模态自动提取交通场景信息的方法、系统及设备在审
| 申请号: | 202210235588.3 | 申请日: | 2022-03-11 |
| 公开(公告)号: | CN114926788A | 公开(公告)日: | 2022-08-19 |
| 发明(设计)人: | 张蕊;卓一帆 | 申请(专利权)人: | 武汉理工大学 |
| 主分类号: | G06V20/54 | 分类号: | G06V20/54;G06V30/148;G06V20/40;G06V10/82;G06N3/08;G06N3/04 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 肖明洲 |
| 地址: | 430070 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 多模态 自动 提取 交通 场景 信息 方法 系统 设备 | ||
1.一种多模态自动提取交通场景信息的方法,其特征在于,包括以下步骤:
步骤1:获取交通场景的监控视频,抓取与该交通场景相关的新闻图片和文字,及当前的天气信息;
步骤2:从监控视频中每隔预定时间截取一帧Ii,按时间顺序存储为视频帧序列集合,将视频帧和抓取的新闻图片提取图像特征,得到特征向量vi,由一个视觉编码器处理该特征向量序列,其中,首先处理特征向量序列v得到每一个视频帧以及新闻图片的特征表示hi,进而获取视觉编码器的最终输出h,h是hi序列经过合并,随后乘以一个权重矩阵而得出的向量,它包含视觉特征;
步骤3:将抓取的新闻文字和天气信息合并后得到文本向量序列e=e1,e2,...,eL,其中ei表示一个词,随后采用词嵌入将文本序列转换为词向量表示,由一个文本编码器处理该向量序列,其中,首先处理文本向量序列e获取价值信息,再联合步骤2中视觉编码器的输出h,得到文本中每个词的特征表示gi,进而获取文本编码器的最终输出g,g是gi序列经过合并,随后乘以一个权重矩阵而得出的向量,它包含文本特征;
步骤4:生成交通场景信息文本。
2.根据权利要求1所述的多模态自动提取交通场景信息的方法,其特征在于:步骤2中,使用卷积神经网络提取图像特征。
3.根据权利要求1所述的多模态自动提取交通场景信息的方法,其特征在于:步骤2中,使用图像注意力组件处理特征向量序列v。
4.根据权利要求1所述的多模态自动提取交通场景信息的方法,其特征在于:步骤3中,使用文本注意力组件处理文本向量序列e。
5.根据权利要求1所述的多模态自动提取交通场景信息的方法,其特征在于:步骤3中,利用图像-文本联合注意力组件,得到文本中每个词的特征表示gi。
6.根据权利要求1所述的多模态自动提取交通场景信息的方法,其特征在于:步骤4中,使用交通场景信息解码器生成交通场景信息文本。
7.根据权利要求1所述的多模态自动提取交通场景信息的方法,其特征在于:步骤4中的具体实现包括以下子步骤:
步骤4.1:确定需要生成的句子每一个位置对应的词;
通过公式1和公式2求得前0到i-1位置的词的概率,即p(y0,...,yi-1,h,g);
si=Transformer(yi,y,h,g); (1)
p(y0,...,yi-1,h,g)=Softmax(Wsi); (2)
其中,yi∈y,y为目标文本,h是视觉特征,g是文本特征,Transformer()表示交通场景信息解码器;Softmax()表示Softmax激活函数,W表示的是交通场景信息解码器末尾的一个全连接神经网络层的权重,Wsi表示在全连接层中权重W和si作矩阵乘法;
获取从0到位置i各个可能句子对应的概率大小,即p(y0,...,yi|h,g);
其中,wi表示生成的第i个位置的单词的概率分布,0≤i≤T;
步骤5.2:取p(y0,...,yi|h,g)中概率最高的项,然后对应到词典,获取各个位置的单词,得到最终的生成句子;
其中,词典的生成方法是对所有的已有的文本进行分词,为每个词编号,得到词-编号集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210235588.3/1.html,转载请声明来源钻瓜专利网。





