[发明专利]一种基于多模态信息的座舱环境下年龄识别方法和装置有效
申请号: | 202310504058.9 | 申请日: | 2023-05-06 |
公开(公告)号: | CN116563920B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 胡敏;李冬冬;宁欣;李爽;周嵘;唐小江;姜丽敏 | 申请(专利权)人: | 北京中科睿途科技有限公司 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/774;G06V10/80;G10L15/16;G10L15/02 |
代理公司: | 北京万驰专利代理事务所(普通合伙) 16106 | 代理人: | 郭永 |
地址: | 102627 北京市大兴*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 信息 座舱 环境 年龄 识别 方法 装置 | ||
1.一种基于多模态信息的座舱环境下年龄识别方法,其特征在于,所述方法包括:
获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据,对所述人脸图像数据和所述语音数据进行标注,得到数据集;
搭建基于预设神经网络的年龄识别模型;
基于所述数据集对所述年龄识别模型进行训练,训练完成后得到目标年龄识别模型;
获取智能座舱环境下目标人的目标人脸图像和目标语音,并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型,根据所述目标年龄识别模型的输出结果确定所述目标人的年龄;
其中,所述年龄识别模型包括预设个数的依次连接的层,每个所述层后连接一个特征融合模块,非最后一个所述特征融合模块的输出连接下一个所述层,最后一个所述特征融合模块的输出连接一个预设分类器,所述预设分类器的输出连接一个全连接层,所述特征融合模块用于获取前一个所述层输出的图像特征和语音特征,并基于所述语音特征对所述图像特征进行补充后输出新的图像特征。
2.如权利要求1所述的方法,其特征在于,首个所述层将输入的人脸图像处理后输入首个所述特征融合模块,首个所述层将输入的语音处理后分别输入首个所述特征融合模块和第二个所述层,非首个所述层将前一个所述特征融合模块输入的新的图像特征处理后输入下一个所述特征融合模块,除首个和最后一个以外的所述层将前一个所述层输入的语音特征处理后分别输入下一个所述特征融合模块和下一个所述层,最后一个所述层将前一个所述层输入的语音特征处理后输入下一个所述特征融合模块。
3.如权利要求2所述的方法,其特征在于,所述预设神经网络为Transformer神经网络,所述年龄识别模型的Backbone采用Swin-Transformer,所述预设个数为四,第一、二、四个所述层分别包括两个Swin Transformer Block,第三个所述层包括六个Swin TransformerBlock。
4.如权利要求1所述的方法,其特征在于,所述特征融合模块获取前一个所述层输出的图像特征和语音特征,并基于所述语音特征对所述图像特征进行补充后输出新的图像特征的具体过程包括:
设Fimg为所述图像特征,Fvoice为所述语音特征,将大小为的Fimg转换为大小,其中N=H×W,并通过线性Embedding操作生成大小为的残差向量和大小为的图像Q向量Qimg,并得到与图像Q向量Qimg对应的图像K向量Kimg和图像V向量Vimg;
对Fvoice经过一次转置、第一MLP、二次转置,得到尺寸为的向量,并经线性Embedding操作后生成大小为的语音Q向量Qvoice,并得到与语音Q向量Qvoice对应的语音向量Kvoice和语音V向量Vvoice;
根据图像Q向量Qimg、图像K向量Kimg、图像V向量Vimg、语音Q向量Qvoice、语音向量Kvoice和语音V向量Vvoice确定图像注意力结果Uimg和语音注意力结果Uvoice;
将图像注意力结果Uimg和语音注意力结果Uvoice进行拼接后输入到第二MLP中,并将第二MLP输出的结果与残差向量FRes拼接后输入到第三MLP中,将第三MLP输出的结果转化为大小的向量后与Fimg进行残差计算,得到新的图像特征Fmerge。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科睿途科技有限公司,未经北京中科睿途科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310504058.9/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置