[发明专利]视听特征融合的目标行为识别方法、装置及应用有效
申请号: | 202210496197.7 | 申请日: | 2022-05-09 |
公开(公告)号: | CN114581749B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 毛云青;王国梁;齐韬;陈思瑶;葛俊 | 申请(专利权)人: | 城云科技(中国)有限公司 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州汇和信专利代理有限公司 33475 | 代理人: | 董超 |
地址: | 310052 浙江省杭州市滨江区长*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视听 特征 融合 目标 行为 识别 方法 装置 应用 | ||
1.一种视听特征融合的目标行为识别方法,其特征在于,包括以下步骤:
获取预设时长的待识别音视频段;
采集所述待识别音视频段中的视觉输入信息及听觉输入信息;
将所述视觉输入信息及所述听觉输入信息一同输入目标行为模型中,其中所述目标行为模型包括双分支通道的特征提取网络、自编码网络及全连接层识别模块;
根据所述特征提取网络分别从所述视觉输入信息、所述听觉输入信息中提取特征,得到视觉特征、听觉特征;
由所述自编码网络的编码器将所述视觉特征、所述听觉特征映射到同一子空间,得到听觉特征对应的听觉映射特征,视觉特征对应的视觉映射特征;根据所述自编码网络的解码器将所有所述视觉映射特征及所有所述听觉映射特征映射到多模空间中,每个模态得到其他模态空间的视觉补偿特征作为视觉共享特征,以及得到其他模态的听觉补偿特征,作为听觉共享特征;拼接所述视觉共享特征、所述听觉共享特征、所述视觉特征及所述听觉特征,得到融合特征;
其中自编码网络包括编码器及解码器,其中,编码器包括依次连接的第一全连接层、第二全连接层以及编码器层;将视觉特征及听觉特征共同输入编码器中,并依次经过第一个全连接层、第二个全连接层以及编码器层输出,得到听觉特征对应的听觉映射特征,视觉特征对应的视觉映射特征;
其中,解码器包括两条支路,每条支路有两个全连接层组成;一条支路以听觉映射特征作为输入,由两个全连接层将所有听觉映射特征映射到多模空间中,得到听觉映射特征对应的视觉补偿特征,另一支路以视觉映射特征作为输入,由两个全连接层将所有视觉映射特征映射到多模空间中,得到视觉映射特征对应的听觉补偿特征;
将所述融合特征输入所述全连接层识别模块进行识别,得到目标行为。
2.根据权利要求1所述的视听特征融合的目标行为识别方法,其特征在于,对输入所述自编码网络的所述视觉特征和所述听觉特征采用语义映射标签进行标记,其中,语义映射标签表征为描述相同语义内容的所述视觉输入信息和所述听觉输入信息的标记标签;
当输入自编码网络的视觉特征或听觉特征存在语义映射标签时,损失函数为听觉平均误差值和视觉平均误差值的代数和;
当输入自编码网络的视觉特征或听觉特征不存在语义映射标签时,损失函数为1与听觉平均误差值和视觉平均误差值的代数和的差值;
听觉平均误差值表征为所有听觉特征与所有听觉共享特征的绝对差值的平均值,视觉平均误差值表征为所有视觉特征与所有视觉共享特征的绝对差值的平均值;
其中,损失函数由下列公式得到:
yautocoder为损失函数,N为特征数量,faudio为听觉特征,f’audio为听觉共享特征,fvisual为视觉特征,f’visual为视觉共享特征,Lcorr=1表示存在语义映射标签,Lcorr=-1表示不存在语义映射标签。
3.根据权利要求2所述的视听特征融合的目标行为识别方法,其特征在于,“对输入所述自编码网络的所述视觉特征和所述听觉特征采用语义映射标签进行标记”包括:分别对所述听觉输入信息的声学异常信息及所述视觉输入信息的视觉异常信息进行语义标记,若判断出所述听觉输入信息与所述视觉异常信息都具有所述语义标记,则为所述听觉输入信息与所述视觉异常信息分配所述语义映射标签。
4.根据权利要求1所述的视听特征融合的目标行为识别方法,其特征在于,“采集所述待识别音视频段中的视觉输入信息”包括:
从所述待识别音视频段中采集每相邻两帧图像帧的差值,得到差值序列,将所述差值序列作为视觉输入信息。
5.根据权利要求1所述的视听特征融合的目标行为识别方法,其特征在于,“采集所述待识别音视频段中的听觉输入信息”包括:
获取所述待识别音视频段对应的原始音频波形,从所述原始音频波形中以预设采样间隔采集声学信号,得到听觉输入信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于城云科技(中国)有限公司,未经城云科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210496197.7/1.html,转载请声明来源钻瓜专利网。