[发明专利]基于动作知识库与集成学习的视频行为识别方法及系统有效

申请号：	202110618201.8	申请日：	2021-05-31
公开（公告）号：	CN113313039B	公开（公告）日：	2023-07-25
发明（设计）人：	刘芳;李玲玲;王宇航;杨苗苗;黄欣研;刘旭;郭雨薇;陈璞花	申请（专利权）人：	西安电子科技大学
主分类号：	G06V40/20	分类号：	G06V40/20;G06V20/40;G06V10/764;G06V10/80;G06V10/82;G06N3/0464;G06N3/084;G06N20/20
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	高博
地址：	710071 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于动作知识库集成学习视频行为识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于动作知识库与集成学习的视频行为识别方法，其特征在于，包括以下步骤：

S1、对输入视频帧进行人体部位框检测，得到人体部位框；

S2、根据步骤S1得到的人体部位框B，通过感兴趣区域池化操作并借助动作知识库中人体部位状态的约束条件，提取不同部位基于视觉的动作状态特征；

S3、使用步骤S2提取到的基于视觉的动作状态特征，并同时对应部位的动作状态标签，形成一个三元组短语部位，动作状态，物体，将三元组短语部位，动作状态，物体输入到自然语言处理工具Bert中，得到基于语言的动作状态特征；

S4、将原输入视频帧输入到经过预训练和微调的3D深度残差卷积网络中，通过视频段标签的约束，得到基于整个视频段的时空特征；

S5、构建人体部位图结构，图中节点为步骤S2和步骤S3中得到的六个不同部位的特征，将步骤S4中得到的基于整个视频段的时空特征作为一个节点，图结构一共有七个节点；最终得到的两种图结构分别为基于视觉的动作状态特征+基于整个视频段的时空特征构成的图结构、基于语言的动作状态特征+基于整个视频段的时空特征构成的图结构；

S6、构建多头图卷积网络，在多头图卷积网络中，有多个并行的分支，每个分支独立存在，各个分支中邻接矩阵都不相同，对输入图结构进行并行处理，处理完成之后的特征再进行二值池化操作，最终形成一个特征；

S7、利用步骤S6的多头图卷积网络构建多个多头图卷积网络，多个多头图卷积网络的输入分别为步骤S5中生成的两种特征，构建集成的网络模型，多个多头图卷积网络模型通过动态交叉熵损失函数进行结果的融合，融合后的特征通过一个全连接层输出最后的预测类别，用于视频行为识别。

2.根据权利要求1所述的方法，其特征在于，步骤S1中，人体部位框包括10个，分别为头、躯干、双手、双下肢、臀部、双脚，对应的10个部位框为B＝{b₁,b₂,…,b_i,…b₁₀}，b_i为图像中第i个物体的边界框。

3.根据权利要求1所述的方法，其特征在于，步骤S2中，基于视觉的动作状态特征f^P为：

其中，为对应人体部位提取的基于视觉的动作状态特征。

4.根据权利要求1所述的方法，其特征在于，步骤S3中，基于语言的动作状态特征f^L为：

其中，为对应人体部位提取的基于语言的动作状态特征。

5.根据权利要求1所述的方法，其特征在于，步骤S6中，多头图卷积网络由多个分支的图卷积网络构成，图卷积神经网络表示如下：

Z_l＝AX_lW_l

其中，A代表邻接矩阵，X是一个N×d的矩阵，代表的是输入的特征，W是d×d可学习的参数，l代表图卷积神经网络的第l层。

6.根据权利要求1所述的方法，其特征在于，步骤S6具体为：

S601、对邻接矩阵进行不同形式的映射，得到多头邻接矩阵；