[发明专利]基于动作知识库与集成学习的视频行为识别方法及系统有效
| 申请号: | 202110618201.8 | 申请日: | 2021-05-31 |
| 公开(公告)号: | CN113313039B | 公开(公告)日: | 2023-07-25 |
| 发明(设计)人: | 刘芳;李玲玲;王宇航;杨苗苗;黄欣研;刘旭;郭雨薇;陈璞花 | 申请(专利权)人: | 西安电子科技大学 |
| 主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/764;G06V10/80;G06V10/82;G06N3/0464;G06N3/084;G06N20/20 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
| 地址: | 710071 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 动作 知识库 集成 学习 视频 行为 识别 方法 系统 | ||
1.基于动作知识库与集成学习的视频行为识别方法,其特征在于,包括以下步骤:
S1、对输入视频帧进行人体部位框检测,得到人体部位框;
S2、根据步骤S1得到的人体部位框B,通过感兴趣区域池化操作并借助动作知识库中人体部位状态的约束条件,提取不同部位基于视觉的动作状态特征;
S3、使用步骤S2提取到的基于视觉的动作状态特征,并同时对应部位的动作状态标签,形成一个三元组短语部位,动作状态,物体,将三元组短语部位,动作状态,物体输入到自然语言处理工具Bert中,得到基于语言的动作状态特征;
S4、将原输入视频帧输入到经过预训练和微调的3D深度残差卷积网络中,通过视频段标签的约束,得到基于整个视频段的时空特征;
S5、构建人体部位图结构,图中节点为步骤S2和步骤S3中得到的六个不同部位的特征,将步骤S4中得到的基于整个视频段的时空特征作为一个节点,图结构一共有七个节点;最终得到的两种图结构分别为基于视觉的动作状态特征+基于整个视频段的时空特征构成的图结构、基于语言的动作状态特征+基于整个视频段的时空特征构成的图结构;
S6、构建多头图卷积网络,在多头图卷积网络中,有多个并行的分支,每个分支独立存在,各个分支中邻接矩阵都不相同,对输入图结构进行并行处理,处理完成之后的特征再进行二值池化操作,最终形成一个特征;
S7、利用步骤S6的多头图卷积网络构建多个多头图卷积网络,多个多头图卷积网络的输入分别为步骤S5中生成的两种特征,构建集成的网络模型,多个多头图卷积网络模型通过动态交叉熵损失函数进行结果的融合,融合后的特征通过一个全连接层输出最后的预测类别,用于视频行为识别。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,人体部位框包括10个,分别为头、躯干、双手、双下肢、臀部、双脚,对应的10个部位框为B={b1,b2,…,bi,…b10},bi为图像中第i个物体的边界框。
3.根据权利要求1所述的方法,其特征在于,步骤S2中,基于视觉的动作状态特征fP为:
其中,为对应人体部位提取的基于视觉的动作状态特征。
4.根据权利要求1所述的方法,其特征在于,步骤S3中,基于语言的动作状态特征fL为:
其中,为对应人体部位提取的基于语言的动作状态特征。
5.根据权利要求1所述的方法,其特征在于,步骤S6中,多头图卷积网络由多个分支的图卷积网络构成,图卷积神经网络表示如下:
Zl=AXlWl
其中,A代表邻接矩阵,X是一个N×d的矩阵,代表的是输入的特征,W是d×d可学习的参数,l代表图卷积神经网络的第l层。
6.根据权利要求1所述的方法,其特征在于,步骤S6具体为:
S601、对邻接矩阵进行不同形式的映射,得到多头邻接矩阵;
S602、得到多头邻接矩阵之后,构建多路并行的图卷积神经网络,每一路相互独立;
S603、使用经过映射之后的邻接矩阵对每一路上所有节点的信息进行聚合,将图结构网络上所有点信息聚合到一起。
7.根据权利要求6所述的方法,其特征在于,步骤S603中,聚合具体为:
其中,G(·)为聚合函数,Z1,Z2,Z3…Zm为使用聚合函数聚合之后的输出特征,为最后一层图卷积网络输出特征,m表示m路图卷积。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110618201.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通过旋转针鞘切割组织的活检针
- 下一篇:一种自动系鞋带系统、装置和技术





