[发明专利]一种基于深度学习的细粒度行为识别方法在审

专利信息
申请号: 202210597200.4 申请日: 2022-05-26
公开(公告)号: CN114821669A 公开(公告)日: 2022-07-29
发明(设计)人: 葛永新;李自强;陈忠明;俞佳若;徐玲;洪明坚;杨梦宁;张小洪;杨丹 申请(专利权)人: 重庆大学
主分类号: G06V40/10 分类号: G06V40/10;G06V40/20;G06V10/44;G06V10/764;G06K9/62;G06N3/04;G06N3/08
代理公司: 重庆晟轩知识产权代理事务所(普通合伙) 50238 代理人: 孔玲珑
地址: 400044 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 细粒度 行为 识别 方法
【权利要求书】:

1.一种基于深度学习的细粒度行为识别方法,其特征在于:包括如下步骤:

S100:选用包含N个视频数据的公开数据集其中Vi表示第i个视频,每个视频包含该视频的事件级语义标签集合级语义标签和元素级语义标签其中,Ceve、Cset和Cele分别表示事件级、集合级和元素级对应的类别数目;

S200:构建细粒度行为识别模型M,该细粒度行为识别模型M包括基础行为识别模型TSN/TSM和行为扩展模型DFLM;

S300:令i=1;

S310:将第i个视频输入到基础行为识别模型TSN/TSM中,TSN/TSM模型共包含四层结构,从TSN/TSM模型的第二层提取到相应的粗粒度特征xeve∈Rc×h×w,从TSN/TSM模型的第三层提取到相应的中粒度特征xset∈Rc×h×w,从TSN/TSM模型的第四层提取到相应的细粒度特征xele∈Rc×h×w,其中c表示特征通道数,h和w分别表示特征矩阵的高和宽,粗粒度特征xeve对应事件级语义标签yeve,中粒度特征xset对应集合级语义标签yset,细粒度特征xele对应元素级语义标签yele

每种粒度特征与对应的级语义标签构建得到三条支流结构,分别为事件级支流,集合级支流和元素级支流,每条流的监督信息就为对应的级语义标签;

S320:扩展模型DFLM运算包括自底向上阶段和自顶向下阶段两个阶段;

S321:执行自底向上阶段:

S321-1:拼接细粒度特征xele和中粒度特征xset,然后将拼接结果输入到集合级支流中计算元素级行为的共同语义特征通过将与粗粒度特征xeve进行拼接,然后将与粗粒度特征xeve的拼接结果输入到事件级支流中计算集合级行为的共同语义特征具体表达式如下:

其中,表示特征拼接操作,Φset和Φeve分别表示集合级支流和事件级支流中的conv1×1层;

S321-2:分别计算集合级分支特征存储向量和事件级分支特征存储向量完成特征存储库的更新过程,计算表达式如下:

其中,i和j分别表示对应共同特征所属较为粗粒度类别的真实标签,λ表示超参数;

S321-3:使用L2均方损失优化对应粗粒度支流得到的共同语义特征,计算表达式如下:

S322:执行自顶向下阶段:

S322-1:计算元素级支流相似矩阵Aele和集合级支流的相似矩阵Aset,计算表达式如下:

其中,Wele和Wset是可学习的矩阵参数,Γ(·)是卷积核大小为1的2D卷积层;

S322-2:对Aele和Aset进行归一化操作,表达式如下:

Cele=softmax(Aele),Cset=softmax(Aset) (5)

其中,softmax(·)表示对变量在列维度进行操作,Cele和Cset分别表示对应的元素级共同注意图和集合级共同注意图,且同时表示了对应的共同语义特征与相应的细粒度特征相似语义部分;

S322-3:根据共同注意力图Cele和Cset,通过取反操作计算对应的反共现图Sele和Sset,表达式如下:

Sele=1-Cele,Sset=1-Cset; (6)

S322-4:通过反共现图Sele和Sset提取出细粒度特征中类特有特征,计算表达式如下:

其中,表示细粒度类特有特征,表示中粒度类特有特征,Sele∈Rc×hw以及Sset∈Rc×hw

S322-5:采用注意力机制对类特有特征进行激活且保存原始特征,计算表达式如下:

其中,和表示用于更新参数的矩阵,σ(·)是基于空间和通道维度的sigmoid激活函数,aele和aset表示相应的类特有注意力权重值,Rc×h×w为Rc×hw的重转化结果;

S322-6:计算激活元素级支流细粒度特征中的类特定信息和集合级支流细粒度特征中的类特定信息,计算表达式如下:

其中,x′ele表示元素级支流细粒度特征的类特定信息,即元素级新特征;x′set表示集合级支流细粒度特征中的类特定信息,即集合级新特征;

S400:计算细粒度行为识别模型M模型的总损失函数,表达式如下:

L=Lc+β·Ls+γ·Lr (10)

其中,β和γ是损失权重调节的超参数;

S500:根据S400中的总损失函数L对细粒度行为识别模型M进行参数更新;

S600:i=i+1;

S700:如果i大于最大迭代次数,则得到得到训练好的模型M′,并执行下一步;否则返回S310;

S800:将待预测视频的视频数据输入到训练好的模型M′中,得到该待预测视频的元素级新特征x″ele和集合级新特征x″set

S900:将元素级新特征x″ele和集合级新特征x″set输入到现有的分类器模型中,分类器模型的输出结果就是对待预测视频的细粒度行为识别结果。

2.如权利要求1所述的一种基于深度学习的细粒度行为识别方法,其特征在于:所述S400中计算细粒度行为识别模型M的总损失函数L的具体步骤如下:

S410:计算扩展模型DFLM三条支流预测的分类概率与真实的层次语义标签的损失函数,计算表达式如下:

Lc=CCE(yele,ψ(xele))+CCE(yset,ψ(xset))+CCE(yeve,ψ(xeve)) (11)

其中,CCE(·)表示交叉熵损失函数,ψ(·)表示为细粒度行为识别模型M;

S420:对和进行池化操作,然后利用交叉熵损失对池化操作后的和进行优化,计算表达式如下:

其中,FC(·)表示一个用于生成类别分数的全连接层;

S430:结合S321-3所述损失函数Lr、S410所述损失函数Lc和S420所述损失函数Ls得到模型总损失函数L。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210597200.4/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top