[发明专利]一种基于弱监督文本引导的动作定位模型的训练方法在审
申请号: | 202110278711.5 | 申请日: | 2021-03-15 |
公开(公告)号: | CN113011312A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 张勇东;张天柱;杨文飞 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06F16/78;G06F16/783 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 刘歌 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 文本 引导 动作 定位 模型 训练 方法 | ||
本发明公开了一种基于弱监督文本引导的动作定位模型的训练方法,包括:分别对样本视频和样本文本进行特征提取,输出第一初始视频特征和第一初始文本特征;根据第一初始视频特征和第一初始文本特征计算得到第一对应性矩阵;利用第一处理方式对第一初始视频特征、第一初始文本特征和第一对应性矩阵进行处理,得到第一融合特征;利用第二处理方式对第一初始视频特征、第一初始文本特征和第一对应性矩阵进行处理,得到局部对应性矩阵;根据第一融合特征、局部对应性矩阵和第一初始文本特征训练初始动作定位模型,得到训练后的动作定位模型。
技术领域
本公开属于智能行为分析技术领域,尤其涉及一种基于弱监督文本引导的动作定位模型的训练方法、系统及动作定位方法。
背景技术
文本引导的动作定位能够根据给定的文本,在视频中找到所描述的动作的起始和结束时间,在智能监控、视频描述、视频总结等领域有着广泛的应用。
传统的行为定位方法通常都是基于预定类别或者全监督的,利用预先定义进行精细化数据动作类别和边界标注,然后训练模型。这一过程需要预先定义好动作类型,并标注大量数据,严重限制了动作定位的应用性。
为了减轻对数据标注和预定动作类别的依赖,提升行为定位方法的拓展性和实用性,基于弱监督的文本引导的行为定位方法应运而生,在定位任务上也取得了较好的结果。
但是,在实现本公开实施例的过程中,发明人发现相关技术中至少存在如下问题:当前方法忽略了视频和文本之间的细粒度对应性,导致模型容易出现定位偏差。
发明内容
有鉴于此,本公开提供了一种基于弱监督文本引导的动作定位模型的训练方法、系统及动作定位方法。
共公开的一个方面提供了一种基于弱监督文本引导的动作定位模型的训练方法,包括:
分别对样本视频和样本文本进行特征提取,输出第一初始视频特征和第一初始文本特征;
根据所述第一初始视频特征和所述第一初始文本特征计算得到第一对应性矩阵;
利用第一处理方式对所述第一初始视频特征、所述第一初始文本特征和所述第一对应性矩阵进行处理,得到第一融合特征;
利用第二处理方式对所述第一初始视频特征、所述第一初始文本特征和所述第一对应性矩阵进行处理,得到局部对应性矩阵;
根据所述第一融合特征、所述局部对应性矩阵和所述第一初始文本特征训练初始动作定位模型,得到训练后的所述动作定位模型。
根据本公开的实施例,所述分别对样本视频和样本文本进行特征提取,输出第一初始视频特征和第一初始文本特征包括:
将所述样本视频划分为N个视频片段,分别对每个所述视频片段进行特征提取,输出多个第一片段视频特征,其中,N≥1;
对每个所述第一片段视频特征进行处理,得到所述第一初始视频特征;以及
对所述样本文本进行处理,得到所述样本文本中的每个单词的词向量;
对每个所述词向量进行处理,得到所述第一初始文本特征。
根据本公开的实施例,所述利用第一处理方式对所述第一初始视频特征、所述第一初始文本特征和所述第一对应性矩阵进行处理,得到第一融合特征包括:
将所述第一对应性矩阵和所述第一初始文本特征进行加权聚合得到与所述样本视频候选区域自适应的第一聚合文本特征,其中,所述样本视频候选区域为一组起始时间和结束时间不同的视频片段;
将所述第一聚合文本特征与所述第一初始视频特征进行融合,得到第一初始融合特征;
对所述第一初始融合特征进行处理,以更新所述第一初始融合特征,得到最终的第一融合特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110278711.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:滚雪刀结构和扫雪机
- 下一篇:一种汽车车门拆卸专用工具及方法