[发明专利]一种基于弱监督文本引导的动作定位模型的训练方法在审

申请号：	202110278711.5	申请日：	2021-03-15
公开（公告）号：	CN113011312A	公开（公告）日：	2021-06-22
发明（设计）人：	张勇东;张天柱;杨文飞	申请（专利权）人：	中国科学技术大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06F16/78;G06F16/783
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	刘歌
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于监督文本引导动作定位模型训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于弱监督文本引导的动作定位模型的训练方法，包括：分别对样本视频和样本文本进行特征提取，输出第一初始视频特征和第一初始文本特征；根据第一初始视频特征和第一初始文本特征计算得到第一对应性矩阵；利用第一处理方式对第一初始视频特征、第一初始文本特征和第一对应性矩阵进行处理，得到第一融合特征；利用第二处理方式对第一初始视频特征、第一初始文本特征和第一对应性矩阵进行处理，得到局部对应性矩阵；根据第一融合特征、局部对应性矩阵和第一初始文本特征训练初始动作定位模型，得到训练后的动作定位模型。

技术领域

本公开属于智能行为分析技术领域，尤其涉及一种基于弱监督文本引导的动作定位模型的训练方法、系统及动作定位方法。

背景技术

文本引导的动作定位能够根据给定的文本，在视频中找到所描述的动作的起始和结束时间，在智能监控、视频描述、视频总结等领域有着广泛的应用。

传统的行为定位方法通常都是基于预定类别或者全监督的，利用预先定义进行精细化数据动作类别和边界标注，然后训练模型。这一过程需要预先定义好动作类型，并标注大量数据，严重限制了动作定位的应用性。

为了减轻对数据标注和预定动作类别的依赖，提升行为定位方法的拓展性和实用性，基于弱监督的文本引导的行为定位方法应运而生，在定位任务上也取得了较好的结果。

但是，在实现本公开实施例的过程中，发明人发现相关技术中至少存在如下问题：当前方法忽略了视频和文本之间的细粒度对应性，导致模型容易出现定位偏差。

发明内容

有鉴于此，本公开提供了一种基于弱监督文本引导的动作定位模型的训练方法、系统及动作定位方法。

共公开的一个方面提供了一种基于弱监督文本引导的动作定位模型的训练方法，包括：

分别对样本视频和样本文本进行特征提取，输出第一初始视频特征和第一初始文本特征；

根据所述第一初始视频特征和所述第一初始文本特征计算得到第一对应性矩阵；