[发明专利]基于视频时序信息的视频语义分析方法和装置在审
| 申请号: | 201811001538.9 | 申请日: | 2018-08-30 |
| 公开(公告)号: | CN109214330A | 公开(公告)日: | 2019-01-15 |
| 发明(设计)人: | 彭浩 | 申请(专利权)人: | 北京影谱科技股份有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
| 代理公司: | 北京万思博知识产权代理有限公司 11694 | 代理人: | 冀婷 |
| 地址: | 100000 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 动作分类器 视频语义分析 方法和装置 视频时序 视频信息 视频 视频帧 向量化 预测 读取 识别和分类 视频帧位置 视频区段 输出动作 输出结果 输出预测 信息通过 指示符 映射 向量 输出 分类 检测 观察 申请 | ||
本申请公开了一种基于视频时序信息的视频语义分析方法和装置。其中方法包括:读取视频中的信息,将所述信息通过映射输出向量化的视频信息;利用动作分类器对所述向量化的视频信息所表达的动作进行分类,输出结果包括:候选检测向量、预测指示符和下一个需要观察的视频帧位置;根据所述预测集中的内容,输出预测的所述视频中动作持续的起始时间和结束时间。该方法能够利用动作分类器对视频中的动作进行识别和分类,输出动作视频帧的区间,能够同时对多个视频帧进行处理,提高了处理的速度;通过动作分类器能对可能的视频区段和下一动作可能出现的区段进行预测,提高了处理的效率,提升了识别准确性。
技术领域
本申请涉及视频分析处理技术领域,特别是涉及一种基于视频时序信息的视频语义理解方法和装置。
背景技术
随着视频内容数量的爆炸性增长,基于视频的语义理解对视频中重要事件和动作的定位显得越来越重要,并且长期以来视频语义理解在计算机视觉领域当中一直是一个具有挑战性的问题,算法不仅仅需要推理出视频中有哪些事件发生,而且需要从视频时序信息中定位出事件发生的时序位置。现有技术中采用构建帧级分类的方法,通过对视频帧进行特征提取、特征匹配和分类将前后的视频帧进行关联,进而分析出是否属于同一个动作以及该动作的分类。然而由于视频帧的数量太大,在面临长度较长的视频时,这种方法在准确性和计算效率方面都不能尽如人意。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种基于视频时序信息的视频语义分析方法,包括:
视频向量化处理步骤:读取视频中的信息,将所述信息通过映射输出向量化的视频信息;
视频定位步骤:利用动作分类器对所述向量化的视频信息所表达的动作进行分类,输出结果包括:候选检测向量、预测指示符和下一个需要观察的视频帧位置,其中,所述候选检测向量表示在所述视频中动作持续的起始时间、结束时间和该动作的置信度,所述预测指示符用于表示是否将所述候选检测向量输出到预测集中;输入到最终结果中,所述下一个需要观察的视频帧位置表示下一步需要读取并进行向量化处理的视频位置信息;
视频语义输出步骤:根据所述预测集中的内容,输出预测的所述视频中动作持续的起始时间和结束时间。
该方法能够利用分类器对视频中的动作进行识别和分类,输出动作视频帧的区间,由于采用了向量,能够同时对多个视频帧进行处理,避免了对单个视频帧的图像直接进行图像识别,提高了处理的速度;同时,通过分类器对可能的视频区段进行预测的同时,还能预测下一可能的区段,提高了处理的效率,提升了识别准确性。
可选地,在所述视频向量化处理步骤之前,其特征在于,在所述视频向量化处理步骤之前,该方法还包括第一训练步骤:对所述动作分类器输出的候选检测向量进行训练,该第一训练步骤包括:对于训练样本集合中的视频,该视频包括N个候选检测向量D={dn|n=1,...,N},所述N个候选检测向量由N个时间步长的视频系列通过映射得到,将所述N个候选检测向量与基础的动作实例g1,...,gm按照匹配函数ynm进行匹配,每个候选检测向量匹配一个动作实例,其中,所述匹配函数ynm为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京影谱科技股份有限公司,未经北京影谱科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811001538.9/2.html,转载请声明来源钻瓜专利网。





