[发明专利]一种基于轮廓建模的自然场景视频文本检测方法及系统在审

专利信息
申请号: 202310058072.0 申请日: 2023-01-17
公开(公告)号: CN116092069A 公开(公告)日: 2023-05-09
发明(设计)人: 梁凌宇;肖沃城 申请(专利权)人: 华南理工大学
主分类号: G06V20/62 分类号: G06V20/62;G06V20/40;G06V10/52;G06V10/764;G06V10/766;G06V10/82;G06V10/46;G06V10/80;G06T7/246;G06N3/0464;G06N3/045
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 王东东
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 轮廓 建模 自然 场景 视频 文本 检测 方法 系统
【权利要求书】:

1.一种基于轮廓建模的自然场景视频文本检测方法,其特征在于,包括:

视频帧读取与初始化:具体是对读取的视频帧进行尺度变换,并进行归一化操作得到输入图像帧;

提取图像帧信息:使用深度为50的ResNet网络提取输入图像帧的图像帧信息,并利用特征金字塔网络获得图像帧的多尺度信息;

文本区域信息预测:根据多尺度信息,预测相应尺度的文本轮廓置信度图与各像素点对应文本的傅里叶级数;

帧间文本信息融合:设定两个大小不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息,具体为:

设定两个大小不同的阈值β1、β2

先对前一帧的文本轮廓置信度图clst-1与阈值β1进行比较,筛选大于β1的部分得到前帧有用的补充信息clst-1′,随后将筛选后的clst-1′和当前帧的文本轮廓置信度图clst融合以加强当前帧的预测效果,得到的融合文本信息图再使用阈值β2进行比较,得到大于阈值β2的有效部分作为最后的结果;

GPU加速后处理:在GPU上进行加速,通过傅里叶反变换建模文本轮廓,使用非极大值抑制筛除冗余的文本,得到最终的文本检测结果;

视频帧追踪:对相邻帧的文本检测结果,通过IOU值构建IOU矩阵,通过KM算法和匈牙利算法进行匹配追踪。

2.根据权利要求1所述的自然场景视频文本检测方法,其特征在于,所述文本区域信息预测,具体为:

图像帧信息利用特征金字塔网络获得图像帧的多尺度特征,将多尺度特征分别通过分类预测头和回归预测头得到文本区域信息,其中,分类预测头预测相应尺度下的文本区域TR和文本中心区域TCR,回归预测头预测相应尺度下的文本轮廓的傅里叶级数。

3.根据权利要求1所述的自然场景视频文本检测方法,其特征在于,所述视频帧追踪,具体为:

对于相邻图像帧中所预测的文本轮廓,使用匹配算法对其追踪,对前一时刻t-1图像帧中的轮廓和当前时刻t图像帧中的轮廓,两两计算IOU值构建IOU矩阵,通过IOU矩阵,使用KM算法进行匹配,如匹配成功,则该文本轮廓的追踪状态更新;若匹配失败,查看追踪状态,若达到最大追踪时长,将该文本轮廓删除,若未达到最大追踪时长,则保留该文本轮廓,更新该文本的追踪时长。

4.根据权利要求1所述的自然场景视频文本检测方法,其特征在于,各像素对应文本的傅里叶级数具体是将文本轮廓点序列抽象为傅里叶级数,包括:

使用一个实变量t∈[0,1]的复值函数f:R→C来表示任意文本闭合轮廓如下:

f(t)=x(t)+iy(t)

i表示虚数单位,(x(t),y(t))为特定时间t时的空间坐标,由于f是一个封闭的轮廓,f(t)=f(t+1),f(t)通过傅里叶反变换(IFT)重新表述为:

k∈Z表示频率,ck是用来表征频率k的初始状态的复值傅里叶系数。

5.根据权利要求1所述的自然场景视频文本检测方法,其特征在于,所述文本轮廓置信度图由文本区域置信度和文本中心区域置信度相乘得到,其中文本的中心区域是由文本区域向内缩进文本平均字符高度的0.3倍距离得到。

6.根据权利要求1所述的自然场景视频文本检测方法,其特征在于,在网络训练前,按照文本实例样本的尺寸比例将文本实例划分为小、中、大三类,其中尺寸比例r由文本实例的横坐标最大差值dx和纵坐标最大差值dy中较大的值与图像高度h的比值决定:

r=max(dx,dy)/h

小、中、大三类目标分别对应特征金字塔中的多尺度特征输出。

7.一种实现权利要求1-6任一项所述的自然场景视频文本检测方法的系统,其特征在于,包括

视频读取与初始化模块:用于对读取的视频帧进行尺度变换,并进行归一化操作得到输入图像帧;

提取图像帧模块:用于使用深度为50的ResNet网络提取输入图像帧的图像帧信息,并利用特征金字塔网络获得图像帧的多尺度特征;

文本区域信息预测模块:用于根据多尺度信息,预测相应尺度的文本轮廓置信度二值图与各像素对应文本的傅里叶级数;

帧间文本信息融合模块:用于设定两个大小不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息,选取置信度二值图大于阈值的像素点与预测的回归傅里叶级数运算;

GPU加速后处理模块:用于在GPU上进行加速,通过傅里叶反变换建模文本轮廓,使用非极大值抑制筛除冗余的文本,得到最终的文本检测结果;

视频帧追踪模块:用于对相邻帧的文本检测结果,通过IOU值构建IOU矩阵,通过KM算法和匈牙利算法进行匹配追踪。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310058072.0/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top