[发明专利]一种基于轮廓建模的自然场景视频文本检测方法及系统在审
申请号: | 202310058072.0 | 申请日: | 2023-01-17 |
公开(公告)号: | CN116092069A | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 梁凌宇;肖沃城 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V20/40;G06V10/52;G06V10/764;G06V10/766;G06V10/82;G06V10/46;G06V10/80;G06T7/246;G06N3/0464;G06N3/045 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 王东东 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 轮廓 建模 自然 场景 视频 文本 检测 方法 系统 | ||
本发明公开了一种基于轮廓建模的自然场景视频文本检测方法及系统,包括视频帧读取与初始化,提取图像帧信息、文本区域信息预测,帧间文本信息融合、GPU加速后处理及视频帧追踪,所述帧间文本信息融合是设定两个大小不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息。本方法使用傅里叶帧间融合建模文本轮廓,辅以匹配算法对文本目标进行追踪,同时使用GPU加速推理,在保证了较高水准的检测准确率的情况下能够实现对视频文本的实时检测。
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于轮廓建模的自然场景视频文本检测方法及系统。
背景技术
随着互联网的高速发展与智能手机、数码相机、数码电视等数码图像拍摄设备的广泛应用,基于内容的图像处理方法得到了广泛的关注,其中需求最大的应用之一是自然场景视频中的文本精确检测。这项技术在计算机视觉、机器学习、自动驾驶、实时翻译等领域发挥着不可或缺的作用。而自然场景视频的文本检测常常面临着检测速度较慢、检测效果不佳的问题。
传统的实现自然场景视频文本检测的算法都是在空间域上进行的,主要分为两类,一类通过边界框回归实现,这种方法边界框的尺寸大小设置通常是固定的,这也就造成边界框难以拟合精细的文本轮廓;另一类则是通过像素点分割的方法实现,这种方法不仅难以聚合出完整的文本,同时逐像素的操作会增加庞大的计算量,导致推理速度极慢,难以达到视频实时检测效果。
同时,过往的方法通常都难以实现检测和速度的性能兼顾。在现实生活中的视频检测应用中,实时性是非常重要的一项需求。即至少达到30fps的检测速率,甚至在高帧率视频中需要达到60fps或者75fps,现有的方法尽管在精度上取得了不错的性能,但在检测推理的速度上距离实时性这个目标还有较大的差距。
发明内容
为了克服现有技术的上述缺点与不足,本发明的目的在于提供一种基于轮廓建模的自然场景视频文本检测方法及系统。该方法使用傅里叶帧间融合建模文本轮廓,辅以匹配算法对文本目标进行追踪,同时使用GPU加速推理,在保证了较高水准的检测准确率的情况下能够实现对视频文本的实时检测。
本发明的目的通过以下技术方案实现:
一种基于轮廓建模的自然场景视频文本检测方法,包括:
视频帧读取与初始化:具体是对读取的视频帧进行尺度变换,并进行归一化操作得到输入图像帧;
提取图像帧信息:使用深度为50的ResNet网络提取输入图像帧的图像帧信息,并利用特征金字塔网络获得图像帧的多尺度信息;
文本区域信息预测:根据多尺度信息,预测相应尺度的文本轮廓置信度图与各像素点对应文本的傅里叶级数;
帧间文本信息融合:设定两个大小不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息,具体为:
设定两个大小不同的阈值β1、β2;
先对前一帧的文本轮廓置信度图clst-1与阈值β1进行比较,筛选大于β1的部分得到前帧有用的补充信息clst-1′,随后将筛选后的clst-1′和当前帧的文本轮廓置信度图clst融合以加强当前帧的预测效果,得到的融合文本信息图再使用阈值β2进行比较,得到大于阈值β2的有效部分作为最后的结果;
GPU加速后处理:在GPU上进行加速,通过傅里叶反变换建模文本轮廓,使用非极大值抑制筛除冗余的文本,得到最终的文本检测结果;
视频帧追踪:对相邻帧的文本检测结果,通过IOU值构建IOU矩阵,通过KM算法和匈牙利算法进行匹配追踪。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310058072.0/2.html,转载请声明来源钻瓜专利网。