[发明专利]一种基于多尺度特征金字塔的场景文本检测方法及系统在审
申请号: | 202110789784.0 | 申请日: | 2021-07-13 |
公开(公告)号: | CN113673506A | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 万洪林;王嘉鑫;赵莹莹;王晓敏 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺度 特征 金字塔 场景 文本 检测 方法 系统 | ||
本公开提供了一种基于多尺度特征金字塔的场景文本检测方法及系统,包括:对图像的场景文本进行标注;获取文本位置标定好的数据集,将数据集分为训练集和测试集;采用特征金字塔网络,对训练集进行自上而下的特征提取,同时,在特征金字塔网络的C2层对训练集进行不同尺度的特征提取;采用特征融合网络,对自上而下特征提取的输出特征在C2层与不同尺度特征提取的输出特征进行融合,得到融合后的特征图;将融合后的特征图与特征金字塔网络其他层的支路输出的特征融合映射,得到训练模型;用测试集验证模型的有效性;本公开用特征金字塔网络作为骨干网,在骨干网中加入用空洞卷积调节感受野的多尺度模块,以此来提高检测大小差异较大文本的精确度。
技术领域
本公开属于计算机视觉技术领域,尤其涉及一种基于多尺度特征金字塔的场景文本检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
自然场景下的文字检测与识别技术是计算机视觉领域的研究热点,大量的研究人员对该方向进行了长期的探索,自然场景中的文字提取技术研究成果可以应用到智能城市交通系统、盲人视觉辅助系统、无人驾驶技术和工业自动化系统等领域。与传统的光学字符提取技术不同,自然场景中包含了丰富的场景信息,自然场景中的文字面临着字体多变、背景复杂、图像质量低等诸多难点,有效提高场景文字提取的准确率具有重要的实际应用价值。
场景文本是指存在于任意场景下的文本内容,例如道路路牌、广告牌、商场指示牌、商品包装等;其目的是对自然图像中每个文本实例的区域或包围框进行定位;它的发展历程与绝大多数的计算机视觉任务相似;在深度学习方法尚未占据主导地位之前,文本检测主要是以手动提取特征为主;传统的检测方法包括基于连通域的方法和基于滑动窗口的方法。
但是这两种方法存在如下不足:(1)基于连通域的方法大量依赖文本连通区域的检测结果,然而,在自然场景中,由于光照变化、褪色、噪声干扰等因素,图像处理往往十分复杂,很难从中准确地检测出文本连通区域,进而稳定地检测自然场景文本;(2)基于滑动窗口的方法通常是基于单个字符的分类器,将滑动窗口作用于候选框,当场景很复杂时,比如受光照、阴影、遮挡等自然条件影响下,导致字符分类稳定性会变差,进而使检测结果降低;随着深度学习的发展,场景文本检测也进入了一个新阶段,涌现了大量基于深度学习的方法;基于深度学习的方法使用效果更加稳定的高层语义特征,利用更多的数据去拟合更复杂、泛化能力更强的模型;其研究方法主要包含:基于回归的方法和基于分割的方法;但是这两种方法在面对大小差异较大的文本时,由于特征图的感受域是固定的,所以检测的精确度较低。
发明内容
本公开为了解决上述问题,提出了一种基于多尺度特征金字塔的场景文本检测方法及系统,本公开用特征金字塔网络作为骨干网,在骨干网中加入用空洞卷积调节感受野的多尺度模块,以此来提高检测大小差异较大文本的精确度。
为了实现上述目的,本发明是通过如下的技术方案来实现:
第一方面,本公开提供了一种基于多尺度特征金字塔的场景文本检测方法,包括:
输入图像,对图像的场景文本进行标注;获取文本位置标定好的数据集,将数据集分为训练集和测试集;
采用特征金字塔网络,对训练集进行自上而下的特征提取,同时,在特征金字塔网络的C2层对训练集进行不同尺度的特征提取;
采用特征融合网络,对自上而下特征提取的输出特征在C2层与不同尺度特征提取的输出特征进行融合,得到融合后的特征图;将融合后的特征图与特征金字塔网络其他层的支路输出的特征融合映射,得到训练模型;
用测试集验证模型的有效性;利用测试后的模型对图像的场景文本进行检测。
进一步的,每个图像都有属于自己的标注txt文件;单个图像中,标注文件每一行代表一个文本目标,前八个数字为矩形文本框四个顶点的坐标信息,最后一列是文本的字符内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110789784.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种药品封装生产用自动进料装置
- 下一篇:一种假彩色激光雷达系统