[发明专利]基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法在审
| 申请号: | 202111142163.X | 申请日: | 2021-09-28 |
| 公开(公告)号: | CN113903023A | 公开(公告)日: | 2022-01-07 |
| 发明(设计)人: | 朱均可;孙乐;叶堂华;刘凯 | 申请(专利权)人: | 南京信息工程大学 |
| 主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/25;G06V10/82;G06V30/19;G06V10/44;G06V10/40;G06V30/414;G06K9/62;G06T7/12;G06T7/62;G06N3/04 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 姜慧勤 |
| 地址: | 224002 江苏省盐城*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 改进 maskrcnn seed 框架 自然 场景 文字 检测 识别 方法 | ||
本发明公开了一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法,该方法将CV领域常用的实例分割算法Mask‑RCNN进行改进并用于自然场景中的文字定位,将其输出结果(蒙版Mask、边框Box)通过进一步的RoI Masking操作增强图像文字部分信息,然后与用于场景文字的语义增强的编码器‑解码器框架SEED组合完成精确度较高的自然场景文字检测与识别。本发明所述方法能够显著降低对训练过程中所需数据集的要求,对文字定位精确至字符轮廓,得到的文字识别精确度高。
技术领域
本发明属于图像数据处理领域,具体涉及一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法。
背景技术
深度学习通过建立神经网络,使用大量数据作为训练集深入学习相关特征,从而进行高效准确的数据处理工作。目前,大部分基于深度学习的自然场景文字检测识别的方法虽然在定位准确度,识别精确度方面远远超过基于特征提取的等等传统方法,但是在定位准确度和识别精确度方面还是有较大的提升空间。自然场景中的文字易受遮挡、光照、光斑等外在因素影响,同时因为其模糊、形状不规则等自身属性,导致其相比于传统的简单场景的文字识别和定位,有很大的难度。
传统的基于深度学习的文字检测识别模型,往往在文字定位时使用单一的矩形框进行文字定位,其定位不够精确、准确度较低;在识别部分大都使用CRNN等经典识别框架,对弯曲、模糊,遮挡文字识别效果较差。此外,当前相关模型框架,检测器与识别器大都作为整体统一训练,这样训练虽然效率可能会提高,但是在识别过程中,模型的参数很可能更趋近于完成检测和识别中某一任务,导致另一任务定位或识别效果下降。并且在实验中我们发现这样训练的效果,在定位和识别准确度上低于单独训练的训练效果。
场景文字的检测识别技术在当下以及未来皆有着广泛的应用场景。当前大都应用在:证件识别、银行卡识别、车牌识别、名片识别、票据类识别等等方面,大部分技术都受限于特定的使用场景,远无法满足无人驾驶、智能机器人等高科技新兴行业对于路牌等街景文字识别的需求,离预期效果还有一定的距离。如何有效提升自然场景中的文字检测识别精度,降低对数据集的要求,已是相关智能行业发展的重要需求。
发明内容
发明目的:针对以上问题,本发明提出一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法,具体包括如下步骤:
步骤1,采集待识别文字图片,通过Labelme对图片内文字的位置进行多边形框标注,并对文字内容进行标注;
步骤2,利用影像变换方法对上述标注后的待识别文字图片进行预处理,将预处理后的图片按照一定比例划分为训练集、验证集与检测集;
步骤3,构建目标检测器与识别器,并利用训练集与验证集分别训练目标检测器与识别器,得到训练好的目标检测器与识别器;所述目标检测器,用于定位图片文字区域;所述识别器,用于识别图片中文字内容;
步骤4,利用改进的RoI Masking方法连接训练好的目标检测器与识别器,并利用距离补偿值对目标检测器的输出进行调整,得到文字检测识别模型;
步骤5,将步骤2所述检测集输入至步骤4所述文字检测识别模型,输出文字识别结果。
进一步地,步骤2所述利用影像变换方法对上述标注后的待识别文字图片进行预处理,方法如下:
步骤2.1,利用Python图片处理包中的Image读取图片的尺寸,获取每张图片的长与宽;并选择其中最大的长度值记作MAX_length,最大的宽度值记作MAX_width;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111142163.X/2.html,转载请声明来源钻瓜专利网。





