[发明专利]基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法在审

专利信息
申请号: 202111142163.X 申请日: 2021-09-28
公开(公告)号: CN113903023A 公开(公告)日: 2022-01-07
发明(设计)人: 朱均可;孙乐;叶堂华;刘凯 申请(专利权)人: 南京信息工程大学
主分类号: G06V20/62 分类号: G06V20/62;G06V10/25;G06V10/82;G06V30/19;G06V10/44;G06V10/40;G06V30/414;G06K9/62;G06T7/12;G06T7/62;G06N3/04
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 姜慧勤
地址: 224002 江苏省盐城*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 改进 maskrcnn seed 框架 自然 场景 文字 检测 识别 方法
【权利要求书】:

1.一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法,其特征在于,具体包括如下步骤:

步骤1,采集待识别文字图片,通过Labelme对图片内文字的位置进行多边形框标注,并对文字内容进行标注;

步骤2,利用影像变换方法对上述标注后的待识别文字图片进行预处理,将预处理后的图片按照一定比例划分为训练集、验证集与检测集;

步骤3,构建目标检测器与识别器,并利用训练集与验证集分别训练目标检测器与识别器,得到训练好的目标检测器与识别器;所述目标检测器,用于定位图片文字区域;所述识别器,用于识别图片中文字内容;

步骤4,利用改进的RoI Masking方法连接训练好的目标检测器与识别器,并利用距离补偿值对目标检测器的输出进行调整,得到文字检测识别模型;

步骤5,将步骤2所述检测集输入至步骤4所述文字检测识别模型,输出文字识别结果。

2.根据权利要求1所述的一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法,其特征在于,步骤2所述利用影像变换方法对上述标注后到的待识别文字图片进行预处理,方法如下:

步骤2.1,利用Python图片处理包中的Image读取图片的尺寸,获取每张图片的长与宽;并选择其中最大的长度值记作MAX_length,最大的宽度值记作MAX_width;

步骤2.2,对每一张图片比较其长与宽大小;若图片长度值大于宽度值,则将该图片等比例放大至其长度值为MAX_length的大小;若图片长度值不大于宽度值,则将该图片等比例放大至其宽度值为MAX_length的大小;

步骤2.3,将全局损失函数作为约束条件,利用模拟退火算法将步骤2.2得到的图片进行两两配对;其中,全局损失函数如下:

式中,LOSS为全局损失函数值,SUM()为求和函数,Length1为配对的图片1的长度值,Length2为配对的图片2的长度值,Width1为配对的图片1的宽度值,Width2为配对的图片2的宽度值,MAX()为求最大值函数;

步骤2.4,将拼接后的图片统一化调整尺寸大小,并将调整后的图片集转化为COCO数据集。

3.根据权利要求1所述的一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法,其特征在于,步骤3所述目标检测器,具体为MaskRCNN网络模型,包括数据输入模块、主体网络、RPN网络和ROI模块;

其中,所述数据输入模块为特征金字塔FPN,用于对输入图片进行不同尺度的图片特征提取;所述主体网络为ResNet101;所述RPN网络,用于对图片特征图进行处理并生成候选区域;所述ROI模块,用于判断候选区域是否有文字内容,若有文字内容则生成文字边框,同时预测分割得到蒙板Mask。

4.根据权利要求1所述的一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法,其特征在于,步骤3所述识别器,具体为SEED框架,包括编码器、解码器与语义模型;所述编码器采用CNN+LSTM的结构;所述解码器采用注意力机制+RNN的结构;所述语义模型是由两层全连接层与预训练语言模型构成的;所述预训练语言模型采用Facebook开源的Fasttext模型。

5.根据权利要求1所述的一种基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法,其特征在于,所述步骤3中,利用训练集与验证集分别训练目标检测器与识别器,方法如下:

输入:待识别文字图片;

目标检测器输出:蒙版Mask和边框Box;

识别器输出:文字内容;

设置最大训练epoch次数为30,初始化学习率为0.003,在10次epoch后调整为0.001,批处理大小设为4;利用ADAM优化器进行梯度更新;

训练过程中,每训练完成一个周期时,则利用验证集计算当前训练周期的损失函数值,并在当前训练周期下选择损失函数值最小的模型作为优化模型更新模型参数;直至达到最大训练epoch次数时,训练结束。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111142163.X/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top