[发明专利]一种场景文本检测方法及系统有效
申请号: | 202011599888.7 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112287931B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 朱仲杰;廖广龙;白永强;高明;王玉儿 | 申请(专利权)人: | 浙江万里学院 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 宁波市鄞州盛飞专利代理事务所(特殊普通合伙) 33243 | 代理人: | 龙洋 |
地址: | 315100 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 场景 文本 检测 方法 系统 | ||
本发明属于机器视觉技术领域,提供了一种场景文本检测方法,包括步骤:S1、通过预设方式获取场景文本图片;S2、将获取的场景文本图片进行预处理;S3、将预处理后的场景文本图片通过场景文本检测的训练模型进行检测,并获得检测结果。本发明还提供了一种场景文本检测系统,本发明的优点在于采用富特征结构网络Res2NeXt代替原PSENet主干网络ResNet以提高网络特征提取能力,从而提高网络的文本检测精度;在主干网路中合适位置添加混合池化,利用其不同内核形状的池化操作来收集有用的上下文信息,同时捕获不同位置之间的长短距离之间的依赖关系从而进一步提高网络文本检测精度。
技术领域
本发明涉及机器视觉技术领域,尤其涉及一种场景文本检测方法及系统。
背景技术
自然场景文本检测技术作为场景文本识别任务中的关键一环,其在计算机视觉应用场景中得到广泛的应用,如自动驾驶技术、无人超市和交通标志识别等。场景文本检测方法在各种文本系统中也发挥着重要的作用。然而,与一般目标检测相比,自然场景文本的检测更加复杂:(1)存在着字体、颜色、形状、方向和比例等各种文本变化的内部情况,使得算法无法进行精确的文本定位检测;(2)在自然场景中还存在光线照明程度不一和场景文本遮挡等外部实际情况,同样会使得自然场景文本检测具有很大的挑战性。
发明内容
本发明要解决的技术问题目的在于提供一种场景文本检测的模型训练方法及检测方法,用以解决原有网络结构检测不全面不精确的问题。
为了实现上述目的,本发明采用的技术方案为:
一种场景文本检测方法,包括步骤:
S1、通过预设方式获取场景文本图片;
S2、将获取的场景文本图片进行预处理;
S3、将预处理后的场景文本图片通过场景文本检测的的训练模型进行检测,并获得检测结果。
进一步的,步骤S3中获得训练模型的具体步骤为:
S31、通过预设方式获取场景文本图片,并建立数据集;
S32、将数据集中的场景文本图片进行处理;
S33、将预处理后的场景文本图片通过富特征结构网络Res2NeXt和混合池化进行训练,并得到训练模型。
进一步的,步骤S33的具体步骤为:
S331、从场景文本图片中获取多个单一层次的特征图;
S332、将多个单一层次的特征图分别通过混合池化获取特征图中不同类型的上下文信息以及不同位置之间的距离依赖关系;
S333、将混合池化后的特征图进行预设方式的融合得到不同层次的特征图;
S334、将不同层次的特征图合并得到融合特征图;
S335、将融合特征图通过渐进式尺度扩展算法得到预测场景文本图片;
S336、对得到的预测场景文本图片进行训练并得到训练模型。
进一步的,步骤S331具体过程为:
将场景文本图片按顺序通过第一卷积层和第二卷积层进行卷积后再进行相加,然后将其相加后的结果再通过第三卷积层卷积,将通过第三卷积层输出的结果与输入的图像进行相加得到第一层次特征图,将第一层次特征图重复经过上述过程,得到多个单一层次的特征图;
进一步的,步骤S332包括步骤:
S3321、将不同层次的特征图输入到混合池化模块中;
S3322、将输入的特征图分别进行带状池化和金字塔池化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江万里学院,未经浙江万里学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011599888.7/2.html,转载请声明来源钻瓜专利网。