[发明专利]基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法有效

专利信息
申请号: 201810103800.4 申请日: 2018-02-01
公开(公告)号: CN108345850B 公开(公告)日: 2021-06-01
发明(设计)人: 邬向前;卜巍;唐有宝 申请(专利权)人: 哈尔滨工业大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/20;G06K9/34;G06K9/46;G06K9/62;G06K9/66
代理公司: 哈尔滨龙科专利代理有限公司 23206 代理人: 高媛
地址: 150000 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法,所述方法包括如下步骤:一、字符区域提取:(一)基于超像素的笔画特征变换:(1)超像素分割和聚类;(2)删除背景区域;(3)区域细化;(二)基于深度学习的区域分类:(1)特征提取;(2)特征融合;(3)区域分类;二、文本区域检测:(1)候选文本区域生成;(2)候选文本区域分类。本发明的方法不仅可以实现自然场景中不同大小的文本检测,而且可以实现自然场景中不同颜色的文本检测,包括与背景颜色接近的文本,还可以实现复杂背景下的文本检测,如栅栏、窗户等场景中的文本检测。
搜索关键词: 基于 像素 笔画 特征 变换 深度 学习 区域 分类 场景 文本 检测 方法
【主权项】:
1.一种基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法,其特征在于所述方法步骤如下:一、字符区域提取(一)基于超像素的笔画特征变换(1)超像素分割和聚类a、将输入图像I∈RM×N调整到一个固定的高度h,并保持其纵横比,当高度大于h时,使用边缘保持过滤器平滑,图像被分割成K个超像素,使用线性迭代聚类算法使其在组合的颜色和图像平面空间中聚集像素,定义超像素S的颜色描述符如下:f=(r,g,b,l,a,b,h,s,v);式中,(r,g,b)、(l,a,b)和(h,s,v)分别是在RGB、CIELab和HSV颜色空间中像素的值,将每个分量线性归一化到[0,1]之间;b、用每对超像素之间的欧氏距离构造距离矩阵,基于此距离矩阵,利用平均链路层次聚类算法对超像素进行聚类,将原始图像分成不同的区域;(2)删除背景区域a、给定一个图像I∈RM×N,通过应用结构化随机决策林预测局部边缘,直接提取边缘概率图EPM∈[0,1]M×N和一个渐变方向图GOM∈[‑π,π]M×N,其中每个像素的值分别表示其在原始图像中作为边缘点及其渐变方向的概率;b、将非极大值抑制应用到有像素的梯度方向的EPM,然后用一个低的阈值进行二值化,提取I的边缘图像E;c、利用距离变换对边缘图像E进行欧氏距离计算得到I的距离映射,并以DM表示;d、定义R和(w,h)表示一个区域及其边界矩形的大小,#(R)表示R中像素的个数,sum(DMp)和#(P)表示从距离映射DM获得的R边界上的像素距离值的总和以及R的边界上的像素数目,sum(DMp)/#(P)是从R边界上的像素到边缘的平均距离;e、使用步骤d中的定义,场景中的字符的以下先验用于删除大部分背景区域:①如果是字符区域,w/M和h/N不应超过阈值;②应该超过一个阈值;③如果一个区域不能满足①‑③规则中的一个,就被视为一个背景区域;在对所有区域应用以上规则之后,大部分的背景区域被删除掉;(二)基于深度学习的候选字符区域分类(1)特征提取a、颜色特征根据候选区域及其边界矩形区域计算以下三个颜色特征向量:第一个颜色特征向量由RGB、CIELab和HSV颜色空间中候选区域的平均颜色组成,它是一个9维颜色特征向量;第二个颜色特征向量是从CIELab颜色空间中的CCR计算出的颜色分布的48维直方图,即48维颜色特征向量;第三个颜色特征向量是在CCR的边界矩形区域中的背景区域计算出的颜色分布的48维直方图,即48维颜色特征向量;b、纹理特征利用梯度直方图捕获区域的外观特征;c、几何特征提取以下几何特征区分字符区域和背景:1)候选区域的像素数与候选区域边界框的面积之比;2)候选区域边界框的纵横比:3)候选区域边界框的宽度和高度与输入图像的宽度和高度的比值;4)图像边界上的ccr的像素数与ccr的轮廓上的像素总数之比;5)CCR中像素的描边宽度的平均值和方差;d、深层特征使用用于深度特征提取的CNN从CCRs的边界矩形区域中学习深层的高级特征;(2)特征融合a、对于手工设计的特征融合,即颜色特征、纹理特征和几何特征的融合,首先将每个特征线性地标准化到[0,1],然后将它们输入一个由两个分别有256个节点和128个节点的fc层和一个softmax层组成的用于手工设计的特征融合的全连接网络训练,训练之后,将最后fc层的128个输出作为初始融合特征;b、将深层特征和初始融合特征连接起来,并将它们的组件线性标准化到[0,1],然后将它们放入具有512和256个节点的fc层和一个softmax层构成的用于融合初始融合特征和深度特征的全连接网络中训练,训练之后,使用最后fc层的输出作为最后融合特征,在测试阶段代表每个输入图像的特征;c、将训练的模型作为初始权重,共同训练用于深度特征提取的CNN、用于手工设计的特征融合的全连接网络和用于融合最初的融合特征和深度特征的全连接网络;(3)区域分类利用随机森林回归对训练数据集进行训练;二、文本区域检测(1)候选文本区域生成给定一组从输入图像中提取的字符区域,其边界框表示为bi’=(xi’,yi’,wi’,hi’),i=12,..,m,m是框的数量,(xi’,yi’)和(wi’,hi’)是左上角点的坐标和bi’的尺寸,坐标的原点是图像的左上角;按照以下步骤生成候选文本区域:a、找到最左侧未处理的框Bl’;b、获得一组基于B1=Bl’的框B,通过迭代寻找框Bj=(xj,yj,wj,hj),它最接近Bj‑1且满足以下条件:yj‑1‑hj<yj<yj‑1+hj‑1;c、计算B中相邻框Bj和Bj+1之间的距离:dj,j+1=xj+1‑xj‑wj,if#(B)≥2;其中,#(B)表示B中的方框数;d、根据B中方框的数量生成文本区域:1)当#(B)=1时,直接将B1的相应CCR设置为CTR;2)当#(B)=2时,如果d1,2>(h1+h2)/2,设置B1和B2相应的CCRs为两个CTR;否则,把它们作为一个CTR;3)当#(B)>2时,找到满足如下距离条件的相邻框Bj和Bj+1:然后将它们设置为B上的分割点以生成CTRs;e、重复步骤a到步骤d,直到处理完所有的框。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810103800.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top