[发明专利]一种基于自学习色彩聚类的自然场景文本检测的方法有效
申请号: | 201710021572.1 | 申请日: | 2017-01-12 |
公开(公告)号: | CN106874905B | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 郭建京;邹北骥;吴慧;杨文君;徐子雯 | 申请(专利权)人: | 中南大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于自学习色彩聚类的自然场景文本检测的方法,首先,将层次聚类和参数自学习策略结合,设计一种自适应色彩聚类方法,提取图像中的候选字符,该自适应色彩聚类方法能针对不同图像自动学习权重阈值,有较好的字符召回率。然后,通过训练Adaboost分类器,构建字符验证模型,移除非文本字符;最后,合并字符构建文本行,并通过后处理得到文本检测结果。与传统的方法相比,本方法能获得较高的文本检测召回率,且检测的文本结果较为准确。 | ||
搜索关键词: | 一种 基于 自学习 色彩 自然 场景 文本 检测 方法 | ||
【主权项】:
1.一种基于自学习色彩聚类的自然场景文本检测方法,其特征在于,包括以下步骤:步骤1:将待进行文本检测图像I中的每个像素点的R、G、B色彩值投影到三维色彩空间中,对三维色彩空间进行等间距划分,每个三维色彩空间立方体作为一个层次聚类基本单元;以每个三维色彩空间立方体中所有像素点的色彩均值作为层次聚类基本单元的特征c;步骤2:初始化层次聚类基本单元的特征权重向量w,w=(wr,wg,wb,wθ);其中,wr,wg,wb分别为层次聚类基本单元像素点的R、G、B的色彩距离权重,wθ为聚类阈值;步骤3:以层次聚类基本单元的特征权重向量,依次计算任意两个层次聚类基本单元之间的颜色距离;步骤4:将颜色距离最小的两个层次聚类基本单元进行合并,获得新的层次聚类基本单元,并计算新的层次聚类基本单元的特征c,以层次聚类基本单元合并构建对应的层次聚类树,返回步骤3,直到层次聚类基本单元数量为1;步骤5:构建正样本和负样本的特征向量;依据聚类阈值wθ,对步骤4中构建的层次聚类树进行划分,得到层次聚类森林,以层次聚类森林中同一棵子树下的任意两个初始的层次聚类基本单元的颜色距离作为正样本的特征向量,以层次聚类森林中不同子树下的任意两个初始的层次聚类基本单元的颜色距离作为负样本的特征向量;步骤6:利用层次聚类基本单元的特征权重向量w的当前取值,并采用激活函数对步骤5构建的正样本和负样本的特征向量进行样本类别预测,并利用样本类别预测值和样本本身的类别属性,构建权重向量w的似然函数,通过最大化似然函数求得新的层次聚类基本单元的特征权重向量w,若更新后的w使得构建的似然函数的最大值收敛,则以新的层次聚类基本单元的特征权重向量w,重新构建层次聚类森林,否则,返回步骤3;步骤7:依次以步骤6获得的层次聚类森林中每一颗子树包含的所有初始层次聚类单元中像素点进行合并,构建对应的色彩层;步骤8:从每个色彩层中提取连通域,得到候选字符,用分类器对候选字符进行筛选,对经过筛选后的候选字符进行字符合并,得到文本行;对文本行进行单词划分,得到文本检测结果;所述步骤8中用于对候选字符进行筛选的分类器为Adaboost分类器,采用如下过程训练获得:首先,将ICDAR2013数据库中训练集的每一幅图像执行步骤1‑7,从得到的色彩层中提取候选字符;然后,将候选字符与真实标定的字符进行像素点匹配,构建训练正负样本集合;接着,从训练正负样本集合中,随机选取30000个训练正样本和30000个训练负样本作为构建Adaboost分类器的训练集;最后,提取训练集中每一个样本的几何特征和HOG特征,训练Adaboost分类器,得到用于验证候选字符的Adaboost分类器;所述用分类器对候选字符进行筛选,是指提取每一个候选字符的几何特征和HOG特征,输入训练好的Adaboost分类器进行候选字符验证,移除非文本字符,保留文本字符;所述对经过筛选后的候选字符进行字符合并,得到文本行的具体过程如下:将验证之后的字符两两组合,形成字符对,将宽高比、水平距离和颜色距离满足以下条件的字符对视为文本字符对,合并包含相同连通域的文本字符对,构建文本行:![]()
|mean(R1)‑mean(R2)|<80其中,w(·)和h(·)分别表示字符的宽度和高度;hd和vd分别表示字符区域R1和R2两个中心点之间的水平距离和垂直距离;mean(R)表示字符区域R中像素点的色彩均值;所述对文本行进行单词划分,是指对相邻的两个字符间水平间距dh进行判断,若满足
则进行一次划分,得到划分后的单词;其中,dh为相邻字符之间的水平间距,
为所有字符水平间距的均值,α为字符平均间距缩放系数,取值为1‑2,β为所有字符水平间距的中位数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710021572.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种车牌图片矫正方法及装置
- 下一篇:一种图片的二值化方法、装置及终端