[发明专利]一种基于汉字笔画特征的中文文本图像倒置判别方法有效

申请号：	201710695383.2	申请日：	2017-08-15
公开（公告）号：	CN107609482B	公开（公告）日：	2021-02-19
发明（设计）人：	王建;庞彦伟	申请（专利权）人：	天津大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/40;G06K9/62
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	程毓英
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于汉字笔画特征中文文本图像倒置判别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于汉字笔画特征的中文文本图像倒置判别方法，包括下列步骤：

(1)判断输入扫描文本图像类型，如果是灰度图像，则保持不变；如果是彩色图像，则将将其转换为灰度图像，用I表示灰度图像；

(2)对灰度图像I进行去噪、对比度增强以及二值化处理，得到的二值化处理结果用B表示；

(3)将B划分为大小相等的36个子区域，选择靠近中心位置的16个子区域作为候选文本区域，用T_i,i＝1,2,...,16,表示；

(4)对于每个候选文本区域，按照下式计算其相应的中文本点的数目并做归一化处理，得到表示各候选文本子区域的特征的R_i：

式中，(s,t)∈T_i表示R_i中的各像素点坐标，B(s,t)表示对像素点(s,t)二值化处理的结果，M×N为灰度图像I的总像素点数；

(5)预设两个小于1的阈值TH₂和TH₃，对于某个T_i，如果满足TH₂R_iTH₃，则将相应的候选文本区域选为特征提取所用的文本区域，用H_k,k＝1,2,...,K,表示用于特征提取的文本区域集合，K为文本区域的总数；

(6)选择两个模板，模板1为用于描述汉字中左撇和右捺组成结构的“人”形笔画检测模板2为用于描述汉字中的横折笔画的形的笔画检测模板；

(7)使用笔画特征提取算法，计算文本区域所对应的特征值：N₁、N₂、M₁和M₂，笔画特征提取算法如下：

1)对于某个用于特征提取的文本区域H_k，用形态学细化技术对文本点进行细化处理，最终得到单像素宽的文字骨架结构信息，用S表示细化结果；

2)使用模板1和模板2，分别对S进行模板匹配，对于模板1，过程是：对于H_k中的某一个骨架点，将其与模板1的参考点位置对齐，然后对骨架点邻域内与模板1对应位置上各点进行“同或”运算；计算H_k内各骨架点“同或”运算结果的累加值，并做归一化处理，计算结果用U_k(j)表示，其中j表示H_k中的骨架点的序号，对于H_k中第j个骨架点，如果满足U_k(j)TH₃，则将该点标记为第1类特征点；对于模板2，按照类似的过程标记第2类特征点；

3)对于每个H_k中的所有骨架点，使用步骤2)判断该点是否是两类特征点，并分别对文本图像的第1类特征点和第2类特征点数进行累加，将两类特征点的总数分别作为两个特征值，用N₁和N₂表示；

4)将细化结果S旋转180°，处理结果用S′表示，对S′重复步骤2)和步骤3)，用M₁和M₂表示S′对应的第1类特征点和第2类特征点的总数；

(8)文本图像倒置检测：

1)根据特征量N₁、N₂、M₁和M₂，计算复合特征值F，即有

2)预设一个大于0.6的阈值TH₄，根据F的取值大小，判别文本图像是否存在倒置，即有

2.根据权利要求1所述的方法，其特征在于，取TH₂＝0.2，TH₃＝0.4；阈值TH₄在0.6～0.8之间取值。

3.根据权利要求1所述的方法，其特征在于，步骤(2)的步骤如下：

1)采用模板为3×3的中值滤波技术对灰度图像I进行去噪，处理结果用G表示；

2)采用CLAHE技术，对滤波结果图像G进行对比度增强处理，处理结果用E表示；

3)使用Otsu法计算E的全局阈值TH₁，并使用全局阈值TH₁对E进行二值化处理，处理结果用B表示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载