[发明专利]一种基于碑帖的毛笔字分割识别方法有效

申请号：	201710102303.8	申请日：	2017-02-24
公开（公告）号：	CN106980857B	公开（公告）日：	2020-05-05
发明（设计）人：	郭东岩;赵玮瑄;崔滢;刘盛	申请（专利权）人：	浙江工业大学
主分类号：	G06K9/34	分类号：	G06K9/34;G06K9/62
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省杭***	国省代码：	浙江;33
权利要求书：	暂无信息	说明书：	暂无信息
摘要：	一种基于碑帖的毛笔字分割识别方法，包括以下步骤：步骤1：处理训练集图片；步骤2：训练样本预处理操作；步骤3：读取步骤2中处理好的图片进行模型的训练，特征矩阵MLH和特征向量矩阵Me是根据碑帖训练出来的模型；步骤4：整图文字分割，把一张图中的毛笔字从图中分割出来；步骤5：判断步骤4中分割出的文字属于碑帖中的哪一个文字，得到该图片的降维特征矩阵MP；计算相似度，计算MP与MLH每一行的距离Dist，求出最小值的那一行所表示的汉字就是需要识别的汉字。本发明提供一种有效实现毛笔字分割、识别准确率高、识别速度快的基于碑帖的毛笔字分割识别方法。
搜索关键词：	一种基于碑帖毛笔字分割识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于碑帖的毛笔字分割识别方法，其特征在于：所述方法包括以下步骤：步骤1：处理训练集图片，处理内容包括图像格式转化、图像的归类操作；步骤2：训练样本预处理操作，首先，对样本进行中值滤波操作，其次，再将文字分割出来，将分割的区域进行归一化处理，最后将分割好的区域保存；步骤3：读取步骤2中处理好的图片进行模型的训练，过程为：步骤3.1读取碑帖中的内容，生成一个文字集合C，C中保存在该碑帖中的不重复的文字，并根据集合C从步骤2处理好的训练样本中读取用于训练的图片路径；步骤3.2：特征提取使用的是HOG特征，构成特征矩阵MH；步骤3.3：采用PCA的降维方法降低训练特征MH的维度；经过降维操作得到一个特征向量矩阵Me，根据Me计算得到降维的特征矩阵MLH，计算公式如下：MLH＝MH×Me其中，MH的列数和Me的行数相等；步骤3.4：保存降维后的特征矩阵MLH，特征矩阵MLH和特征向量矩阵Me是根据碑帖训练出来的模型，此模型用于后续的毛笔字识别；步骤4：整图文字分割，把一张图中的毛笔字从图中分割出来，过程为：步骤4.1：整图预处理，首先进行中值滤波，然后对图片进行二值化处理，最后将得到的图片进行反色处理；步骤4.2：在经过4.1步骤的图片的基础上，根据图片的大小对图片进行膨胀操作；步骤4.3：利用Laplacian算子进行边缘检测，提取检测到的边缘，将检测到的边缘构成矩形框，并将所有矩形框保存，构成一个边缘集合Co；步骤4.4：对Co进行初步的筛选，判断Co中的矩形框是否重合，重合就认为这两个矩形框是同属于一个汉字，就把两个矩形框合并，保存新的矩形框到集合CM中；步骤4.5：判断CM中的矩形框的距离是否很近，设置阈值DistH，当两个矩形框的距离小于DistH时，认为是同一个汉字中的一部分，将所有矩形保存到新的集合CFP中；最后，将CFP中宽高比异常的矩形框剔除，得到集合CF；步骤4.6：根据CF的区域，从原图中将对应区域分割出来并保存，保存的图片用于后续的识别操作；步骤5：判断步骤4中分割出的文字属于碑帖中的哪一个文字，过程如下：步骤5.1：将步骤3中训练的模型导入，用于识别操作；导入的模型包含MLH和Me这两个矩阵；步骤5.2：将分割的文字进行图像的预处理和特征提取的操作；步骤5.3：将步骤5.2中提取出的特征与特征向量矩阵Me相乘，得到该图片的降维特征矩阵MP；步骤5.4：计算相似度，计算MP与MLH每一行的距离Dist，计算方法如下：Dist＝(MLH(i,0)‑MP0)2+(MLH(i,1)‑MP1)2+…+(MLH(i,n)‑MPn)2,求出最小值的那一行所表示的汉字就是需要识别的汉字。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710102303.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于碑帖的毛笔字分割识别方法有效

专利文献下载