[发明专利]一种印刷体字符图像样本的自动生成方法无效

申请号：	201110096820.1	申请日：	2011-04-18
公开（公告）号：	CN102184383A	公开（公告）日：	2011-09-14
发明（设计）人：	夏勇;王宽全;左旺孟;黎捷	申请（专利权）人：	哈尔滨工业大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/38
代理公司：	哈尔滨市松花江专利商标事务所 23109	代理人：	韩末洙
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种印刷体字符图像样本自动生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及字符图像样本的自动生成方法。

背景技术

印刷体字符的光学字符识别技术已经有了较为广泛的商业应用，但对于低质量或低分辨率的文档图像而言识别率还有待进一步提高。为了提高字符识别的精度，一般需要采集大量的字符图像样本来进行学习。学习样本的好坏往往直接决定了字符识别性能的高低，所以字符样本的采集非常重要。现有的字符采集方法一般是先将文本输入到字符编辑软件中，选择相应的字体和字号，然后打印成纸质文档，接着使用扫描仪转换为图像格式。为了得到单个字符样本，需要设计一个特别的字符分割算法，一般是利用字符间的间隙作为特征来进行分割。由于扫描的过程中会带来一定的噪声，以及在打印或扫描时由于纸质的放置不当会导致文档出现一定程度的倾斜，所以字符分割结果往往难以达到100％的精度。由于不同字符样本是一种串行的排列，一旦出现一个分割错误，将导致所有后续单元全部出现串位的现象。所以，在样本采集时，分割错误是不能容忍的。为了保证分割的有效性，一般在自动化分割结束后，还需要人工对分割结果进行校验。如果出现错误，还需要人工进行纠正。显然，字符样本的校验是一个繁琐且枯燥的工作，且人眼容易产生视觉疲劳而导致漏检等现象。

对于中文字符识别而言，识别的字符范围从一级国标的3755类开始，后来逐渐扩充到二级国标，字符类别数量增加到6763类，现在常用的GB18030-2000字库，字符类别已经达到了27533类，以及最新的GB18030-2005字库，字符类别已经达到了70244。中文字体也从最初的6种常用字体(宋体、黑体、楷体、隶书、幼圆、仿宋)扩充到现在的数十种。如果考虑字号从一号到小六共12个字号，字体共20种，字符类别为GB18030-2000中的27533类，则不同的字符样本数量为12×20×27533＝6607920。如果再考虑不同的扫描分辨率及其它扫描参数，字符样本数量将达到上亿个。如此巨大的样本数量，如果完全人工进行校验，需要耗费大量的时间与精力，且容易出现漏检或误操作。

同时，随着基于照相机的字符识别技术的发展，传统的基于扫描仪的字符样本并不是最恰当的学习样本，最好是直接基于照相机来采集字符样本，这样更有针对性。由于照相机得到的文档会存在透视变形，所以给自动化的文档字符分割带来了更大的难度。如何提取照相机得到的字符样本也成为了一个非常迫切的问题。

可见，一个具有100％分割精度的快速字符分割算法是值得期待的，这样可以免去人工的校验步骤，大大提高字符样本的采集速度与效率。该方法适用于任何语种的印刷体字符图像样本的生成。

发明内容

本发明是要解决现有的字符采集方法分割精度低，需进行人工校验，从而造成的样本采集的速度慢的技术问题，而提供一种印刷体字符图像样本的自动生成方法。

本发明的一种印刷体字符图像样本的自动生成方法按以下步骤进行：

步骤一：将印刷体字符输入到一个文本文件index.txt中，相邻两个字符之间插入一个空格，得到样本字符；

步骤二：在字符编辑软件中设计一个文档模板，并把文档模板区域内距四周边缘1cm～1.5cm的位置设置“矩形框状”定位区，定位区的框的宽度为0.9cm～1.2cm，在定位区内散布放置n个字号为m个points的定位块‘●’，其中n至少为4个，m的范围为12points～28points，再在定位区所包围的区域的上部划出来字符区，在定位区所包围的区域的下部划出来标题区，其中字符区和标题区相距0.5cm～1.0cm，字符区与定位区相距0.5cm～1.0cm，标题区与定位区相距0.5cm～1.0cm，将步骤一所述的样本字符输入到字符区，将标明样本字符内容特性的标识输入到标题区，得到文档D1；

步骤三：将文档D1转换为PDF格式的文档D2；

步骤四：将D2打印成纸质文档，用扫描仪扫描或照相机照相，得到图像格式的文档D3，其中扫描时采用的分辨率为g个dpi；

步骤五：从步骤三所述的文档D2中提取每个字符的外接矩形框的四个角点的位置坐标信息作为字符的坐标位置信息，从文档D2中提取每个定位块‘●’的外接矩形框的四个角点的位置坐标信息作为定位块‘●’的坐标位置信息，从文档D2中提取每个字符和定位块‘●’的ASCII码信息，再把字符的坐标位置信息、定位块‘●’的坐标位置信息、字符的ASCII码信息和定位块‘●’的ASCII码信息用XML格式进行保存，得到文档D4；

步骤六：将步骤二所述的文档D2转换为图像格式，得到文档D5；

步骤七：将步骤四所述的文档D3进行二值化，得到二值化图像D6；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学，未经哈尔滨工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110096820.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种印刷体字符图像样本的自动生成方法无效

专利文献下载