[发明专利]基于遗传算法和字符识别技术的碎片复原方法在审

专利信息
申请号: 201410338609.X 申请日: 2014-07-16
公开(公告)号: CN104143095A 公开(公告)日: 2014-11-12
发明(设计)人: 樊锁海;许荷东;庄子炜;郑晶 申请(专利权)人: 暨南大学
主分类号: G06K9/20 分类号: G06K9/20;G06F17/30
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 陈燕娴;李斌
地址: 510632 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 遗传 算法 字符 识别 技术 碎片 复原 方法
【权利要求书】:

1.基于遗传算法和字符识别技术的碎片复原方法,其特征在于,包括下述步骤:

S1、建立英文字符数据库,通过字符提取技术,在字符图像中提取不同字体、不同字号的26个大小写英文字母的灰度矩阵;在获取各个字符的灰度矩阵后,将分别通过各个字符的灰度矩阵统计字符的大小和字符基准线距离两方面信息,并将其储存在英文字符数据库;

S2、对字符进行识别,若需要识别的字符并没有被切割,直接上述的字符提取技术,将需要识别的字符提取出来;若需要识别的字符并切割,可先将其进行拼接后,再利用上述的字符提取技术,将需要识别的字符提取出来;

S3、对碎片进行分行聚类,由于处理对象是纵横切碎片,需要先对碎片进行分行,将属于同一横行的碎片找出来;这一过程称为分行聚类,每一行被称为每一类;所述分行聚类的基础是上述的字符识别技术和基准线距离信息,通过聚类向量、聚类中心和聚类距离,完成这一分行聚类过程;

S4、经过分行聚类技术后,所有碎片已经分到各自所属行中;然后通过行内拼接技术,完成每一行的行内碎片拼接;

S5、利用行间拼接技术进行碎片拼接,行间拼接技术主要的基础是基准线位置;利用相邻两个文本行的基准线间距一致原理完成这一操作。

2.根据权利要求1所述的基于遗传算法和字符识别技术的碎片复原方法,其特征在于,步骤S1中,建立英文数据库的具体步骤为:

S1.1、以字符提取技术得到的每个字符的边缘为边界,提取每个字符的灰度矩阵,并以之为基础,建立英文字符的数据库,即针对字符图像矩阵L=(lij)p×q,p×q指的是字符图像矩阵的规模,定义其中包含的一个字符的边缘值如下:

左边缘(Leftmost side):min{j|lij=1,i=1,…,p;j=1,…,q};

右边缘(Rightmost side):max{j|lij=1,i=1,…,p;j=1,…,q};

上边缘(Top edge):min{i|lij=1,i=1,…,p;j=1,…,q};

下边缘(Bottom edge):max{i|lij=1,i=1,…,p;j=1,…,q};

S1.2、通过上述字符提取技术得到的每个字符的灰度矩阵是数据库的储存内容之一,以便与接下来的字符识别工作;

S1.3、字符的大小特征信息包括字符的高度和宽度;这两个信息都可以通过字符的灰度矩阵得到;具体方法为:

字符的高度定义为,字符灰度矩阵的行数,即上边缘与下边缘之间的距离;

字符的宽度定义为,字符灰度矩阵的列数,即左边缘与右边缘之间的距离;

S1.4、若将所有英文字符放在同一行中,并进行水平投影,便可得到一投影条形图;投影条形图最顶端的水平线称为上基准线,最底端的水平线称为下基准线;对于不同的字符,都存在字符和上下基准线之间的距离,即每个字符都和基准线有两个距离,所述两个距离包括和上基准线的距离以及和下基准线的距离;将这两个基准线距离储存在数据库中。

3.根据权利要求1所述的基于遗传算法和字符识别技术的碎片复原方法,其特征在于,步骤S2中,字符识别技术的步骤为:

S2.1、将需要识别的字符提取出来,并根据需要识别的字符的大小特征信息在英文字符数据库中寻找是否存在与之相同高度和宽度的字符,如不存在,可直接判断该字符不能被识别,如存在,将需要识别的字符的灰度矩阵,和数据库中与之有相同大小特征的字符的灰度矩阵进行对比匹配;

S2.2、为了衡量标准化,设定一个阈值,若两者灰度矩阵的相同元素个数高于阈值,需要识别的字符将被认为和数据库中的字符相匹配,并确定已被识别;若低于阈值,需要识别的字符将被认为无法识别;

S2.3、如果需要识别的字符被成功识别,其基准线的位置通过调用数据库里该字符的基准线距离也被确定。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410338609.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top