[发明专利]光学字符识别中的版面分析在审
申请号: | 201710508019.0 | 申请日: | 2017-06-28 |
公开(公告)号: | CN107301418A | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 熊雪梅;化春键 | 申请(专利权)人: | 江南大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/40;G06K9/46 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 214122 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 版面分析是光学字符识别中至关重要的一步。版面分析为后续的字符分割奠定了基础。本发明主要通过三种类型的图像中介绍了版面分析的具体方法。对于简单版块的文本图像,主要通过投影分割法划分区域。对于多版块的文本图像,主要通过二分法划分区域。对于背景复杂、字符较少的文本图像,主要通过二值边缘法划分出字符图像。 | ||
搜索关键词: | 光学 字符 识别 中的 版面 分析 | ||
【主权项】:
对于光学字符识别中版块较为简单的文本图像,它并没有表格、插画等的干扰,其中只含有横排或竖排字符。在这种情况下,版面划分的主要目的是划分出横排或者竖排的文字。通过对文本图像的分析,大多数的文本段落的行间距的宽度都会小于文字行的宽度。从这方面着手,对于简单图像版面分析的具体步骤如下:第一步,首先对文本图像进行一些必要的处理,去除噪声的干扰,为后续操作打下基础。第二步,在X方向上进行水平投影,在每行字符间会存在空白区域,此区域的宽度可能会大小不一;当然每行字符也会存在一定的宽度。若空白区域宽度大于临近的字符行区域宽度,则将其视为段落间距进行分割;若空白区域宽度小于临近的字符行区域宽度,则将其视为行间距,不进行分割。第三步,在进行第二步的操作后,如果X方向上暂时无可分割处或者已完成X方向上的分割,则采取第二步中同样的思想,对Y方向进行投影及分割。直到完成整个投影分割法的版面划分过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710508019.0/,转载请声明来源钻瓜专利网。