[发明专利]一种电子档版式文件中的表格区域识别与内容栅格化方法有效
申请号: | 201410468382.0 | 申请日: | 2014-09-15 |
公开(公告)号: | CN104268545B | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 张晓博;张保亮;张斌 | 申请(专利权)人: | 同方知网(北京)技术有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/46 |
代理公司: | 北京天奇智新知识产权代理有限公司11340 | 代理人: | 刘黎明 |
地址: | 100084 北京市海淀区清华园清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种电子档版式文件中的表格区域识别与内容栅格化方法,该方法包括提取版面中的原始线条和文本信息;对原始线条进行预处理;取左右位置相同的一组水平线,并对每组相邻两条水平线间是否需要分割进行判断;通过分割后的水平线或无分割的水平线组成外接矩形区域,并判断所述区域是否是一个表格区域;对表格区域内的表格水平垂直投影,并栅格化;对栅格化表格内容归位。本发明提供的方法在很大程度上实现表格区域以及格栅化的自动化,从而实现阅读顺序的高效、正确的排序,也为表格矢量无损重现奠定了一定的基础。 | ||
搜索关键词: | 一种 电子 版式 文件 中的 表格 区域 识别 内容 栅格 方法 | ||
【主权项】:
一种电子档版式文件中的表格区域识别与内容栅格化方法,其特征在于,所述方法包括:A提取版面中的原始线条和文本信息;B对原始线条进行预处理;C取左右位置相同的一组水平线,并对每组相邻两条水平线间是否需要分割进行判断;D通过分割后的水平线或无分割的水平线组成外接矩形区域,并判断所述区域是否是一个表格区域;E对表格区域内的表格水平垂直投影,并栅格化;F对栅格化表格内容归位;上述步骤C中需要分割的相邻两条线分成N组水平线,其中,N>1,需要分割的三种情况为:相邻两条线出现了表格的标头特征,则靠下方的那条线是一个新表格的开始框线;相邻两条线之间的纵向投影规律不符合表格的特征;相邻两条线之间有横穿该相邻两条线组成的矩形区域的文本;上述步骤E具体包括:根据表格区域内的原始文本的坐标位置,循环在相邻水平线之间分别进行水平和垂直方向投影,并根据投影规律识别表格内部框线,并通过识别的内部框线格栅化表格。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410468382.0/,转载请声明来源钻瓜专利网。
- 上一篇:箱胆组件、蒸发器组件和冰箱
- 下一篇:冰箱