[发明专利]一种识别手写表格的方法及装置有效
| 申请号: | 200710178961.1 | 申请日: | 2007-12-07 |
| 公开(公告)号: | CN101452523A | 公开(公告)日: | 2009-06-10 |
| 发明(设计)人: | 刘迎建;徐明庆;王春明;王利娟 | 申请(专利权)人: | 汉王科技股份有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/34;G06K9/46 |
| 代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
| 地址: | 100094北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 识别 手写 表格 方法 装置 | ||
1.一种识别手写表格的方法,其特征在于,包括:
采集原始输入作为待分析笔画;
从所述待分析笔画中识别出非文字笔画;
按照以下步骤将所述非文字笔画分割为线段:计算笔画上每个点处的角度,如果计算结果小于角度阈值,则将该点判定为折线点,两两折线点构成线段;其中,按照以下步骤计算笔画上每个点处的角度:以该点为圆心、以预置阈值为半径的圆与笔画相交为两点,交点与圆心相连的半径形成的角度为该点的角度;
判定出水平和竖直方向的线段,并判断所述水平和竖直方向的线段是否构成封闭矩形,并且矩形内部是否至少包含一条水平线段或竖直线段;如果是,则所述构成封闭矩形的线段为表格边界线,所述封闭矩形内部的水平或竖直线段为内部表格线;
利用所述表格边界线和内部表格线构建表格结构,并填充表格内容;
其中,按照以下步骤判定出水平和竖直方向的线段:计算线段的长度、宽度和高度,将线段宽度与线段长度的比值小于竖直线段阈值的线段判定为竖直方向,将线段高度与线段长度的比值小于水平线段阈值的线段判定为水平方向;
按照以下步骤判断所述水平和竖直方向的线段是否构成封闭矩形,并且矩形内部是否至少包含一条水平线段或竖直线段:将竖直线段从左到右排序,构成潜在的表格列与列之间的分割线和表格的左右边界;将水平线段从上到下排序,构成潜在的表格行与行之间的分割线和表格的上下边界;如果水平线段中第一条线段的右端点和垂直线段中最后一条线段的上端点的距离大于重合距离阈值,或者,垂直线段中最后一条线段的下边端点和水平线段中最后一条线段的右端点的距离大于重合距离阈值,或者,水平线段中最后一条线段的左端点和垂直线段中第一条线段的下端点的距离大于重合距离阈值,或者,垂直线段中第一条线段的上端点和水平中第一条线段的左端点的距离大于重合距离阈值,则不构成封闭矩形,否则构成封闭矩形;对于构成封闭矩形的线段,如果垂直线段的线段个数小于2,或者,水平线段的线段个数小于2,或者,垂直线段与水平线段的线段个数之和小于5,则矩形内部没有至少包含一条水平线段或竖直线段。
2.根据权利要求1所述的方法,其特征在于,在识别非文字笔画的步骤之前还包括:对原始输入进行重新采样,得到以距离均匀的点列信息表示的笔画,作为待分析笔画。
3.根据权利要求1所述的方法,其特征在于,按照以下步骤识别出非文字笔画:计算笔画的长度,将长度大于长度阈值的笔画判定为非文字笔画。
4.根据权利要求1所述的方法,其特征在于,在分割笔画为线段的步骤之前还包括笔画分组的步骤:计算非文字笔画之间的距离,将计算结果小于成组阈值的非文字笔画划分为一组,分割笔画时分别对每组笔画进行分割;
其中,按照以下步骤计算非文字笔画之间的距离:以最小矩形包围笔画,计算两个矩形水平方向间隔和竖直方向间隔之和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉王科技股份有限公司,未经汉王科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710178961.1/1.html,转载请声明来源钻瓜专利网。





