[发明专利]表格内容自动录入方法和装置有效
申请号: | 201410097831.5 | 申请日: | 2014-03-17 |
公开(公告)号: | CN103902995B | 公开(公告)日: | 2017-11-07 |
发明(设计)人: | 乔东江;吴晨 | 申请(专利权)人: | 西安汇龙科技股份有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20 |
代理公司: | 北京鸿元知识产权代理有限公司11327 | 代理人: | 许向彤,陈英俊 |
地址: | 710075 陕西省西安市*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格 内容 自动 录入 方法 装置 | ||
技术领域
本发明涉及图像识别技术领域,具体地说,涉及一种表格内容自动录入方法和装置。
背景技术
目前,很多单位和机构每年每月都要处理大量的表格。为了对这些表格的内容进行统计和管理,通常需要先将这些表格的内容录入到信息化管理系统中。
具体地,以发票为例进行说明。每种类型的发票都具有特定的格式。一张发票通常包括多个处于预定位置处的条目,例如开票日期、付款单位、发票代码、发票号码、行业类别、机打票号、查询码、防伪码、项目、金额、密码区、合计(大写)、合计(小写)、备注、收款单位税号、收款单位、开票人等,在每个条目的右侧或下方是与该条目对应的留白区域,用于填充与该条目对应的内容,一般地,这些内容包括文字、数字、字母等。
可以通过人工的方法将发票的内容(包括条目以及与各条目对应的内容)录入到信息化管理系统中,但这种方法在待处理的发票数目很多时效率较低。也可以通过自动识别的方法将发票的内容录入到信息化管理系统中。具体说,先将内容待录入的发票进行扫描,形成扫描图像,然后对该扫描图像进行自动识别,以确定并存储与各个条目对应的内容。然而,通过自动识别来录入发票内容的现有方法在解决下列问题上存在不足:1)现有的中文识别算法的识别错误率比较高,特别是在背景干扰(例如印章残迹、污斑、发票品相所引起的干扰)比较大的情形中;2)在很多情形中,发票的内容是通过打印机打印出来的,在打印时,打印的发票内容会发生错位,偏离其应在的位置(即偏离其应该填入的留白区域),从而增大其识别难度并降低其识别精确度。
发明内容
本发明就是为了解决上述现有技术中存在的问题而做出的,其目的在于提供一种表格内容自动录入方法和装置,以克服表格内容自动录入过程中表格背景对表格内容识别的干扰以及表格内容错位对表格内容识别的影响,从而提高表格内容自动录入的准确性。
为了实现上述目的,在本发明的一个方面,提供一种表格内容自动录入方法,该方法包括:a)对内容待录入表格进行扫描以形成该表格的扫描图像,并根据空白表格扫描图像数据库中的空白表格扫描图像的类型识别特征对所述内容待录入表格的扫描图像进行类型识别以确定所述内容待录入表格的扫描图像所对应的空白表格扫描图像;b)将所述内容待录入表格的扫描图像与其所对应的空白表格扫描图像对齐,求得该两个扫描图像的差值图像,并根据该空白表格扫描图像中预先标定的表格条目留白区域的原始位置在该差值图像中标定表格条目留白区域的原始位置;c)计算所述差值图像中的所有表格条目留白区域的公共外部像素的像素值之和,并通过所述差值图像中的表格条目留白区域相对于该差值图像的平移和转动来确定所述公共外部像素的像素值之和最小时所述表格条目留白区域所在的匹配位置;d)对处于匹配位置处的每个表格条目留白区域中的表格内容进行自动识别,并将识别结果与该表格条目留白区域所对应的表格条目关联地存储起来。
其中,步骤a)中对所述内容待录入表格的扫描图像进行类型识别的方式可以包括自动识别或人工识别或二者的结合。
优选地,求得所述内容待录入表格的扫描图像与其所对应的空白表格扫描图像的差值图像的步骤可以包括:求出对齐后的该两个扫描图像的对应像素的像素值的差值,并以该差值作为所述差值图像的相应像素的像素值。或者,优选地,求得所述内容待录入表格的扫描图像与其所对应的空白表格扫描图像的差值图像的步骤可以包括:求出对齐后的该两个扫描图像的对应像素的像素值的差值,如果该差值小于第一阈值,则所述差值图像的相应像素的像素值为0,如果该差值大于第一阈值,则所述差值图像的相应像素的像素值为1。
另外,优选地,所述差值图像中的表格条目留白区域相对于该差值图像的平移和转动可以包括:所述差值图像中的所有表格条目留白区域相对于该差值图像的整体平移和转动。进一步优选地,所述差值图像中的表格条目留白区域相对于该差值图像的平移和转动还可以包括:所述差值图像中的每个表格条目留白区域相对于该差值图像的单独平移和转动。
如果步骤d)中的识别结果为不可识别,则该方法还可以包括对该表格条目留白区域中的表格内容进行人工录入。
根据本发明的另一方面,提供一种表格内容自动录入装置,该装置包括:扫描成像单元、识别单元、差值图像形成单元、计算单元、表格条目留白区域匹配单元、存储单元,其中,
所述扫描成像单元对内容待录入表格进行扫描以形成该表格的扫描图像,所述识别单元根据空白表格扫描图像数据库中的空白表格扫描图像的特征对所述内容待录入表格的扫描图像进行类型识别以确定所述内容待录入表格的扫描图像所对应的空白表格扫描图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安汇龙科技股份有限公司,未经西安汇龙科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410097831.5/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法