[发明专利]文档编号自动识别方法在审
申请号: | 201811282479.7 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109446997A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 段磊;梁卫国;刘涛;李伟鹏;张宁;夏红燕;于萌;赵彦龙 | 申请(专利权)人: | 国网山东省电力公司淄博供电公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
代理公司: | 青岛发思特专利商标代理有限公司 37212 | 代理人: | 耿霞;程强强 |
地址: | 255000 山东省淄博市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动识别 文档 编号识别 手写 自动编码器 稀疏 大规模数据集 图像采集装置 自动识别算法 信息化建设 准确度 传统模板 管理技术 模板匹配 匹配算法 扫描文档 涉密文档 涉密载体 特征匹配 网络模型 字符识别 错误率 欧拉数 构建 书写 融合 研究 | ||
本发明涉及涉密载体管理技术领域,具体涉及一种文档编号自动识别方法,通过图像采集装置扫描文档编号,并区分文档编号书写形式,分为采用基于特征匹配的机打编号识别方法和基于稀疏自动编码器的手写编号识别方法,本发明针对当前涉密文档信息化建设中的文档编号自动识别方法开展研究,通过提出融合欧拉数和模板匹配的机打编号自动识别算法,有效改善了传统模板匹配算法在相似字符识别中错误率较高的不足,而且较大幅度的提升了自动识别的速率。另外,针对不同人手写编号差距较大,难以采用传统识别方法实现编号识别的困难,本发明构建了大规模数据集,训练了深度稀疏自动编码器网络模型,实现了手写编号的高准确度自动识别。
技术领域
本发明涉及涉密载体管理技术领域,具体涉及一种文档编号自动识别方法。
背景技术
随着信息技术和网络技术的不断发展,涉密文件档案的信息化建设和智能化管理在档案事业发展中扮演着越来越重要的角色。因涉密文档材料的特殊性,在一定程度上影响了其数字化的进程,例如,目前实体涉密文件收发登记方式仍然需要通过人工录入等手段,将相关信息在数据库中进行归集、汇总和索引,以便于信息的检索和查询。
在文档资料管理过程中,通常需要为每一份文档分配一组唯一的文档编号,作为该文档的识别码,这不仅方便于文档的分类存放,也便于文档查询。因此,在实体涉密文件的收发登记时,可以通过图像采集的方式获取文档编号,然后基于文档编号自动识别技术实现涉密文件的自动收发登记。因此,文档编号的自动识别成为涉密文件收发信息准确登记的关键影响因素。按照书写形式不同,文档编号分为机打编号和手写编号两种,且文档编号通常由英文字母、数字、连接线混合编写组成。正是由于文档编号书写形式不同和复杂的组编方式,导致文档编号识别的准确度与实际需求产生较大差距。
目前已有编号自动识别算法主要针对纯数字序号或机打印书体编号,编号模式比较简单,数据量较小。这些编号自动识别算法无法直接应用于文档编号的自动识别中。
显然,现有的涉密文档收发文登记方式已不能够满足智能化管理的需要,因此急需通过一套先进的管理系统对各类收发文件进行归类登记和汇总,在减少人员投入的同时,确保重要文件数量及传阅路径的全过程管控,利用信息化手段提高工作效率。
发明内容
为了解决上述技术问题中的不足,本发明的目的在于:提供一种文档编号自动识别方法,较大幅度的提升了自动识别的速率和准确度。
本发明为解决其技术问题所采用的技术方案为:
所述文档编号自动识别方法,通过图像采集装置扫描文档编号,并区分文档编号书写形式,分为采用基于特征匹配的机打编号识别方法和基于稀疏自动编码器的手写编号识别方法,所述基于特征匹配的机打编号识别方法包括以下步骤:
(1)构建样本标准模板库,样本标准模板库中的标准样本是经过二值化处理的数字模板,且模板大小相同;
(2)将采集的文档编号标准化为与二值化处理的数字模板大小相同;
(3)通过计算文档编号欧拉数进行前期粗分类,然后进行模板匹配识别;
(4)通过模板匹配相似度计算公式,进行模板匹配识别,从待识别文档编号中提取若干特征量与已有数字模板相应的特征量逐个进行比较,计算它们之间规格化的相关量,其中相关量最大的一个就表示其间相似程度最高,可将文档编号归于该类;
(5)对于未正确识别的文档编号,则采用人工更正方式保证录入文档收发系统的文档编号正确;
所述基于稀疏自动编码器的手写编号识别方法包括以下步骤:
1)对手写的文档编号进行预处理,主要包括去噪增强预处理,字体校正处理,并进行文档编号分割,将所有手写文档编号大小归一化为同一像素,用做网络输入;
2)对深度稀疏自动编码器设置初始网络参数,对手写的文档编号进行识别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司淄博供电公司,未经国网山东省电力公司淄博供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811282479.7/2.html,转载请声明来源钻瓜专利网。