[发明专利]文档编号自动识别方法在审
申请号: | 201811282479.7 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109446997A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 段磊;梁卫国;刘涛;李伟鹏;张宁;夏红燕;于萌;赵彦龙 | 申请(专利权)人: | 国网山东省电力公司淄博供电公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
代理公司: | 青岛发思特专利商标代理有限公司 37212 | 代理人: | 耿霞;程强强 |
地址: | 255000 山东省淄博市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及涉密载体管理技术领域,具体涉及一种文档编号自动识别方法,通过图像采集装置扫描文档编号,并区分文档编号书写形式,分为采用基于特征匹配的机打编号识别方法和基于稀疏自动编码器的手写编号识别方法,本发明针对当前涉密文档信息化建设中的文档编号自动识别方法开展研究,通过提出融合欧拉数和模板匹配的机打编号自动识别算法,有效改善了传统模板匹配算法在相似字符识别中错误率较高的不足,而且较大幅度的提升了自动识别的速率。另外,针对不同人手写编号差距较大,难以采用传统识别方法实现编号识别的困难,本发明构建了大规模数据集,训练了深度稀疏自动编码器网络模型,实现了手写编号的高准确度自动识别。 | ||
搜索关键词: | 自动识别 文档 编号识别 手写 自动编码器 稀疏 大规模数据集 图像采集装置 自动识别算法 信息化建设 准确度 传统模板 管理技术 模板匹配 匹配算法 扫描文档 涉密文档 涉密载体 特征匹配 网络模型 字符识别 错误率 欧拉数 构建 书写 融合 研究 | ||
【主权项】:
1.一种文档编号自动识别方法,其特征在于,通过图像采集装置扫描文档编号,并区分文档编号书写形式,分为采用基于特征匹配的机打编号识别方法和基于稀疏自动编码器的手写编号识别方法,所述基于特征匹配的机打编号识别方法包括以下步骤:(1)构建样本标准模板库,样本标准模板库中的标准样本是经过二值化处理的数字模板,且模板大小相同;(2)将采集的文档编号标准化为与二值化处理的数字模板大小相同;(3)通过计算文档编号欧拉数进行前期粗分类,然后进行模板匹配识别;(4)通过模板匹配相似度计算公式,进行模板匹配识别,从待识别文档编号中提取若干特征量与已有数字模板相应的特征量逐个进行比较,计算它们之间规格化的相关量,其中相关量最大的一个就表示其间相似程度最高,可将文档编号归于该类;(5)对于未正确识别的文档编号,则采用人工更正方式保证录入文档收发系统的文档编号正确;所述基于稀疏自动编码器的手写编号识别方法包括以下步骤:1)对手写的文档编号进行预处理,主要包括去噪增强预处理,字体校正处理,并进行文档编号分割,将所有手写文档编号大小归一化为同一像素,用做网络输入;2)对深度稀疏自动编码器设置初始网络参数,对手写的文档编号进行识别;3)不断调整网络参数,通过贪婪训练方法逐层训练每一级稀疏自动编码器,最终整完成个网络的训练,不断提高对手写的文档编号识别率,获得丰富的手写文档编号特征,构建鲁棒性更强的分类模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司淄博供电公司,未经国网山东省电力公司淄博供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811282479.7/,转载请声明来源钻瓜专利网。