[发明专利]文档编号自动识别方法在审

申请号：	201811282479.7	申请日：	2018-10-31
公开（公告）号：	CN109446997A	公开（公告）日：	2019-03-08
发明（设计）人：	段磊;梁卫国;刘涛;李伟鹏;张宁;夏红燕;于萌;赵彦龙	申请（专利权）人：	国网山东省电力公司淄博供电公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/34
代理公司：	青岛发思特专利商标代理有限公司 37212	代理人：	耿霞;程强强
地址：	255000 山东省淄博市***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及涉密载体管理技术领域，具体涉及一种文档编号自动识别方法，通过图像采集装置扫描文档编号，并区分文档编号书写形式，分为采用基于特征匹配的机打编号识别方法和基于稀疏自动编码器的手写编号识别方法，本发明针对当前涉密文档信息化建设中的文档编号自动识别方法开展研究，通过提出融合欧拉数和模板匹配的机打编号自动识别算法，有效改善了传统模板匹配算法在相似字符识别中错误率较高的不足，而且较大幅度的提升了自动识别的速率。另外，针对不同人手写编号差距较大，难以采用传统识别方法实现编号识别的困难，本发明构建了大规模数据集，训练了深度稀疏自动编码器网络模型，实现了手写编号的高准确度自动识别。
搜索关键词：	自动识别文档编号识别手写自动编码器稀疏大规模数据集图像采集装置自动识别算法信息化建设准确度传统模板管理技术模板匹配匹配算法扫描文档涉密文档涉密载体特征匹配网络模型字符识别错误率欧拉数构建书写融合研究
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种文档编号自动识别方法，其特征在于，通过图像采集装置扫描文档编号，并区分文档编号书写形式，分为采用基于特征匹配的机打编号识别方法和基于稀疏自动编码器的手写编号识别方法，所述基于特征匹配的机打编号识别方法包括以下步骤：(1)构建样本标准模板库，样本标准模板库中的标准样本是经过二值化处理的数字模板，且模板大小相同；(2)将采集的文档编号标准化为与二值化处理的数字模板大小相同；(3)通过计算文档编号欧拉数进行前期粗分类，然后进行模板匹配识别；(4)通过模板匹配相似度计算公式，进行模板匹配识别，从待识别文档编号中提取若干特征量与已有数字模板相应的特征量逐个进行比较，计算它们之间规格化的相关量，其中相关量最大的一个就表示其间相似程度最高，可将文档编号归于该类；(5)对于未正确识别的文档编号，则采用人工更正方式保证录入文档收发系统的文档编号正确；所述基于稀疏自动编码器的手写编号识别方法包括以下步骤：1)对手写的文档编号进行预处理，主要包括去噪增强预处理，字体校正处理，并进行文档编号分割，将所有手写文档编号大小归一化为同一像素，用做网络输入；2)对深度稀疏自动编码器设置初始网络参数，对手写的文档编号进行识别；3)不断调整网络参数，通过贪婪训练方法逐层训练每一级稀疏自动编码器，最终整完成个网络的训练，不断提高对手写的文档编号识别率，获得丰富的手写文档编号特征，构建鲁棒性更强的分类模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司淄博供电公司，未经国网山东省电力公司淄博供电公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811282479.7/，转载请声明来源钻瓜专利网。

上一篇：基于FPGA的人脸识别数据处理装置及处理方法
下一篇：目标人物检测方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文档编号自动识别方法在审

专利文献下载