[发明专利]一种基于OCR技术的文本和图片识别系统有效
| 申请号: | 202011588284.2 | 申请日: | 2020-12-29 |
| 公开(公告)号: | CN112507973B | 公开(公告)日: | 2022-09-06 |
| 发明(设计)人: | 金鑫;邹阳;周新;章倩;王煜杰;田丹;沈古松 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
| 主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V30/146;G06F40/117;G06F40/186 |
| 代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 于瀚文;胡建华 |
| 地址: | 210007 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 ocr 技术 文本 图片 识别 系统 | ||
1.一种基于OCR技术的文本和图片识别系统,其特征在于,所述系统包括文本识别模块、训练平台模块和模板管理平台模块;
所述文本识别模块用于指定类别识别、自判断识别和提供API接口说明;
所述训练平台模块用于模型管理、数据集管理、训练发布;
所述模板管理平台模块用于模板管理和字段类型管理;
所述文本识别模块用于指定类别识别,包括:在用户知晓待识别图片类别并选中指定的模板情况下,系统从内置模型库中调用指定的OCR识别模型和版本进行识别分析,得到分析结果后,在有锚点的情况下根据锚点内容进行实际输入票据和模板票据之间的像素坐标转换,提取出待识别区域的内容并根据模板票据中对应位置处的数据类型进行格式转换,最后得到结构化的识别内容并展示在票据模板上;
所述文本识别模块用于自判断识别,包括:在用户无法清楚判断票据所属具体分类和模板时,选择关联自判断识别,系统从内置模型库中调用模板分类模型对输入票据进行分类,判定其类别和所属模板,根据判定结果阈值决定是调用OCR识别模型或者调用两个以上相关OCR识别模型进行结构化识别分析,在经过模板分类模型判定后,返回综合处理的结构化结果并在票据模板上进行叠加展示;
所述文本识别模块提供了Restful API接口,其他三方系统或用户程序中能够直接调用所述Restful API接口获取文本和图片识别服务,取得识别后的结构化识别结果;
所述训练平台模块用于模型管理,包括:对底层OCR识别模型和模板分类模型的管理,基于系统内置模型库的模型基础数据,通过导入开源OCR识别模型和业务应用中产生的现有的OCR识别模型作为系统中的底层OCR识别模型,同时基于图像识别深度学习模型框架,加载OCR识别模型,经过分类器输出的模型实现作为系统中模板分类模型;
所述训练平台模块用于数据集管理,其中,所述数据集包括用于底层OCR识别模型训练的数据集和用于模板分类模型的数据集;
所述训练平台集成了深度学习开发框架,用于对内置模型库中的模型进行训练,当选中模型进行训练时,系统依据模型的实现框架调用对应的方法获取数据集,开始模型的训练;模型训练的触发由系统配置决定,支持的配置包括:如果新增数据集大于等于2GB,开始增量训练;如果新增数据集大于等于1.5GB,从已有的历史数据集中随机挑选0.5GB大小的数据集联合新增数据集共同增量训练;训练平台同时提供了模型的对外发布、取消对外发布功能,当对指定模型开启对外发布时,该模型作为底层OCR识别模型在文本识别模块中出现;当对指定模型取消对外发布时,该模型从文本识别模块中移除;
所述模板管理平台用于待识别模板的一次性标注从而支撑与待识别模板同类型的结构化识别,模板管理平台用于模板标注,即为了识别同类型模板票据中文本域而选中的待识别区域,通过对待识别区域命名,选择符合模板票据内各个数据项的数据类型,从而为识别内容建立起了结构化关联信息;模板标注提供了锚点标注选项,通过标注指定内容、位置固定的区域作为参考点,实现输入票据图像与模板图像之间的像素位置转化;
所述模板管理平台支持字段类型管理,用来定义模板票据中待识别区域的数据类型,根据被定义的数据类型,识别后的结果能够进行对应转化,将相同含义内容的表现形式转换成统一风格;
当选中模型进行训练时,对模型训练过程中所需的样本数据进行集中管理,包括提供数据上传、检索、下载和删除功能;数据上传功能用于为现有模型提供更多的样本数据,同时也为新加入的识别模型提供原始样本数据,实现为自定义模板提供识别引擎的功能;数据检索功能用于在现有的数据集中快速查找发现想要的数据,满足场景下的需要;数据下载功能用于批量导出部分或全部数据,用于对以前数据的纠正和进一步清洗;数据删除功能用于删除指定的数据集;
随着系统的不断使用,将识别过程中处理的图片制作成数据集;通过将图片名称命名为模板名从而为模板分类模型产生可用的数据集;通过对图片进行文本标注,得到的结果及命名过的图片构成了指定OCR模型可用的数据集;
系统加载Tensorflow框架,OCRBig采用Tensorflow作为实现框架,调用Tensorflow的数据集加载接口,对OCRBig模型进行增量训练并更新该模型状态信息,可用变为训练中,当模型状态信息从训练中变回可用时表明模型训练结束,此时能够直接选择对外发布,或者上传测试数据检验模型训练后的效果,根据训练效果决定是对外发布还是取消发布,模型的发布状态相应地显示为已发布或未发布;
所述模板管理平台用于对模板的生命周期进行管理,包括提供模板创建、模板标注、模板编辑、模板删除和模板入库功能;模板创建功能用于新建模板,在上传模板的标准照片时按照提示要求填入模板的基本属性信息,同时生成包括创建时间、分辨率大小的属性内容;模板标注是为选中的模板进行结构化标注,在模板标准照片上通过选择待识别区域位置,同时赋予该位置名称并设置相应的字段类型,此时针对该区域识别后的结果便跟名称进行了关联,识别内容具有了结构化信息,通过不断重复上述操作,模板标注功能为所述选中的模板建立了全部待识别内容的结构化信息;模板编辑功能能够在现有的模板基础上更新待识别区数量、位置以及字段类型和属性名信息;模板入库功能用于将选中模板的信息保存至数据库并为之建立相应目录和文件;模板删除功能用于将选中的模板以及相关内容全部删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011588284.2/1.html,转载请声明来源钻瓜专利网。





