[发明专利]一种面向办公场景的光学文字识别方法在审
申请号: | 202010010967.3 | 申请日: | 2020-01-06 |
公开(公告)号: | CN111222572A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 周智 | 申请(专利权)人: | 紫光云技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/34 |
代理公司: | 天津滨海科纬知识产权代理有限公司 12211 | 代理人: | 耿树志 |
地址: | 300459 天津市滨海新区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 办公 场景 光学 文字 识别 方法 | ||
本发明提供了一种面向办公场景的光学文字识别方法,包括数据样本采集,包括数据处理以及原始样本分割;文字检测部分训练,包括预训练与再训练;文字识别部分训练,包括标签生成与训练;模型验证,包括检测部分验证和识别部分验证,并最终得到检测和识别的分析报告;改进流程,包括数据质量改进和算法改进。本发明针对于不同尺度文字回归率较低的缺陷和只能对于一类发票奏效、而对于多类发票的识别的使用缺陷,本文提出了一种面向办公场景的光学文字识别工作流,能够在兼顾办公场景下的发票类型、检测速度和识别精确度情况下得到较好的办公场景文字识别结果。
技术领域
本发明属于数据处理技术领域,尤其是涉及一种面向办公场景的光学文字识别方法。
背景技术
随着人工智能技术的迅速发展,文字识别应用领域已经从面向科研的简单场景逐步转向为与社会活动密相关的复杂应用场景。基于此,我们对于光学文字识别的设计和使用逐步从单一的功能性向云端逐渐转移,但是现有的普通OCR技术在相同的发票类型中能够完成检测和识别,发票背景一旦出现高噪音或者较大的类型差异时,现存的OCR技术就不易从背景中分离出各类发票的边界,这对于面向办公场景的光学文字识别技术就不再适用;此外,将简单的文字识别服务打包成为云端服务才可以提供更加广泛的服务以便于更多用户使用,基于上述观点,本次发明要构建一种面向办公场景的光学文字识别云服务、为公司员工的财务报销自动化流程添助一臂之力。
目前使用的OCR技术主要应用在办公场景之下和自然场景之中,对于前者以Yolo系列为代表的一次检测技术占据了现有自然场景检测的主流,但是该类技术存在着对于不同尺度文字回归率较低的缺陷;在普遍的办公场景文字检测中,现有的技术往往只能对于一类发票奏效、而对于多类发票的识别使用基于聚类方法时尚不能高精确的区分不同类型的发票。
发明内容
有鉴于此,本发明旨在提出一种面向办公场景的光学文字识别方法,以解决上述背景技术中提到的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种面向办公场景的光学文字识别方法,包括如下步骤:
S1:数据样本采集,包括数据处理以及原始样本分割;
S2:文字检测部分训练,包括预训练与再训练;
S3:文字识别部分训练,包括标签生成与训练;
S4:模型验证,包括检测部分验证和识别部分验证,并最终得到检测和识别的分析报告;
S5:改进流程,包括数据质量改进和算法改进。
进一步的,所述步骤S1中,数据处理过程包括数据获取、数据清洗和数据集制作,其中,
数据获取:向相关部门申请发票数据,在得到采样许可后进行实地数据采样,对采集到的数据简单归一化整理、并按照采集样本质量进行打分,完成粗粒度的数据分析;
数据清洗:对粗粒度清洗后的数据进行细粒度的清洗,对于不满足最低尺度、分辨率和所占比例的图片予以滤除;
数据集制作:将数据制作成类VOC数据集格式,这个数据集包含以下四项:Annotation装载着标定的数据、JPEG包含着各个jpg格式的图像、score包含着对于各个评分档的数据样本、layout包含了用于训练、训练-验证和验证的样本编号。
进一步的,所述步骤S1中,原始样本分割过程使用训练得到的模型区分出粗粒度的发票种类。
进一步的,所述步骤S2中,
预训练:在EAST预训练部分要更改数据集路径、在多核V100上根据资源调节训练参数、将前置训练予以清理,并在tmux下启动训练流程、然后训练得到检测模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于紫光云技术有限公司,未经紫光云技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010010967.3/2.html,转载请声明来源钻瓜专利网。