[发明专利]一种面向军工科研生产数据的字符识别方法及系统在审
申请号: | 202111221209.7 | 申请日: | 2021-10-20 |
公开(公告)号: | CN113936282A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 谭艾迪;李占;郝威巍;白雪;李汉智;王建峰;王美慧;姚晗;魏双剑 | 申请(专利权)人: | 中国船舶工业综合技术经济研究院 |
主分类号: | G06V30/24 | 分类号: | G06V30/24;G06V30/196;G06V30/148;G06V10/764;G06V10/75 |
代理公司: | 中国船舶专利中心 11026 | 代理人: | 温振宁 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 军工 科研 生产 数据 字符 识别 方法 系统 | ||
本发明实施例提供一种面向军工科研生产数据的字符识别方法包括:获取基于预处理后的军工科研生产数据,采用文本检测技术框选出图像的文本区域,对文本区域进行字符识别后输出的每个字符的初始识别结果以及识别准确率;获取被抽取字符所对应的文本区域的初始图像,基于预设判别标准,通过预设辨别模块初始图像进行判别;若预设辨别模块的判别结果与初始识别结果一致,则确定初始识别结果正确;若预设辨别模块的判别结果与初始识别结果不一致,则确定初始识别结果错误;被抽取字符的抽取概率基于文档识别要求、字符数量、每个字符的识别准确率以及识别错误频次确定。结合文档识别要求和字符的识别准确率,随机抽取字符下进行识别,提升校对效率。
技术领域
本发明涉及数据处理领域,特别涉及一种面向军工科研生产数据的字符识别方法及系统。
背景技术
在长期的军工科研生产过程中积累了大量的纸质文档,亟需对其进行历史数据抢救,采用自动化的方式快速对纸质文档进行识别,形成电子数据。由于军工科研生产是对准确率要求极高的工作,目前常用的OCR(Optical Character Recognition,光学字符识别)技术难以满足准确率要求。
目前,通用领域OCR技术较为成熟,如谷歌OCR、百度OCR,阿里OCR、汉王OCR等均提供了便捷的API接口,用户可直接调用实现OCR识别功能。另外,部分企业也针对垂直领域业务进行了定向优化,如票据识别、身份证识别、车牌号识别等。
当前,OCR技术已经比较成熟,调用相应的API接口可便捷地实现字符识别的功能,但是,OCR技术仅支持直接调用,用户无法直接查看每个字符的识别准确率;同时,现有技术识别准确率不高,针对军工科研生产领域,需在机器识别完后,还需要由专业人员对文字进行再次校对,耗时费力且校对结果无法再次利用,并且,校对结果难以反馈训练过程,导致训练过程缺乏数据,识别准确率难以提升的问题。
发明内容
本发明实施例提供了一种能够提高字符判别准确率,进而方便对军工科研生产数据进行整理的面向军工科研生产数据的字符识别方法及系统。
本发明实施例提供一种面向军工科研生产数据的字符识别方法,包括:
获取基于预处理后的军工科研生产数据,采用文本检测技术框选出图像的文本区域,对所述文本区域进行字符识别后输出的每个字符的初始识别结果以及识别准确率;
获取被抽取字符所对应的文本区域的初始图像,基于预设判别标准,通过预设辨别模块所述初始图像进行判别;
若所述预设辨别模块的判别结果与所述初始识别结果一致,则确定所述初始识别结果正确;
若所述预设辨别模块的判别结果与所述初始识别结果不一致,则确定所述初始识别结果错误;
其中,所述被抽取字符的抽取概率基于文档识别要求、字符数量、每个字符的识别准确率以及识别错误频次确定。
在本发明的一些实施例中,所述基于预设判别标准,通过预设辨别模块所述初始图像进行判别,包括:
基于一次判别标准,分别通过第一辨别模块和第二判别模块对所述初始图像进行判别;
若所述第一辨别模块和所述第二判别模块的第一判别结果一致,则,将所述第一判别结果与所述初始识别结果进行比对;
若一致,则确定所述初始识别结果正确;
若不一致,则确定所述初始识别结果错误。
在本发明的一些实施例中,若所述第一辨别模块和所述第二判别模块的第一判别结果不一致,则,
基于二次判别标准,分别通过第三辨别模块和第四判别模块对所述初始图像进行判别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国船舶工业综合技术经济研究院,未经中国船舶工业综合技术经济研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111221209.7/2.html,转载请声明来源钻瓜专利网。