[发明专利]一种面向军工科研生产数据的字符识别方法及系统在审
申请号: | 202111221209.7 | 申请日: | 2021-10-20 |
公开(公告)号: | CN113936282A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 谭艾迪;李占;郝威巍;白雪;李汉智;王建峰;王美慧;姚晗;魏双剑 | 申请(专利权)人: | 中国船舶工业综合技术经济研究院 |
主分类号: | G06V30/24 | 分类号: | G06V30/24;G06V30/196;G06V30/148;G06V10/764;G06V10/75 |
代理公司: | 中国船舶专利中心 11026 | 代理人: | 温振宁 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 军工 科研 生产 数据 字符 识别 方法 系统 | ||
1.一种面向军工科研生产数据的字符识别方法,其特征在于,包括:
获取基于预处理后的军工科研生产数据,采用文本检测技术框选出图像的文本区域,对所述文本区域进行字符识别后输出的每个字符的初始识别结果以及识别准确率;
获取被抽取字符所对应的文本区域的初始图像,基于预设判别标准,通过预设辨别模块所述初始图像进行判别;
若所述预设辨别模块的判别结果与所述初始识别结果一致,则确定所述初始识别结果正确;
若所述预设辨别模块的判别结果与所述初始识别结果不一致,则确定所述初始识别结果错误;
其中,所述被抽取字符的抽取概率基于文档识别要求、字符数量、每个字符的识别准确率以及识别错误频次确定。
2.根据权利要求1所述的面向军工科研生产数据的字符识别方法,其特征在于,所述基于预设判别标准,通过预设辨别模块所述初始图像进行判别,包括:
基于一次判别标准,分别通过第一辨别模块和第二判别模块对所述初始图像进行判别;
若所述第一辨别模块和所述第二判别模块的第一判别结果一致,则,将所述第一判别结果与所述初始识别结果进行比对;
若一致,则确定所述初始识别结果正确;
若不一致,则确定所述初始识别结果错误。
3.根据权利要求2所述的面向军工科研生产数据的字符识别方法,其特征在于,若所述第一辨别模块和所述第二判别模块的第一判别结果不一致,则,
基于二次判别标准,分别通过第三辨别模块和第四判别模块对所述初始图像进行判别;
若所述第三辨别模块和所述第四判别模块的第二判别结果一致,则,将所述第二判别结果与所述初始识别结果进行比对;
若一致,则确定所述初始识别结果正确;
若不一致,则确定所述初始识别结果错误。
4.根据权利要求3所述的面向军工科研生产数据的字符识别方法,其特征在于,若所述第三辨别模块和所述第四判别模块的第二判别结果不一致,则,
基于所述军工科研生产数据对应的领域类别和研究方向类别,确定三次判别标准,并基于所述三次判别标准,通过第五辨别模块对所述初始图像进行判别;
将所述第五辨别模块的第三判别结果与所述初始识别结果进行比对;
若一致,则确定所述初始识别结果正确;
若不一致,则确定所述初始识别结果错误。
5.根据权利要求4所述的面向军工科研生产数据的字符识别方法,其特征在于,所述被抽取字符的抽取概率基于文档识别要求、字符数量、每个字符的识别准确率以及识别错误频次确定,具体为:
其中,pi为抽取概率;
d为文档识别要求,以百分比表示;
ni表示第i个字符,i为序号,从1开始计数;
ai为识别准确率,以百分比表示;
e为识别错误频次,初始为1。
6.根据权利要求5所述的面向军工科研生产数据的字符识别方法,其特征在于,
所述二次判别标准的识别准确率高于所述一次判别标准的识别准确率;
所述三次判别标准的识别准确率高于所述二次判别标准的识别准确率。
7.根据权利要求6所述的面向军工科研生产数据的字符识别方法,其特征在于,
所述第三辨别模块和所述第四判别模块的识别准确率高于所述第一辨别模块和所述第二判别模块的识别准确率;
所述第五辨别模块的识别准确率高于所述第三辨别模块和所述第四判别模块的识别准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国船舶工业综合技术经济研究院,未经中国船舶工业综合技术经济研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111221209.7/1.html,转载请声明来源钻瓜专利网。