[发明专利]多维度混合OCR识别方法、装置、设备及存储介质在审
| 申请号: | 202111084304.7 | 申请日: | 2021-09-16 |
| 公开(公告)号: | CN113537201A | 公开(公告)日: | 2021-10-22 |
| 发明(设计)人: | 马百泉 | 申请(专利权)人: | 江西风向标教育科技有限公司 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市优赛诺知识产权代理事务所(普通合伙) 44461 | 代理人: | 刘斌强 |
| 地址: | 330013 江西省*** | 国省代码: | 江西;36 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多维 混合 ocr 识别 方法 装置 设备 存储 介质 | ||
1.一种多维度混合OCR识别方法,其特征在于,包括:
将目标图像设置为预设尺寸的待识别图像;
根据预设神经网络模型区分所述待识别图像的公式、图表和/或文字区域,并分别获取所述公式、图表和/或文字区域的位置坐标,其包括:
将所述待识别图像输入至所述预设神经网络模型,以获取所述待识别图像的第一特征向量;将所述第一特征向量输入至区域候选网络,以获取一个或多个候选框的位置坐标;提取所述一个或多个候选框所对应的第二特征向量,并将所述第二特征向量输入至类别识别网络,以获取所述一个或多个候选框的类别,所述类别包括公式、图表或文字;
根据所述公式、图表和/或文字区域分别调用不同的OCR模型进行识别,以获取识别结果;
根据所述位置坐标和识别结果输出所述待识别图像的识别信息。
2.如权利要求1所述的多维度混合OCR识别方法,其特征在于,所述根据预设神经网络模型区分所述待识别图像的公式、图表和/或文字区域,并分别获取所述公式、图表和/或文字区域的位置坐标,还包括:
对所述位置坐标进行优化调整,以获取所述公式、图表和/或文字区域的精确位置坐标。
3.如权利要求1所述的多维度混合OCR识别方法,其特征在于,所述根据所述公式、图表和/或文字区域分别调用不同的OCR模型进行识别,以获取识别结果,包括:
调用第一OCR模型识别所述公式区域,以获取公式识别结果,其中,所述第一OCR模型采用卷积神经网络加上注意力机制加上序列编码器加上序列解码器架构;
调用第二OCR模型识别所述图表区域,以获取图表识别结果,其中,所述第二OCR模型首先对图表区域调用深度神经网络分析解构图表结构,然后调用第三OCR模型识别其中的文字;
调用第三OCR模型识别所述文字区域,以获取文字识别结果,其中,所述第三OCR模型采用微分二值化网络加上端到端场景文字识别网络架构。
4.一种多维度混合OCR识别装置,其特征在于,包括:
第一处理模块,所述第一处理模块用于将目标图像设置为预设尺寸的待识别图像;
第二处理模块,所述第二处理模块用于根据预设神经网络模型区分所述待识别图像的公式、图表和/或文字区域,并分别获取所述公式、图表和/或文字区域的位置坐标,其包括:
第四处理模块,所述第四处理模块用于将所述待识别图像输入至所述预设神经网络模型,以获取所述待识别图像的第一特征向量;第五处理模块,所述第五处理模块用于将所述第一特征向量输入至区域候选网络,以获取一个或多个候选框的位置坐标;第六处理模块,所述第六处理模块提取所述一个或多个候选框所对应的第二特征向量,并将所述第二特征向量输入至类别识别网络,以获取所述一个或多个候选框的类别,所述类别包括公式、图表或文字;
第三处理模块,所述第三处理模块用于根据所述公式、图表和/或文字区域分别调用不同的OCR模型进行识别,以获取识别结果;
信息输出模块,所述信息输出模块用于根据所述位置坐标和识别结果输出所述待识别图像的识别信息。
5.如权利要求4所述的多维度混合OCR识别装置,其特征在于,所述第二处理模块还包括:
第七处理模块,所述第七处理模块用于对所述位置坐标进行优化调整,以获取所述公式、图表和/或文字区域的精确位置坐标。
6.如权利要求4所述的多维度混合OCR识别装置,其特征在于,所述第三处理模块包括:
第一识别模块,所述第一识别模块用于调用第一OCR模型识别所述公式区域,以获取公式识别结果,其中,所述第一OCR模型采用卷积神经网络加上注意力机制加上序列编码器加上序列解码器架构;
第二识别模块,所述第二识别模块用于调用第二OCR模型识别所述图表区域,以获取图表识别结果,其中,所述第二OCR模型首先对图表区域调用深度神经网络分析解构图表结构,然后调用第三OCR模型识别其中的文字;
第三识别模块,所述第三识别模块用于调用第三OCR模型识别所述文字区域,以获取文字识别结果,其中,所述第三OCR模型采用微分二值化网络加上端到端场景文字识别网络架构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西风向标教育科技有限公司,未经江西风向标教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111084304.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微生物过滤提取装置及过滤提取方法
- 下一篇:一种液化气罐生产用清洗装置





