[发明专利]基于NAS搜索的端侧OCR识别系统的Backbone设计在审

专利信息
申请号: 202111471433.1 申请日: 2021-12-04
公开(公告)号: CN114387490A 公开(公告)日: 2022-04-22
发明(设计)人: 方徐伟;张帅;徐小龙;谢巍盛 申请(专利权)人: 天翼电子商务有限公司
主分类号: G06V10/94 分类号: G06V10/94;G06V10/96;G06V10/82;G06V30/19;G06N3/08;G06N3/04
代理公司: 暂无信息 代理人: 暂无信息
地址: 102200 北京市昌平*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 nas 搜索 ocr 识别 系统 backbone 设计
【说明书】:

发明公开了一种基于NAS搜索的端侧OCR识别系统的Backbone设计,包括以下:OCR整体架构设计,OCR系统的设计共分为三大模块,可微分的Backbone,检测头和识别头,这里检测头和识别头可以用常用的检测识别的轻量化架构替代,这里不做讨论,主要目的在于构建一个轻量化的Backbone。通过多任务的架构搜索来为端侧的OCR系统设计Backbone架构,本发明通过汲取先人优秀经验设计了OCR Backbone的整体架构和四种搜索OP,通过可微分的搜索将网络架构的时延和参数量和检测识别的loss一起优化,在模型效果,模型参数,模型时延三者之间寻找最优解;可以代替人工设计的Backbone寻找最优的部署架构。

技术领域

本发明涉及OCR、Automl、NAS领域,特别涉及基于NAS搜索的端侧OCR识别系统的Backbone设计。

背景技术

OCR即光学字符识别,是指通过字符识别方法将图片中的文字翻译成计算机文字的过程。通常可以应用在各种文档,各种票据,各类证件等等的识别中,这个也是少数可真正在实际生产中落地的技术(基于深度学习)之一,通常OCR分为两个步骤:文字的检测识别和后处理结构化。通常文字的检测和识别有两种方式:两阶段的文本检测+文本识别和单阶段的end2end的检测识别。后处理大致可以分为两种:基于先验知识的后处理和基于深度学习的后处理。

自2016年以来,automl技术在不断发展,尤其在2018年以来,各类关于自动调参,自动搜索的论文在各大顶会层出不穷,NAS作为automl的分支之一,也受到各界学者和大牛的关注,各类大厂和高校也纷纷投入研究,NAS全称叫Neural Architecture Search,通过定义搜索空间,通过搜索算法来自动搜索神经网络架构,减少人为先验知识和人为偏见,期待搜索出一个更优的神经网络架构。

目前的OCR识别方式可以分为两种:客户端+服务器识别和端侧识别,第一种方式需要用户在端侧进行图像截取,然后将图片传给服务器,在服务器上进行OCR识别然后将识别结果传回客户端,这种方式的优点在于由于模型部署在服务器上,可以使用大模型,这样识别率会比较高,缺点是由于数据需要两端传递,增加了数据传递的时间消耗和传递失败的风险,而且通常传递过程中需要对图片进行压缩,这样也会有一定概率造成图片失真从而影响识别准确率。而将模型部署在端侧,优点是可以直接避免数据传递和数据压缩带来的图片损失。缺点是端侧不能部署大模型,需要通过各类压缩,剪枝的方式来缩小模型,这样会造成一定程度的精度损失,而且端侧的计算能力有限,模型还得考虑运算能力和运算时延。OCR在端侧的部署局限性主要在于Backbone,因此本发明希望通过NAS技术探究一种在端侧更为优秀的OCR框架的Backbone,减少人为设计Backbone偏见,使得识别效果和识别速度都能得到最优,可以更加适合在端侧部署。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷,提供基于NAS搜索的端侧OCR识别系统的Backbone设计。

本发明提供了如下的技术方案:

本发明提供一种基于NAS搜索的端侧OCR识别系统的Backbone设计,包括以下:

一、OCR整体架构设计:

OCR系统的设计共分为三大模块,可微分的Backbone,检测头和识别头,这里检测头和识别头可以用常用的检测识别的轻量化架构替代,这里不做讨论,主要目的在于构建一个轻量化的Backbone;

二、Backbone的架构设计:

首先需要设计OCR识别的Backbone的整体架构,这里对NASnet中图像分类网络做了些架构优化:

N代表着该层的个数,S代表着图片或map的向下变小的倍数,结构使用了16倍的下采样尺度,这样可以大幅度提升网络感受野,对做文本这样的大长宽比的检测会有较大程度的提升;

三、池化cell设计:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼电子商务有限公司,未经天翼电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111471433.1/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top