[发明专利]基于NAS搜索的端侧OCR识别系统的Backbone设计在审
申请号: | 202111471433.1 | 申请日: | 2021-12-04 |
公开(公告)号: | CN114387490A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 方徐伟;张帅;徐小龙;谢巍盛 | 申请(专利权)人: | 天翼电子商务有限公司 |
主分类号: | G06V10/94 | 分类号: | G06V10/94;G06V10/96;G06V10/82;G06V30/19;G06N3/08;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 102200 北京市昌平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 nas 搜索 ocr 识别 系统 backbone 设计 | ||
本发明公开了一种基于NAS搜索的端侧OCR识别系统的Backbone设计,包括以下:OCR整体架构设计,OCR系统的设计共分为三大模块,可微分的Backbone,检测头和识别头,这里检测头和识别头可以用常用的检测识别的轻量化架构替代,这里不做讨论,主要目的在于构建一个轻量化的Backbone。通过多任务的架构搜索来为端侧的OCR系统设计Backbone架构,本发明通过汲取先人优秀经验设计了OCR Backbone的整体架构和四种搜索OP,通过可微分的搜索将网络架构的时延和参数量和检测识别的loss一起优化,在模型效果,模型参数,模型时延三者之间寻找最优解;可以代替人工设计的Backbone寻找最优的部署架构。
技术领域
本发明涉及OCR、Automl、NAS领域,特别涉及基于NAS搜索的端侧OCR识别系统的Backbone设计。
背景技术
OCR即光学字符识别,是指通过字符识别方法将图片中的文字翻译成计算机文字的过程。通常可以应用在各种文档,各种票据,各类证件等等的识别中,这个也是少数可真正在实际生产中落地的技术(基于深度学习)之一,通常OCR分为两个步骤:文字的检测识别和后处理结构化。通常文字的检测和识别有两种方式:两阶段的文本检测+文本识别和单阶段的end2end的检测识别。后处理大致可以分为两种:基于先验知识的后处理和基于深度学习的后处理。
自2016年以来,automl技术在不断发展,尤其在2018年以来,各类关于自动调参,自动搜索的论文在各大顶会层出不穷,NAS作为automl的分支之一,也受到各界学者和大牛的关注,各类大厂和高校也纷纷投入研究,NAS全称叫Neural Architecture Search,通过定义搜索空间,通过搜索算法来自动搜索神经网络架构,减少人为先验知识和人为偏见,期待搜索出一个更优的神经网络架构。
目前的OCR识别方式可以分为两种:客户端+服务器识别和端侧识别,第一种方式需要用户在端侧进行图像截取,然后将图片传给服务器,在服务器上进行OCR识别然后将识别结果传回客户端,这种方式的优点在于由于模型部署在服务器上,可以使用大模型,这样识别率会比较高,缺点是由于数据需要两端传递,增加了数据传递的时间消耗和传递失败的风险,而且通常传递过程中需要对图片进行压缩,这样也会有一定概率造成图片失真从而影响识别准确率。而将模型部署在端侧,优点是可以直接避免数据传递和数据压缩带来的图片损失。缺点是端侧不能部署大模型,需要通过各类压缩,剪枝的方式来缩小模型,这样会造成一定程度的精度损失,而且端侧的计算能力有限,模型还得考虑运算能力和运算时延。OCR在端侧的部署局限性主要在于Backbone,因此本发明希望通过NAS技术探究一种在端侧更为优秀的OCR框架的Backbone,减少人为设计Backbone偏见,使得识别效果和识别速度都能得到最优,可以更加适合在端侧部署。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供基于NAS搜索的端侧OCR识别系统的Backbone设计。
本发明提供了如下的技术方案:
本发明提供一种基于NAS搜索的端侧OCR识别系统的Backbone设计,包括以下:
一、OCR整体架构设计:
OCR系统的设计共分为三大模块,可微分的Backbone,检测头和识别头,这里检测头和识别头可以用常用的检测识别的轻量化架构替代,这里不做讨论,主要目的在于构建一个轻量化的Backbone;
二、Backbone的架构设计:
首先需要设计OCR识别的Backbone的整体架构,这里对NASnet中图像分类网络做了些架构优化:
N代表着该层的个数,S代表着图片或map的向下变小的倍数,结构使用了16倍的下采样尺度,这样可以大幅度提升网络感受野,对做文本这样的大长宽比的检测会有较大程度的提升;
三、池化cell设计:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼电子商务有限公司,未经天翼电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111471433.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实现工作流模糊搜索的方法
- 下一篇:一种排风式高散热性变压器