[发明专利]用于识别文字的方法及相关产品在审
申请号: | 202211714145.9 | 申请日: | 2022-12-29 |
公开(公告)号: | CN116386057A | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 宋凯强;许彬;林辉;段亦涛 | 申请(专利权)人: | 网易有道信息技术(北京)有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06N3/0455;G06N3/0464;G06N3/047;G06N3/08 |
代理公司: | 北京维昊知识产权代理事务所(普通合伙) 11804 | 代理人: | 杜丹丹 |
地址: | 100094 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 识别 文字 方法 相关 产品 | ||
本发明的实施方式提供了一种用于识别文字的方法及相关产品。其中,所述方法包括:获取待识别的单行文本图像,其中所述单行文本图像中包括一种或多种语种文字;以及基于推理阶段的文字识别模型对所述单行文本图像进行处理,其中训练阶段和推理阶段的文字识别模型采用不同的网络结构,且推理阶段的文字识别模型是经由训练阶段训练好的文字识别模型轻量化处理得到的;以及基于所述推理阶段的文本识别模型的输出,确定所述单行文本图像中所有语种文字的识别结果。通过本发明的技术方案,可以结合轻量化的文字识别模型实现对多语种文字的识别,整个识别过程无需显式区分目标语种,可以大幅提高文字识别效率。
技术领域
本发明的实施方式涉及计算机技术领域,更具体地,本发明的实施方式涉及用于识别文字的方法,以及执行前述方法的电子设备和计算机可读存储介质。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
词典笔作为搭载光学字符识别(简称OCR)功能的智能硬件产品,在词典笔扫描识别场景下,要求具备从高速相机捕捉的多帧拼接文字图像的文字识别功能,以及要求识别速度快延迟低、文字识别准确度高。然而在实际扫描识别场景下,用户扫描素材类别丰富多样,使得文字识别任务较为复杂。如多语种素材(中英日韩)、课本试卷练习册、儿童绘本、报刊杂志、手写文字等,存在水平/竖直等不同版式文本以及各字体样式和背景样式等文本,对词典笔文字识别功能的泛化能力具有挑战性。
在相关技术中,对于复杂的语种文字识别任务(特别是多语种文字识别任务),通常先确定待识别图像内容对应的目标语种,再针对每个语种进行文字识别。采取上述文本识别方法,不仅文字识别场景局限(例如无法直接对多个语种文字内容混排的图像进行文字识别),而且一旦目标语种判别错误,将会直接影响文本识别结果。此外,还有相关技术为了保证文本识别结果,采用结构更加复杂化的文字识别系统,大大增加了文字识别成本,并且由于整个文字识别系统结构过于复杂,使其难以在词典笔这种低算力的平台使用。
发明内容
已知的扫描文字的识别效果不理想,这是非常令人烦恼的过程。
为此,非常需要一种改进的用于识别文字的方案,可以实现对文字的高效以及精准识别,满足实际需求。
在本上下文中,本发明的实施方式期望提供一种用于识别文字的方法及相关产品。
在本发明实施方式的第一方面中,提出了一种用于识别文字的方法,包括:获取待识别的单行文本图像,其中所述单行文本图像中包括一种或多种语种文字;以及基于推理阶段的文字识别模型对所述单行文本图像进行处理,其中训练阶段和推理阶段的文字识别模型采用不同的网络结构,且推理阶段的文字识别模型是经由训练阶段训练好的文字识别模型轻量化处理得到的;以及基于所述推理阶段的文本识别模型的输出,确定所述单行文本图像中所有语种文字的识别结果。
在本发明的一个实施例中,其中训练阶段的文字识别模型为多任务学习框架,且包括用于提取图像文字特征的图像文字特征编码器、用于预测文本序列字符概率的第一解码器、辅助所述第一解码器学习的第二解码器和/或预测字符数量的文字计数模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易有道信息技术(北京)有限公司,未经网易有道信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211714145.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可扩张管腔内装置
- 下一篇:一种抽屉式便携工具车