[发明专利]用于识别文本的方法和装置在审
申请号: | 202110632180.5 | 申请日: | 2021-06-07 |
公开(公告)号: | CN115457531A | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 陶大程;何玥 | 申请(专利权)人: | 京东科技信息技术有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/26;G06V30/148;G06V10/74;G06V30/19;G06V10/774;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100176 北京市大兴区经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 识别 文本 方法 装置 | ||
本公开的实施例公开了用于识别文本的方法和装置。该方法的一具体实施方式包括:获取特征图,特征图通过对呈现有待识别文本的图像进行文本实例分割得到;根据特征图构建关系图,其中,关系图中的节点表示特征图中的像素点,边表示所连接的两个节点的空间语义特征的相似度大于目标阈值,空间语义特征包括节点指示的像素点的位置特征和类别特征;利用预先训练的图卷积网络对关系图进行处理,得到图像对应的第一文本特征;根据第一文本特征,生成图像的文本识别结果。该实施方式提出了一种基于图的文本识别方法。
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于识别文本的方法和装置。
背景技术
现有的文字识别可以划分为两类,一类是OCR(Optical Character Recognition,光学字符识别),另一类是STR(Scene Text Recognition,场景文字识别)。其中,OCR通常指对高质量的扫描文档图像中的文字进行识别,STR通常指对自然场景图像中的文字进行识别。
一般地,OCR的识别场景中图像背景简单、文字排列整齐、字体标准等,而STR的识别场景中图像背景较复杂、文字排列随意、字体多样。因此,STR的识别难度远远大于OCR的识别难度。
STR在辅助视觉障碍的导航、自动驾驶应用、扩增现实中的文本阅读和翻译等许多领域中都具有重要的实用性,在计算机视觉界引起了越来越多的关注。目前的STR的识别方法通常都是先从图像中定位文本区域,然后再识别文本区域中的文字。
发明内容
本公开的实施例提出了用于识别文本的方法和装置。
第一方面,本公开的实施例提供了一种用于识别文本的方法,该方法包括:获取特征图,其中,特征图通过对呈现有待识别文本的图像进行文本实例分割得到;根据特征图构建关系图,其中,关系图中的节点表示特征图中的像素点,边表示所连接的两个节点的空间语义特征的相似度大于目标阈值,空间语义特征包括节点指示的像素点的位置特征和类别特征;利用预先训练的图卷积网络对关系图进行处理,得到图像对应的第一文本特征;根据第一文本特征,生成图像的文本识别结果。
第二方面,本公开的实施例提供了一种用于识别文本的装置,该装置包括:特征图获取单元,被配置成获取特征图,其中,特征图通过对呈现有待识别文本的图像进行文本实例分割得到;关系图构建单元,被配置成根据特征图构建关系图,其中,关系图中的节点表示特征图中的像素点,边表示所连接的两个节点的空间语义特征的相似度大于目标阈值,空间语义特征包括节点指示的像素点的位置特征和类别特征;图卷积处理单元,被配置成利用预先训练的图卷积网络对关系图进行处理,得到图像对应的第一文本特征;识别单元,被配置成根据第一文本特征,生成图像的文本识别结果。
第三方面,本公开的实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本公开的实施例提供的用于识别文本的方法和装置,通过获取对呈现有待识别文本的图像进行文本实例分割得到的特征图,然后以特征图中的像素点为节点,以节点的空间语义特征的相似度建立边,从而构建特征图对应的关系图,然后利用图卷积网络对关系图进行处理,以提取图像中的待识别文本的第一文本特征,再利用第一文本特征生成图像对应的文本识别结果。这种基于图的文本识别方法可以考虑到图像中的文本的二维空间信息,避免直接将图像中的文本特征压缩成一维的特征而忽略了二维空间信息,有助于提升文本识别效果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技信息技术有限公司,未经京东科技信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110632180.5/2.html,转载请声明来源钻瓜专利网。