[发明专利]文字检测方法、装置和系统在审
申请号: | 201710241094.5 | 申请日: | 2017-04-13 |
公开(公告)号: | CN108734052A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 周昕宇;姚聪;周舒畅;何蔚然 | 申请(专利权)人: | 北京旷视科技有限公司;北京迈格威科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06N3/04 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟;卜璐璐 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字检测 初步检测结果 检测结果 神经网络 输入图像 文本区域 直接检测 筛选 接收输入图像 预定规则 中间步骤 准确度 算法 输出 | ||
本发明提供了一种文字检测方法、装置和系统,所述文字检测方法包括:接收输入图像;经由训练好的神经网络直接检测所述输入图像中的文本区域,并输出初步检测结果;以及根据预定规则筛选所述初步检测结果,并对筛选后的结果实施非最大值抑制处理,以获得最终的检测结果。根据本发明实施例的文字检测方法、装置和系统基于训练好的神经网络直接检测输入图像中的文本区域,并基于非最大值抑制算法得到最终的检测结果,消除了不必要的中间步骤,可有效提高文字检测的效率,同时还提高了文字检测的准确度。
技术领域
本发明涉及图像处理技术领域,更具体地涉及一种文字检测方法、装置和系统。
背景技术
文字检测作为一项重要的基础技术,具有巨大的应用价值和广阔的应用前景,特别是自然场景图像的文字检测。例如,自然场景图像的文字检测技术可直接应用于增强现实、地理定位、人机交互、机器人导航、自动驾驶汽车和工业自动化等领域。
现有的文字检测方法多使用自底向上逐步聚合或分类讨论的方法。例如,利用字体笔画宽度比较一致的观察检测笔画片段,再合并为文本行;利用神经网络检测单个文字或单词,再合并为文本行;或者利用神经网络根据单词的大小、长宽比、方向等分别检测,再合并为文本行。然而,这些方法需要较长的流程,存在很多不可微分的步骤,计算量大,非常耗时。
发明内容
为了解决上述问题而提出了本发明。根据本发明一方面,提供了一种文字检测方法,所述文字检测方法包括:接收输入图像;经由训练好的神经网络直接检测所述输入图像中的文本区域,并输出初步检测结果;以及根据预定规则筛选所述初步检测结果,并对筛选后的结果实施非最大值抑制处理,以获得最终的检测结果。
在本发明的一个实施例中,所述初步检测结果包括检测到的文本区域的分数图和几何表示。
在本发明的一个实施例中,所述根据预定规则筛选所述初步检测结果包括:筛选出分数大于预定阈值的文本区域的几何表示,以用于对筛选出的几何表示实施所述非最大值抑制处理。
在本发明的一个实施例中,在对筛选出的几何表示实施所述非最大值抑制处理之前,基于临近像素的相关性合并所述筛选出的几何表示。
在本发明的一个实施例中,所述几何表示包括以下中的至少一种:轴对齐的长方形、带旋转的长方形、简单多边形以及贝塞尔曲线。
在本发明的一个实施例中,所述神经网络为全卷积网络,或者为全卷积网络与循环神经网络的组合。
在本发明的一个实施例中,所述神经网络包括特征提取层、特征合并层和输出层。
在本发明的一个实施例中,所述特征提取层包括多层卷积神经网络,用于提取不同层次的图像特征。
在本发明的一个实施例中,所述特征合并层以级联的方式逐层合并所述不同层次的图像特征。
在本发明的一个实施例中,所述输出层将多通道的特征图映射为1通道的分数图和多通道的几何表示图。
根据本发明另一方面,提供了一种文字检测装置,所述文字检测装置包括:检测模块,用于接收输入图像,经由训练好的神经网络直接检测所述输入图像中的文本区域,并输出初步检测结果;以及处理模块,用于根据预定规则筛选所述初步检测结果,并对筛选后的结果实施非最大值抑制处理,以获得最终的检测结果。
在本发明的一个实施例中,所述初步检测结果包括检测到的文本区域的分数图和几何表示。
在本发明的一个实施例中,所述处理模块进一步用于:筛选出分数大于预定阈值的文本区域的几何表示,以用于对筛选出的几何表示实施所述非最大值抑制处理。
在本发明的一个实施例中,所述处理模块进一步用于:在对筛选出的几何表示实施所述非最大值抑制处理之前,基于临近像素的相关性合并所述筛选出的几何表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司,未经北京旷视科技有限公司;北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710241094.5/2.html,转载请声明来源钻瓜专利网。