[发明专利]文字检测方法、装置和系统在审
申请号: | 201710241094.5 | 申请日: | 2017-04-13 |
公开(公告)号: | CN108734052A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 周昕宇;姚聪;周舒畅;何蔚然 | 申请(专利权)人: | 北京旷视科技有限公司;北京迈格威科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06N3/04 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟;卜璐璐 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字检测 初步检测结果 检测结果 神经网络 输入图像 文本区域 直接检测 筛选 接收输入图像 预定规则 中间步骤 准确度 算法 输出 | ||
1.一种文字检测方法,其特征在于,所述文字检测方法包括:
接收输入图像;
经由训练好的神经网络直接检测所述输入图像中的文本区域,并输出初步检测结果;以及
根据预定规则筛选所述初步检测结果,并对筛选后的结果实施非最大值抑制处理,以获得最终的检测结果。
2.根据权利要求1所述的文字检测方法,其特征在于,所述初步检测结果包括检测到的文本区域的分数图和几何表示。
3.根据权利要求2所述的文字检测方法,其特征在于,所述根据预定规则筛选所述初步检测结果包括:
筛选出分数大于预定阈值的文本区域的几何表示,以用于对筛选出的几何表示实施所述非最大值抑制处理。
4.根据权利要求3所述的文字检测方法,其特征在于,在对筛选出的几何表示实施所述非最大值抑制处理之前,基于临近像素的相关性合并所述筛选出的几何表示。
5.根据权利要求2所述的文字检测方法,其特征在于,所述几何表示包括以下中的至少一种:轴对齐的长方形、带旋转的长方形、简单多边形以及贝塞尔曲线。
6.根据权利要求1-5中的任一项所述的文字检测方法,其特征在于,所述神经网络为全卷积网络,或者为全卷积网络与循环神经网络的组合。
7.根据权利要求6所述的文字检测方法,其特征在于,所述神经网络包括特征提取层、特征合并层和输出层。
8.根据权利要求7所述的文字检测方法,其特征在于,所述特征提取层包括多层卷积神经网络,用于提取不同层次的图像特征。
9.根据权利要求8所述的文字检测方法,其特征在于,所述特征合并层以级联的方式逐层合并所述不同层次的图像特征。
10.根据权利要求9所述的文字检测方法,其特征在于,所述输出层将多通道的特征图映射为1通道的分数图和多通道的几何表示图。
11.一种文字检测装置,其特征在于,所述文字检测装置包括:
检测模块,用于接收输入图像,经由训练好的神经网络直接检测所述输入图像中的文本区域,并输出初步检测结果;以及
处理模块,用于根据预定规则筛选所述初步检测结果,并对筛选后的结果实施非最大值抑制处理,以获得最终的检测结果。
12.根据权利要求11所述的文字检测装置,其特征在于,所述初步检测结果包括检测到的文本区域的分数图和几何表示。
13.根据权利要求12所述的文字检测装置,其特征在于,所述处理模块进一步用于:
筛选出分数大于预定阈值的文本区域的几何表示,以用于对筛选出的几何表示实施所述非最大值抑制处理。
14.根据权利要求13所述的文字检测装置,其特征在于,所述处理模块进一步用于:
在对筛选出的几何表示实施所述非最大值抑制处理之前,基于临近像素的相关性合并所述筛选出的几何表示。
15.根据权利要求12所述的文字检测装置,其特征在于,所述几何表示包括以下中的至少一种:轴对齐的长方形、带旋转的长方形、简单多边形以及贝塞尔曲线。
16.根据权利要求11-15中的任一项所述的文字检测装置,其特征在于,所述神经网络为全卷积网络,或者为全卷积网络与循环神经网络的组合。
17.根据权利要求16所述的文字检测装置,其特征在于,所述神经网络包括特征提取层、特征合并层和输出层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司,未经北京旷视科技有限公司;北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710241094.5/1.html,转载请声明来源钻瓜专利网。