[发明专利]一种基于旋转敏感特征的文本回归检测方法有效
申请号: | 201810195630.7 | 申请日: | 2018-03-09 |
公开(公告)号: | CN108427924B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 白翔;廖明辉;朱臻;石葆光;许永超;杨洋;徐培 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06N3/04 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 严泉玉 |
地址: | 430070 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 旋转 敏感 特征 文本 回归 检测 方法 | ||
本发明公开了一种基于旋转敏感特征的文本回归检测方法,通过方向响应卷积网络得到旋转敏感特征,用于包围盒的回归任务,得到包围盒的位置信息;然后,通过方向响应池化,将旋转敏感特征转化为旋转不变特征,用于包围盒的分类任务,得到包围盒是否属于文本的类别信息;最后,仅需简单后处理即可得到检测结果。该方法对于分类和回归区分设计的特征能适应自然场景图片里任意变化角度的文本,并且可以端到端训练,这种将分类和回归不共享特征的方法也可以应用到一般物体检测的框架中。本发明提出的检测方法相对于现有技术思路新颖,在准确度和通用性这些方面都取得了卓越的效果,有很强的实际应用价值。
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于旋转敏感特征的文本回归检测方法。
背景技术
在计算机视觉领域中,读取自然图片中的文本是一个非常活跃的、具有挑战性的研究方向,很多现实生活中的应用都和它息息相关,例如车牌号码识别、交通指示牌识别、基于图片的地理定位、商品图像检索等。读取自然图片中的文本通常分为2个步骤:第一步是检测自然图片中的文字区域,第二步是对文字区域进行识别,获取文字内容。其中第一步文字检测是非常重要的环节,它直接影响着第二步的识别结果。
由于近年来一般物体检测技术已经取得了巨大的成功,一些研究人员将一般物体检测技术应用于自然场景文字检测中,使得自然场景文字检测取得了较大的进步。但是相对于一般物体检测,由于文字出现方向任意、长宽比变化范围大、尺度变化范围大、背景复杂,自然场景文字仍然具有较大的挑战性。
通常一般物体检测包含物体类别预测(即分类)和物体包围盒回归2个任务,这2个任务共享卷积神经网络提取到的旋转不变特征,最近的自然场景文字检测技术也采用了相同的框架。容易知道,旋转不变特征有助于提高分类任务的性能,但是不利于回归多方向的包围盒,因此在分类任务和包围盒回归任务中使用共享的旋转不变特征是冲突的。在物体长宽比变化不大时这一冲突点并不明显,但是对于长宽比变化范围较大的自然场景文字,尤其是多方向的细条形非拉丁文字行,使用旋转不变特征会影响回归多方向的包围盒。
发明内容
本发明的目的在于提供一种基于旋转敏感特征的文本回归检测方法,该检测方法使用旋转不变特征处理分类任务,使用旋转敏感特征处理多方向包围盒回归任务,准确率高可以嵌入到通用的多方向物体检测框架中,并且适合拉丁和非拉丁文本。
为实现上述目的,本发明从一个全新的视角来解决场景文字检测问题,提供了一种基于旋转敏感特征的文本回归检测方法,包括下述步骤:
(1)训练基于旋转敏感特征的文本回归检测网络模型,包括如下子步骤:
(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的四个顶点坐标,顶点为顺时针标注,其中文本包围盒为四边形,得到带标注的标准训练数据集;
(1.2)定义基于旋转敏感特征的文本回归检测网络模型,所述检测网络模型由特征提取模块、回归分支和分类分支组成,根据(1.1)带标注的标准训练数据集,计算训练标签,设计损失函数,利用反向传导方法训练该文本回归检测网络,得到文本回归检测网络模型;具体包括如下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810195630.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种掌纹识别方法及装置
- 下一篇:一种基于连续拷贝帧序列的拷贝视频检测方法