[发明专利]基于深度强化学习的场景文本检测方法及系统有效
申请号: | 201711352220.0 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108090443B | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 黄双萍;王浩彬;金连文 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李君 |
地址: | 511458 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 场景 文本 检测 方法 系统 | ||
本发明公开了基于深度强化学习的场景文本检测方法及系统,所述方法包括:训练一个特征提取网络;训练一个决策网络;通过特征提取网络和决策网络定位待检测图像上场景文本的位置;其中,所述特征提取网络为场景文本图像特征提取的深度卷积神经网络;所述决策网络为拟合强化学习Q值函数的神经网络。本发明将场景文本检测解析为基于视觉的连续性决策问题,结合强化学习与深度神经网络,模拟日常生活中人眼从整图开始逐渐聚焦到目标物体的过程;在训练过程中,利用深度神经网络,很好地提取出当前定位框图像信息,以强化学习方法训练出能进行目标文本定位的模型。
技术领域
本发明涉及一种场景文本检测方法及系统,尤其是一种基于深度强化学习的场景文本检测方法及系统,属于模式识别与人工智能技术领域。
背景技术
在当前这个现代化社会,场景文本检测技术正逐渐影响人们的日常生活,其应用日渐广泛,例如图像检索,传统搜索都是根据关键词的图像搜索,这种搜索方法基本上都是根据图像名字或图像所在的网页文本进行检索,但是这两者并不能很好地体现对应图像的内容,如果图像中的文本内容能够用某种技术检测之后并加以识别,那么将有利于提高寻找具有关键词文本内容图像的准确率,找到更加符合需求的图像。
现有的场景文本检测技术大致可以分为基于滑动窗、基于连通区域与基于深度学习的方法。基于滑动窗的方法主要是使用多尺度窗口在图像上滑动,筛选出带文本的窗口,再利用一些文本特征,比如高密度的文本边沿、离散余弦变换系数等获取文本区域。但是,这类方法计算量很大,精度也不够高。基于连通区域的方法的思路在于利用像素间较相似的特性(如颜色)将图片分割成若干连通域,然后以此为基础,排除其中不可能是文本的区域。这种方法的缺点是效果受像素级改变的影响很大,但也具有不受文本方向限制、能识别多尺度的文本的优点,目前这类方法是街景文本定位较常用的方法之一。深度学习领域中,由于卷积神经网络利用自身的局部感知特性,获得很强的特征学习能力,因此在分类任务中取得很好的效果。在这样的背景下,深度学习也被引入场景文本检测领域,结合候选框生成技术与卷积神经网络,取得了较好的检测效果。
强化学习是机器学习领域的一个分支,试图解决连续性决策问题,模型是以试错的方式学习,通过每一次决策后获得的反馈提升自己的决策能力。传统强化学习只适用于低维空间,无法解决高维输入问题。直到2015年,Google DeepMind公司通过结合深度学习和强化学习,实现人工智能玩简单的视频游戏,这被称为是通向通用人工智能的第一步。
目前主流的基于候选区域的定位方法中,候选区域的生成方法有滑动窗生成法以及神经网络生成法,前者需要使用滑动窗遍历整张图像,涉及到的候选区域非常稠密。
发明内容
本发明的目的是为了解决上述现有技术的缺陷,提供了一种基于深度强化学习的场景文本检测方法,该方法将场景文本检测解析为基于视觉的连续性决策问题,结合强化学习与深度神经网络,模拟日常生活中人眼从整图开始逐渐聚焦到目标物体的过程,通过多次动作决策,一步步聚焦到目标文本;在训练过程中,利用深度神经网络,很好地提取出当前定位框图像信息,并利用训练过程中的正负反馈信号,以强化学习方法训练出能进行目标文本定位的模型。
本发明的另一目的在于提供一种基于深度强化学习的场景文本检测检测系统。
本发明的目的可以通过采取如下技术方案达到:
基于深度强化学习的场景文本检测方法,所述方法包括:
训练一个特征提取网络;其中,所述特征提取网络为场景文本图像特征提取的深度卷积神经网络;
训练一个决策网络;其中,所述决策网络为拟合强化学习Q值函数的神经网络;
通过特征提取网络和决策网络定位待检测图像上场景文本的位置。
进一步的,所述训练一个特征提取网络,具体包括:
确定特征提取网络的结构;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711352220.0/2.html,转载请声明来源钻瓜专利网。