[发明专利]文本检测方法及装置、电子设备和存储介质在审

专利信息
申请号: 202110112063.6 申请日: 2021-01-27
公开(公告)号: CN112800954A 公开(公告)日: 2021-05-14
发明(设计)人: 朱一秦;陈健勇;梁凌宇;旷章辉;金连文;张伟 申请(专利权)人: 北京市商汤科技开发有限公司;华南理工大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/32;G06K9/34;G06K9/48;G06N3/04;G06N3/08
代理公司: 北京林达刘知识产权代理事务所(普通合伙) 11277 代理人: 刘新宇
地址: 100080 北京市海淀区北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 检测 方法 装置 电子设备 存储 介质
【说明书】:

本公开涉及一种文本检测方法及装置、电子设备和存储介质,所述方法包括:对待检测图像进行特征提取,得到所述待检测图像对应的至少一个第一特征;根据所述至少一个第一特征,预测所述待检测图像中的第一目标文本区域,以及预测所述第一目标文本区域对应的第一傅里叶特征;根据所述第一傅里叶特征,通过执行傅里叶逆变换操作,得到所述第一目标文本区域对应的第一目标边界框。本公开实施例可快速准确地对待检测图像中任意形状的文本区域进行检测。

技术领域

本公开涉及计算机技术领域,尤其涉及一种文本检测方法及装置、电子设备和存储介质。

背景技术

随着通用目标检测技术的发展,文本作为一种特殊的目标,文本检测在取得突飞猛进的进展的同时也迎来了全新的挑战。通常来说,通用目标由于其形状规则,因此可以统一使用矩形框来表示。自然场景中也存在许多规则的文本,它也可以使用矩形框来表示。但是,在不同应用场景下,文本在长度、弯曲程度、纵横比等方面具有多样性,使得文本的形状多种多样,仅使用规则的矩形框是无法对其进行准确描述的。因此,亟需一种文本检测方法来实现对任意形状的文本进行文本检测。

发明内容

本公开提出了一种文本检测方法及装置、电子设备和存储介质的技术方案。

根据本公开的一方面,提供了一种文本检测方法,包括:对待检测图像进行特征提取,得到所述待检测图像对应的至少一个第一特征;根据所述至少一个第一特征,预测所述待检测图像中的第一目标文本区域,以及预测所述第一目标文本区域对应的第一傅里叶特征;根据所述第一傅里叶特征,通过执行傅里叶逆变换操作,得到所述第一目标文本区域对应的第一目标边界框。

在一种可能的实现方式中,所述第一特征包括第一特征图;所述根据所述至少一个第一特征,预测所述待检测图像中的第一目标文本区域,包括:根据至少一个第一特征图,对所述待检测图像中的像素点进行第一分类,得到所述待检测图像中的第一初始文本区域;根据所述至少一个第一特征图,对所述待检测图像中的像素点进行第二分类,得到所述待检测图像中的第一文本中心区域,所述第一文本中心区域位于所述第一初始文本区域的中心;根据所述第一初始文本区域和所述第一文本中心区域,确定所述第一目标文本区域。

在一种可能的实现方式中,所述第一特征包括第一特征图,所述第一傅里叶特征包括第一傅里叶特征向量;所述根据所述至少一个第一特征,预测所述第一目标文本区域对应的第一傅里叶特征,包括:根据至少一个第一特征图,预测所述待检测图像中各像素点对应的傅里叶特征向量;根据所述各像素点对应的傅里叶特征向量和所述第一目标文本区域的位置,确定所述第一傅里叶特征向量。

在一种可能的实现方式中,所述根据所述第一傅里叶特征,通过执行傅里叶逆变换操作,得到所述第一目标文本区域对应的第一目标边界框,包括:通过对所述第一傅里叶特征向量执行傅里叶逆变换操作,得到所述第一目标文本区域对应的多个边界框;通过对所述多个边界框执行非极大值抑制操作,得到所述第一目标边界框。

在一种可能的实现方式中,所述文本检测方法通过文本检测神经网络实现。

在一种可能的实现方式中,所述文本检测神经网络的训练样本包括:样本图像、所述样本图像中的标注文本区域、所述标注文本区域对应的标注傅里叶特征;所述方法还包括:通过初始神经网络对所述样本图像进行特征提取,得到所述样本图像对应的至少一个第二特征;根据所述至少一个第二特征,预测所述样本图像中的第二目标文本区域,以及预测所述第二目标文本区域对应的第二傅里叶特征;根据所述第二傅里叶特征,通过执行傅里叶逆变换操作,得到所述第二目标文本区域对应的第二目标边界框;根据所述第二目标文本区域和所述标注文本区域确定第一检测损失,以及根据所述第二目标边界框和所述标注傅里叶特征,确定第二检测损失;根据所述第一检测损失和所述第二检测损失,调整所述初始神经网络的网络参数,得到训练后的所述文本检测神经网络。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司;华南理工大学,未经北京市商汤科技开发有限公司;华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110112063.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top