[发明专利]一种文本区域检测方法及装置有效

申请号：	201910445253.2	申请日：	2019-05-27
公开（公告）号：	CN112001406B	公开（公告）日：	2023-09-08
发明（设计）人：	乔梁	申请（专利权）人：	杭州海康威视数字技术股份有限公司
主分类号：	G06V30/19	分类号：	G06V30/19;G06V30/144;G06V30/148
代理公司：	北京柏杉松知识产权代理事务所(普通合伙) 11413	代理人：	马敬;李欣
地址：	310051 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本区域检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种文本区域检测方法及装置，方法包括：获取待检测的目标图像，目标图像中包含目标文本；将待检测的目标图像输入预先训练的语义分割网络模型中，得到目标图像中各个像素点的类别标签，包括文本类标签，边界类标签和背景类标签，其中边界类标签的像素点位于各个文本区域的周边，因此，能够将不同文本区域分割开。再根据文本类标签的像素点，确定包含目标文本的目标文本区域，并对目标文本区域进行矫正，得到矩形文本区域，矩形文本区域能够便于文本识别，提高文本识别的准确性。

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种文本区域检测方法及装置。

背景技术

在计算机视觉领域，文本检测和识别是一个很有应用价值的研究方向，现实生活中很多应用都与其息息相关，例如，车牌识别、身份证信息识别等技术均应用了文本检测和识别的方法。

文本检测和识别方法包括两个步骤，第一，针对图像进行文本区域检测，得到图像中的文本区域；第二，针对文本区域进行文本识别。其中，第一个步骤获取的文本区域的质量好坏，很大程度影响了最终的文本识别准确率。

现有的文本区域检测方法中，检测结果是一个文本矩阵框，这种文本矩形框无法处理弯曲的长字符串。当待检测图像中包含连续的弯曲文本时，检测出的文本矩形框可能会框住其他文本区域，即无法适用于弯曲文本的检测，从而影响了文本识别的准确性。

发明内容

本发明实施例的目的在于提供一种文本区域检测方法及装置，实现对图像中弯曲文本的区域检测，从而提高文本识别的准确性。

为了实现上述目的，本发明实施例提供了一种文本区域检测方法，所述方法包括：

获取待检测的目标图像，所述目标图像中包含目标文本；

将所述目标图像输入预先训练的语义分割网络模型中，得到所述目标图像中各个像素点的类别标签，所述语义分割网络模型是根据预设训练集训练得到的，所述预设训练集包括多个包括文本区域的样本图像、以及每个样本图像中文本区域的像素点的文本类标签、每个样本图像中文本区域的边界的像素点的边界类标签、每个样本图像中背景区域的像素点的背景类标签；

根据所述目标图像中类别标签为文本类标签的像素点，确定包含所述目标文本的目标文本区域；

对所述目标文本区域进行矫正，得到矩形文本区域。

可选的，在根据所述目标图像中类别标签为文本类标签的像素点，确定包含所述目标文本的目标文本区域之前，还包括：

针对每个文本连通域，确定该文本连通域的周边像素点中类别标签为边界类标签的像素点与背景类标签的像素点的比例；所述文本连通域为所述目标图像中类别标签为文本类标签的像素点所在区域；

若确定的比例小于预设比例阈值，则将该文本连通域中的像素点及其周边像素点的类别标签更新为背景类标签。

可选的，所述根据所述目标图像中类别标签为文本类标签的像素点，确定包含所述目标文本的目标文本区域的步骤，包括：

从所述目标图像中类别标签为文本类标签的像素点中选择像素点，作为第一像素点；

获取在预设方向上与所述第一像素点相邻的像素点，作为第二像素点；

判断所述第二像素点的类别标签是否为文本类标签；

若不是文本类标签，判断预设衰减系数是否大于第一预设值，所述预设衰减系数的初始值大于所述第一预设值；

若不大于所述第一预设值，则将当前所述目标图像中类别标签为文本类标签的像素点所在区域，作为包含所述目标文本的目标文本区域。

可选的，所述方法还包括：