[发明专利]一种图像中的文字定位方法和装置有效

申请号：	200910138672.8	申请日：	2009-05-12
公开（公告）号：	CN101887520A	公开（公告）日：	2010-11-17
发明（设计）人：	赵嵩;王静;刘源;李凯	申请（专利权）人：	华为终端有限公司
主分类号：	G06K9/32	分类号：	G06K9/32
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	彭愿洁;李文红
地址：	518129 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种图像中的文字定位方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数字图像处理领域，尤其涉及一种在图像中文字定位方法和装置。

背景技术

字幕作为视频图像中常见的文字信息被大量的应用新闻、卡拉OK、电影等视频场合，并通常用来描述当前视频图像的重要内容，为人们理解视频提供了重要而凝练的注释，所以相对于视频图像，其中的字幕文字更适宜用来做索引，所以从视频图像中提取字幕文字可以有效地帮助进行基于内容的视频图像检索。

从图像中提取文字重要是进行文字定位的操作。现有的文字定位方法包括：连通区域法、纹理分类法。其中连通区域法中假定文字颜色均匀，在颜色量化后，符合一定大小、形状、空间对齐约束的单一颜色的连通区域作为文字被提取出来。该连通区域法在背景均匀的情况下是有效的，但当背景比较复杂时，其有效性会下降。纹理分类法将文字区域看作是一种特殊类型的纹理，基于纹理的方法比连通区域法性能更鲁棒。授予Zhang，Hongjiang和Zhong，Yu的专利号为US6,185,329，名称为“Automatic caption text detection andprocessing for digital images”的美国专利中以及Zhang，Hongjiang、Zhong，Yu和Anil K.Jain所著的“Automatic Caption Localization in Compressed Video，″IEEE Transactions on Pattern Analysis and Machine Intelligence，vol.22，No.4，pp.385-392，Apr.2000”中公开了一种基于图像的纹理能量分类的方法来图像中的文字定位算法，该算法第一次提出了首先在DCT(Discrete CosineTransformation，离散余弦变换)域中得到图像块的DCT变换系数，利用部分水平第一行的变换系数幅值之和来表示图像块的水平纹理能量，以部分垂直第一列的变换系数幅值之和来表示图像块的垂直纹理能量，然后分别用水平纹理能量阈值和垂直纹理能量阈值对该图像块进行判断，对于水平纹理能量和垂直纹理能量均高于相应的阈值的图像块初步判定为文字区域，之后在空间域上检测图像的边缘，对边缘点数量进行阈值判决，进一步排除非文字区，完成精确定位文字区。

发明人在实现本发明的过程中，发现现有技术至少有以下缺陷：

由于图像中的文字区域背景的复杂程度未知，所以基于DCT变换系数计算的不同图像中文字区域的纹理能量差异也很巨大，而现有技术中的方案中不论是水平纹理能量阈值还是垂直纹理能量阈值都是预先定义好的，这样在对多个不同的图像中的文字区域判别时，现有技术中用来判决的纹理能量阈值不具有普遍的适用性，造成判决结果的不准确。

发明内容

有鉴于此，本发明实施例的目的在于提供一种图像中的文字定位的方法和装置，能够对不同图像具有普遍的适用性，判决结果准确。

为实现上述目的，本发明实施例提供了如下技术方案：

一种图像中的文字定位的方法，包括：

A.将图像划分成图像块，并对所述图像块进行离散余弦DCT变换，得到所述图像块对应的DCT变换系数；

B.根据所述图像块对应的DCT变换系数计算表示所述图像块内各个子块之间的纹理能量值之间差异的纹理能量差异程度值；

C.确定图像中图像块纹理能量差异程度值的最大值，根据所述图像块纹理能量差异程度值的最大值确定第一阈值；

D.将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要图像块；

E.将重要图像块的组成的区域确定为文字区域。

一种图像中的文字定位装置，包括：

变换单元，用于将图像划分图像块，并对图像块进行离散余弦DCT变换，得到所述图像块对应的DCT变换系数；

计算单元，根据图像块对应的DCT变换系数计算图像块的纹理能量差异程度值；