[发明专利]一种网络动画中的文字定位及识别方法有效

申请号：	201010111374.2	申请日：	2010-02-10
公开（公告）号：	CN102147863A	公开（公告）日：	2011-08-10
发明（设计）人：	张树武;刘杰;梁伟	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06K9/20	分类号：	G06K9/20;G06K9/46
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	梁爱荣
地址：	100080 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网络动画中的文字定位识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种网络动画中的文字定位及识别方法，其特征在于，将网络动画结构分析技术与光学字符识别技术结合，直接提取网络动画文件中的编码内嵌文字，并利用一种基于连通域的启发合并、特征聚类的两阶段文字定位算法定位非内嵌文字，利用一种基于笔画宽度直方图的噪声过滤算法去除非文字连通域，最后利用基于梯度直方图特征识别非内嵌文字，该方法的步骤为：

步骤S1：利用网络动画结构分析技术，分析给定网络动画文件的内容，如果存在DefineText标签，DefineText2标签之一，则将其中TextRecords域中FontID所定义的编码内嵌文字直接提取出来；

步骤S2：利用网络动画结构分析技术，将网络动画分解为若干基本形状，再将基本形状转化为无失真压缩图像；基本形状是构成网络动画的元素，它包含网络动画中的全部非内嵌文字且背景更加简单，从而提高光学字符识别技术的准确性；

步骤S3：针对每个基本形状转化后的图像，利用基于连通域的启发合并、特征聚类的两阶段文字定位算法，将基本形状中的非内嵌文字图像准确定位，获得非内嵌文字定位图像和错误定位的非文字连通图像；

步骤S4：利用基于笔画宽度直方图的噪声过滤算法，将上述错误定位出的非文字连通域图像过滤掉；

步骤S5：利用基于梯度直方图特征识别非内嵌文字，最后将识别出的非内嵌文字与编码内嵌文字返回给用户。

2.根据权利要求1所述的网络动画中的文字定位及识别方法，其特征在于，所述分解若干基本形状的具体步骤包括：

步骤S21：首先读取网络动画文件的头信息：签名、版本、文件大小、帧的大小、帧率、帧数、背景色；

步骤S22：根据网络动画文件的头信息，如果是压缩格式，则对网络动画文件进行解压，并转入步骤23，如果不是压缩格式，则直接转入步骤23；

步骤S23：读取下一个标签头部信息，判断是否为End标签，如果是，结束系统，如果不是，转入步骤S24；

步骤S24：判断标签是否为DefineShape标签、DefineShape2标签、DefineShape3标签、DefineShape4标签之一，如果是，则转入步骤S25，如果不是，则返回到步骤S23；

步骤S25：创建一个网络动画文件，按照上述标签头部信息指定的长度，将原网络动画文件中的对应内容写入新的网络动画文件中，从而分解出基本形状。

3.根据权利要求1所述的网络动画中的文字定位及识别方法，其特征在于，将所述基本形状转化为无失真压缩图像的具体步骤是：将每个基本形状转化为背景色相反的两幅图像，然后选择两幅图像中前景区域大、反差强烈的图像进行文字定位及识别。

4.根据权利要求1或2所述的网络动画中的文字定位及识别方法，其特征在于，所述文字定位步骤是：

步骤S41：在文字区域颜色一致的假设前提下，通过颜色聚类将图像分割成若干的颜色层，并在每个图像颜色层上定位非内嵌文字，同时用颜色聚类可去除文字颜色渐变的不利影响；

步骤S42：利用文字特点设计启发规则，该启发规则在保证无错的前提下，先正确地将若干符合启发规则的连通域合并成非内嵌文字；

步骤S43：再利用连通域的宽、高及宽高比的特征进行聚类，若属于某个特征的连通域的数目足够多，则认为该特征是有意义的文字连通域特征，反之则认为是无意义的连通域特征；

步骤S44：利用步骤33确定的有意义的文字连通域特征，诱导其它连通域进行合并，当若干连通域就近结合且符合有意义的文字连通域特征，则认为该连通域是非内嵌文字，从而准确地将非内嵌文字定位出来。

5.根据权利要求1所述的网络动画中的文字定位及识别方法，其特征在于，所述基于笔画宽度直方图的噪声过滤的具体步骤是：

步骤S51：利用文字连通域的笔画宽度相对稳定，而噪声连通域的宽度变化较大的特点，对连通域建立水平方向与垂直方向的笔画宽度直方图；

步骤S52：对两个直方图分别进行聚类，如果两个直方图的峰值的频率足够多且相差不大，则认为该连通域是非内嵌文字，反之，则认为是噪声。

6.根据权利要求1所述的网络动画中的文字定位及识别方法，其特征在于，所述连通域的启发合并，是初始化一个连通域链表，将连通域中所有符合以下启发式规则之一的连通域合并，该启发式规则具体步骤包括如下：

规则a：

Area(i∩j)min(Area(i),Area(j))>0.5,]]>

其中：Area(i)和Area(j)分别表示恰好包含连通域i和j的矩形面积，min(Area(i)，Area(j))则表示二者中的较小值，Area(i∩j)表示他们相交区域的面积；

规则b：

W(i∪j)H(i∪j)<1.2andH(i∪j)W(i∪j)<1.2andDis(i,j)<Tdis,]]>

其中：W(i∪j)和H(i∪j)分别代表包含连通域i和j的矩形的宽和高，而Dis(i，j)则表示他们之间中心的距离，T_dis是一个自适应的阈值，自适应的阈值与包含连通域i和j的矩形的最小宽或高成正比，其定义如下：

T_dis＝min(W(i)，H(i)，W(j)，H(j))×a，

其中：a是一个放大系数，在实验中被设置为2.3。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201010111374.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于参数化多普勒瞬态模型的列车轮对轴承故障瞬态特征检测方法
下一篇：一种驱动微博信息的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种网络动画中的文字定位及识别方法有效

专利文献下载