[发明专利]一种网络动画中的文字定位及识别方法有效
申请号: | 201010111374.2 | 申请日: | 2010-02-10 |
公开(公告)号: | CN102147863A | 公开(公告)日: | 2011-08-10 |
发明(设计)人: | 张树武;刘杰;梁伟 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/46 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 梁爱荣 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 动画 中的 文字 定位 识别 方法 | ||
技术领域
本发明提出了一种网络动画(Flash)中的文字定位及识别方法,可以用于网络动画内容分析、监控、检索等技术领域。
背景技术
随着计算机技术及网络的发展,网络动画已经成为一种热门的媒体形式。尤其在网络广告中,网络动画更是占据了主导地位。随之而来,针对网络动画的内容分析、检索、监控的需求也越来越迫切。而网络动画中的文字无疑是实现这些需求的重要线索。
当前,世界上已经有很多关于文字定位的研究。这些研究基本可以被分为两类:基于纹理的方法和基于连通域的方法。基于纹理的方法主要是利用Gabor滤波器、小波变换等方法计算出区域的纹理特征,然后利用分类器来区分文本块与非文本块。而基于连通域的方法首先要假设字符的前景颜色基本一致。因此,基于连通域的方法首先要执行颜色聚类,将当前图形分解成若干颜色层,然后针对每个颜色层去执行连通域分析的方法,最终将符合文字特点的连通域定位出来。
目前这些方法在一定程度上解决了文字定位的问题,但是并不适合网络动画中文字的特点。在网络动画中,大量存在多语言文本混排,正体字和斜体字混排,不同字体、大小、颜色的文字混排。因此,传统算法不能很好地定位网络动画中的文字。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的在于针对网络动画的特点,提出一种将网络动画结构分析技术与光学字符识别技术相结合的文字定位及识别方法。
(二)技术方案
为达成所述目的,本发明提供一种网络动画中的文字定位及识别方法,该方法将网络动画结构分析技术与光学字符识别技术结合,将网络动画结构分析技术与光学字符识别技术结合,直接提取网络动画文件中的编码内嵌文字,并利用一种基于连通域的启发合并、特征聚类的两阶段文字定位算法定位非内嵌文字,利用一种基于笔画宽度直方图的噪声过滤算法去除非文字连通域,最后利用基于梯度直方图特征识别非内嵌文字,该方法的步骤为:
步骤S1:利用网络动画结构分析技术,分析给定网络动画文件的内容,如果存在定义文字(DefineText)标签,定义文字2(DefineText2)标签之一,则将其中文字记录(TextRecords)域中字符标识(FontID)所定义的编码内嵌文字直接提取出来;
步骤S2:利用网络动画结构分析技术,将网络动画分解为若干基本形状,再将基本形状转化为无失真压缩图像;基本形状是构成网络动画的元素,它包含网络动画中的全部非内嵌文字且背景更加简单,从而提高光学字符识别技术的准确性;
步骤S3:针对每个基本形状转化后的图像,利用基于连通域的启发合并、特征聚类的两阶段文字定位算法,将基本形状中的非内嵌文字图像准确定位,获得非内嵌文字定位图像和错误定位的非文字连通图像;
步骤S4:利用基于笔画宽度直方图的噪声过滤算法,将上述错误定位出的非文字连通域图像过滤掉;
步骤S5:利用基于梯度直方图特征识别非内嵌文字,最后将识别出的非内嵌文字与编码内嵌文字返回给用户。
其中,所述分解若干基本形状的具体步骤包括:
步骤S21:首先读取网络动画文件的头信息:签名、版本、文件大小、帧的大小、帧率、帧数、背景色;
步骤S22:根据网络动画文件的头信息,如果是压缩格式,则对网络动画文件进行解压,并转入步骤23,如果不是压缩格式,则直接转入步骤23;
步骤S23:读取下一个标签头部信息,判断是否为End标签,如果是,结束系统,如果不是,转入步骤S24;
步骤S24:判断标签是否为DefineShape标签、DefineShape2标签、DefineShape3标签、DefineShape4标签之一,如果是,则转入步骤S25,如果不是,则返回到步骤S23;
步骤S25:创建一个网络动画文件,按照上述标签头部信息指定的长度,将原网络动画文件中的对应内容写入新的网络动画文件中,从而分解出基本形状。
其中,将所述网络动画中基本形状转化为无失真压缩图像的具体步骤是:将每个基本形状转化为背景色相反的两幅图像,然后选择两幅图像中前景区域大、反差强烈的图像进行文字定位及识别。
其中,所述文字定位步骤是:
步骤S41:在文字区域颜色一致的假设前提下,通过颜色聚类将图像分割成若干的颜色层,并在每个图像颜色层上定位非内嵌文字,同时用颜色聚类可去除文字颜色渐变的不利影响;
步骤S42:利用文字特点设计启发规则,该启发规则在保证无错的前提下,先正确地将若干符合启发规则的连通域合并成非内嵌文字;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010111374.2/2.html,转载请声明来源钻瓜专利网。