[发明专利]基于Gabor滤波器的文字信息特征提取与识别方法在审
申请号: | 201710027704.1 | 申请日: | 2017-01-16 |
公开(公告)号: | CN106778732A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 刘明珠;李文静;郑云非 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/46 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 gabor 滤波器 文字 信息 特征 提取 识别 方法 | ||
1. 一种基于Gabor滤波器的文字信息特征提取与识别方法,其特征是: 所述的文字信息特征提取与识别方法通过以下步骤实现:
步骤一、设计Gabor滤波器;
步骤二、设计并训练DBN分类网络;
步骤三、运用形态学的方法,对定位后的图像进行去噪、空洞区域的填充以及孤立点的剔除操作,使定位的文本图像更加精确,并将最终去噪后的文本定位二值图像映射到原始视频帧图像上,得到准确的文本定位区域;
步骤四、对定位并且处理后的准确的文本定位区域,进行文本增强、二值化处理、归一化与特征提取操作;
步骤五、运用OCR识别技术对经步骤四处理后的文本进行识别。
2.根据权利要求1所述的基于Gabor滤波器的文字信息特征提取与识别方法,其特征是:步骤一所述的设计Gabor滤波器的过程是指选择合适参数对视频帧图像从0°、45°、90 °、135 °四个方向上对字符特殊的纹理特征进行处理,得到四幅在这四个方向上的纹理特征图像,抑制背景区域,保持四个方向上的文字纹理特征,具体为:
将Gabor滤波器在空间域看做是一个正弦平面波,这个正弦平面波整好被Gaussian函数调制从而形成Gabor滤波器,其中,Gabor滤波器由7个参数来决定,分别是中心点、角度、均方差和以及和,并通过以下假设简化Gabor滤波器的函数,
(1).正弦平面波的方向与Gaussian核函数的旋转角度相同,即;
(2).Gaussian核函数的中心点在(0,0),均方差;
(3).经过Gaussian函数调制之后的正弦平面波,其余弦与正弦存在区别,余弦成分需要减去,从而使得平面正弦波在整体上保持零均值的特性,通过化简后的二维Gabor滤波器可以定义为:
表示像素位置;ω表示频率;θ表示滤波方向;σ表示均方差;频率ω与方差σ的关系式为:
,φ是倍频程的带宽,取值为1。
3.根据权利要求1或2所述的基于Gabor滤波器的文字信息特征提取与识别方法,其特征是:步骤二所述的设计并训练DBN分类网络是指利用RBM网络结构来构建DBN分类网络,根据不同层数的RBM网络,达到不同深度的DBN分类网络,比较不同深度的网络结构、复杂度、定位效果,选择合适深度的DBN分类网络对视频帧图像进行处理,定位出文本区域,具体为:
DBN网络是由一系列受限玻尔兹曼机的概率模型组成的,描述过程如下:假设有一个系统S,它有n层,设输入为,输出为,学习的一般过程表示为:,如果系统的输出等于它的输入,即输入经过系统变化之后没有任何的信息损失或者损失很小,可以看作基本上保持不变,说明输入经过每一层Si,都几乎没有信息的损失,即任意一层Si的输出,都是对原有信息,也就是输入的另外一种表示;
其中:所述的每一层网络的预训练均使用无监督学习进行;每次只用无监督学习训练网络中的一层,并将它的训练结果作为其高一层的输入;用自顶而下的监督算法去调整所有层。
4.根据权利要求3所述的基于Gabor滤波器的文字信息特征提取与识别方法,其特征是:步骤三所述的运用形态学的方法,对定位后的图像进行去噪、空洞区域的填充以及孤立点的剔除操作,具体为:
首先,运用腐蚀和膨胀分别对经由DBN网络分类处理后的二值图像进行运算;其次,利用腐蚀和膨胀运算组合成的开闭运算对DBN网络分类处理后的二值图像进行单独开或者闭运算;再次,对DBN分类网络处理后的二值图像进行先开后闭运算及先闭后开运算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710027704.1/1.html,转载请声明来源钻瓜专利网。