[发明专利]基于BP神经网络和频谱分析的视频文字区域定位方法有效
申请号: | 201810148366.1 | 申请日: | 2018-02-13 |
公开(公告)号: | CN108241874B | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 霍华;吕靖;李宁波;常国沁 | 申请(专利权)人: | 河南科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/20;G06N3/04 |
代理公司: | 洛阳公信知识产权事务所(普通合伙) 41120 | 代理人: | 陈佳丽 |
地址: | 471000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bp 神经网络 频谱 分析 视频 文字 区域 定位 方法 | ||
1.基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:包括以下步骤:
步骤1、提取新闻视频帧,并将所提取的新闻视频帧转化为灰度图像;
步骤2、构建BP神经网络作为分类器,将每个图像内的所有像素点进行分类,获得分类为文字类的像素点;
步骤3、对步骤2获得的分类为文字类的像素点进行基于距离的聚类处理,获得候选文字区域;
步骤4、对步骤3中获得的候选文字区域进行快速傅里叶变换得到频谱图;
步骤5、再次构建BP神经网络作为分类器,将候选文字区域分类,滤除假阳性区域,具体方法为:
步骤5.1、在频谱图中,选取平均文字宽度的2到3倍大小的特征窗口,此窗口不包含频率1;
步骤5.2、构建BP神经网络,将所取窗口范围内频率所对应的的幅值以及平均文字宽度附近频率内最高幅值所处的频率值作为BP神经网络的输入值,设置输出层结点数为2;
步骤5.3、使用公式(1)或公式(2)进行隐含层结点的选取:
其中,N表示所设置隐含层结点的个数,m和n分别表示输入层和输出层结点的个数,a为常数;
步骤5.4、2个输出层结点分别代表真阳性区域和假阳性区域,输出为一个包含两个浮点值的向量,标定样本时,将真阳性文字区域标定为(1,0),将假阳性区域标定为(0,1);
步骤5.5、对BP神经网络进行训练和测试,测试样本的候选文字区域的输出向量中,如果第一个值大于第二个值,那么该候选文字区域将被分类为真阳性类,如果第二个值大于第一个值,那么该候选文字区域将被分类为假阳性类并予以滤除;
步骤5.6、滤除假阳性区域后所剩的真阳性候选文字区域即为最终文字定位区域。
2.根据权利要求1所述的基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:所述步骤2构建BP神经网络作为分类器,将每个图像内的所有像素点进行分类的具体方法为:
步骤2.1、对图像内的所有像素点进行角点检测,将被判定为角点的像素点赋予特征值1,非角点赋予特征值0;
步骤2.2、依次将每个像素点作为中心像素点,取其M*M大小的邻域窗口作为特征窗口;
步骤2.3、构建BP神经网络,将所取窗口内所有像素点的灰度值以及角点判定值作为BP神经网络的输入,输入层结点的个数m设置为M*M*2个,输出层结点个数n设置为2;
步骤2.4、设置隐含层结点,隐含层结点的个数N的设置由公式(1)或(2)计算得到:
其中,N表示所设置隐含层结点的个数,m和n分别表示输入层和输出层结点的个数,a为常数;
步骤2.5、输出层2个结点分别代表文字类和非文字类,输出为一个包含两个浮点值的向量,标定样本时,将属于文字类的像素点标定为(1,0),将非文字类的像素点标定为(0,1);
步骤2.6、对BP神经网络进行训练和测试,测试样本的像素点的输出向量中,如果第一个值大于第二个值,那么该像素点被分类为文字类,如果第二个值大于第一个值,那么该像素点被分类为非文字类,最后将所有被判定为文字类的像素点进行标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南科技大学,未经河南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810148366.1/1.html,转载请声明来源钻瓜专利网。