[发明专利]一种基于多区域特征的电子公文分类方法在审
申请号: | 201510761336.4 | 申请日: | 2015-11-10 |
公开(公告)号: | CN105389557A | 公开(公告)日: | 2016-03-09 |
发明(设计)人: | 王东;李晓东;陈俊健;顾艳春 | 申请(专利权)人: | 佛山科学技术学院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/46 |
代理公司: | 广州新诺专利商标事务所有限公司 44100 | 代理人: | 许英伟 |
地址: | 528000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 区域 特征 电子 公文 分类 方法 | ||
技术领域
本发明涉及一种基于多区域特征的电子公文分类方法,尤其针对政府公文图片的类型识别。
背景技术
政府公文即行政公文,是公务文书的简称,是人类在治理社会、管理国家的公务实践中使用的具有法定权威和规范格式的应用文。作为表述国家意志、执行法律法规、规范行政执法、传递重要信息的最主要的载体,从某种程度上来说,公文是国家法律法规的延续和补充。其类型一般包括:决议、决定、命令(令)、公报、公告、通告、意见、通知、通报、报告、请示、批复、议案、函、纪要等。
随着电子政府的不断发展,政府办公网络化、信息化、电子化的日益盛行。为了提高政府办公效率,实现政府电子公文的自动分类或识别成为亟待解决的问题。
目前,国内外对电子公文的分类主要局限于电子文档的类型分类,尚未有基于图像内容特征的电子公文的分类或识别系统或方法。
由于政府公文是正式的文书,有比较固定的格式和版面要求。例如:行政公文的格式要素可划分为眉首、主体、版记三部分。红色反线以上的各个要素统称眉首;红色反线(不含)以下至主题词(不含)之间的各要素统称为主体;主题词以下的各要素统称为版记。其中,版头由发文机关全称或者规范化简称加上“文件”二字或者加上带括号注明的文种名称组成,用套红大字居中印在公文首页上部。联合行文,可用主办机关名称,也可并用联署机关名称。发文字号由机关代字、年份和发文序号组成等。因此,公文的这些要素可作为公文类型识别的关键点。
发明内容
本发明克服了现有技术中的缺点,提供了一种基于多区域特征的电子公文分类方法,该方法可以实现对已有版式模版的电子公文的类型进行识别的能力。
为了解决上述技术问题,本发明是通过以下技术方案实现的:
一种基于多区域特征的电子公文分类方法,包括以下步骤:
1)图像预处理
(1)图像灰度化:由于获取的电子公文图像一般为彩色图像,为使处理简化,必须将彩色信息变换到灰度空间中;
(2)图像自适应滤波:通过自适应中值滤波实现对拍摄的电子公文的噪声滤除;
(3)图像灰度拉伸:在实际图像中,经常会出现比较大的光照不同,因此图像灰度不一致,这将导致后续处理出现较大的误差。通过对图像进行灰度拉伸,可以实现各种灰度像素分布的调整,有利于改善图像光照条件不足导致的图像灰度的偏差;
(4)图像最优阈值计算:在实际图像二值化时,对不同光照的图像进行二值化后其结果图像差距常比较大。本发明通过迭代算法实现图像的自适应阈值计算,减少图像二值化结果受光照条件的影响,保证公文二值化后的一致性,从而保证公文识别的准确度;
(5)图像二值化:将图像转化为只有黑、白两种颜色的图像;
(6)图像倾斜矫正:通过hough变换检测角度在0~5°范围内的直线,实现图像倾斜矫正。
2)区域特征提取
(1)图像分块像素分布统计特征;
(2)平滑图像直方图特征;
(3)图像纹理特征;
3)标准文档多区域特征提取及入库
(1)标准文档图像预处理;
(2)标准文档图像关键区域选择;
(3)标准文档图像各区域特征提取,获得各区域特征向量;
(4)生成文档类型特征矩阵;
4)文档类型识别
(1)从数据库读取文档类型特征矩阵和对应的特征区域;
(2)获取被检文档图像对应特征区域图像;
(3)计算被检文档图像各特征区域特征向量;
(4)计算被检文档的特征矩阵;
(5)两个特征的相关系数矩阵,计算文档类型相似度,并以此值作为判定图像是否一致的依据。
进一步,所述图像二值化为:先通过对图像进行灰度拉伸和灰度平滑矫正,然后采用最优阈值方法进行图像二值化。
进一步,所述图像分块像素分布统计特征为:首先,对各区域图像进一步分块;然后,分别统计每个分块中像素个数,计算其在区域图像中的占比。最后,生成分布统计直方图。
进一步,所述图像平滑图像直方图特征为:首先,区域图像进行高斯平滑;然后,分别计算区域图像灰度分布直方图。
进一步,所述图像纹理特征为:首先,区域图像进行高斯平滑;然后,分别计算区域图像的surf特征点和特征向量。
进一步,所述标准文档多区域特征为:将文档图像的各个关键区域设为文档分类的特征提取区域,通过对各区域图像提取区域图像的统计特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山科学技术学院,未经佛山科学技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510761336.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:获取车辆位置方法、装置及系统
- 下一篇:一种身份证网络解码系统