[发明专利]一种高招大本数据采集系统及方法在审

申请号：	201611194572.3	申请日：	2016-12-22
公开（公告）号：	CN106650664A	公开（公告）日：	2017-05-10
发明（设计）人：	杨洋;潘嵘;林晓艺;赵泛舟;李训耕	申请（专利权）人：	深圳爱拼信息科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/34;G06K9/40
代理公司：	暂无信息	代理人：	暂无信息
地址：	518057 广东省深圳市南山区南山街道科***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种高招大本数据采集系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种数据采集方法，更具体的，涉及一种高招大本数据采集系统及方法。

背景技术

在普通高校的招生过程中，考生填报志愿不仅关系着能否被高校录取，更为重要的是：填志愿时选择专业、学校内在地规定了学生未来的学业及职业发展路线及发展状态。通常所说的考生志愿，指考生所选报的院校和专业，是考生的志向、愿望、爱好、个性和能力等因素的综合反映。而其中往年录取数据是考生在填报学校时的最重要的依据，这关系着考生是否能够考生该所学校。

通常情况下，各省都会派发对应的《高考填报指南》，其中就包含着该省往年的所有学校的录取数据。但这类书籍页数多，数据量大，考生在翻阅该书籍时难以快速准确捕获自己所需要的信息，因此将该类书籍数据电子化有其必要性。

目前主流的将书籍数据电子化的方式是人工录入，但这种方式耗费时间较长，且因有非常重的人工干预的成分，难以保证数据的准确性和完整性。从2016年开始，高招大本的书籍出版都很晚，将数据电子化需要在非常短的时间内完成，否则失去意义。所以全、准、快是录入高招大本数据的基本原则，显然人工录入的方式并不能达成这三项标准。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明的目的在于，提供一种快捷、流程化的数据采集方法处理高招大本数据，避免数据的缺失，保证其准确性，帮助考生便捷地查看往年录取数据。

为实现上述目的，本发明提供了一种一种高招大本数据采集方法，包括如下步骤：

步骤1，通过扫描仪，将纸质书籍扫描成电子文档；

步骤2，对电子文档进行图像预处理；

步骤3，采用字符处理方法对所述图像预处理后的结果进行字符识别，以识别所述结果中的各类字符；

步骤4，对所述字符识别后的结果进行修正，生成非规则化的数据文档，然后对所述非规则化的数据文档进行数据提取处理操作。

本发明还提供了一种高招大本数据采集系统，该系更具体的，所述步骤2中对电子文档进行图像预处理包括：

步骤1.1，图像二值化处理，采用阈值分割技术，设定灰度阈值，若图像像素点灰度值大于或等于所述阈值，则被判定为属于某一特定区域，用 255 表示其灰度值，否则，像素点将被排除在特定区域之外而被判定为背景或其他无用区域，用0表示其灰度值；

步骤1.2，图像增强处理，通过基于空间域的增强和基于频率域的增强处理方法，以减少所获取图像的小的空间改变；

步骤1.3，噪声处理，使用滤波器对所述图像增强处理后的结果进行滤波，去除噪声。