[发明专利]针对图书馆的大数据清洗系统在审
申请号: | 201711232312.5 | 申请日: | 2017-11-30 |
公开(公告)号: | CN109857728A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 徐继峰;周峻松;祁建明;陈墩金 | 申请(专利权)人: | 广州明领基因科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510610 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 脏数据 大数据 数据源采集 数据清洗 清洗层 清洗系统 管理层 图书馆 清洗 数据清洗系统 数据安全性 存储系统 流程控制 清洗过程 系统底层 元数据 发现 可控 可用 存取 安全 保证 传输 管理 | ||
本发明公开了一种针对图书馆的大数据清洗系统,该系统包括:数据源采集层、脏数据发现层、脏数据清洗层以及数据清洗管理层;其中,所述数据源采集层位于系统底层,用于保证图书馆大数据存储系统安全、高效、经济和可控;所述脏数据发现层将从数据源采集层中发现、提取出的脏数据传输至脏数据清洗层;所述脏数据清洗层是数据清洗系统的核心;所述数据清洗管理层负责元数据存取、大数据清洗流程控制、数据清洗过程的数据安全性和脏数据清洗质量的管理,保证脏数据清洗过程安全、高效、经济、高价值及可用。
技术领域
本发明属于大数据清洗技术领域,涉及一种针对图书馆的大数据清洗系统。
背景技术
当前,图书馆已进入大数据时代。随着移动互联网、云计算和物联网技术在图书馆中的广泛应用,图书馆可通过监控和采集服务器运行数据、读者个体特征、阅读行为数据、阅读关系数据、阅读终端数据等,实现对图书馆服务模式和读者阅读需求的全面感知与预测,大幅度提升了图书馆的服务能力和读者阅读满意度。
但是,随着图书馆服务复杂度和服务模式多样化的发展,其大数据环境呈现出“4V+1C”的特点(分别是数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)和具有较强的复杂性(Complexity)),图书馆采集与存储的原始大数据中混杂着许多不完整、错误和重复的“不清洁”数据,导致图书馆大数据存在着不一致、不完整性、低价值密度、不可控和不可用的特性。图书馆如果一味强调提升IT基础设施的大数据处理性能、数据分析方法的科学性、数据分析师的大数据素养,而不通过大数据清洗有效提升数据的质量和可用性,将会导致图书馆大数据应用的收益率和数据决策科学性下降。
在很多涉及数据仓库的项目中,数据清洗在开发时间和整体预算方面所占的比例大概在30%~80%,且将不同数据源的数据进行抽取和整合时,还可能会产生一些新的脏数据。因此,如何制定和执行安全、高效的数据清洗策略,实现对图书馆大数据资源的检测、校验、修正、整合与分解,及时发现并纠正大数据中存在的错误、缺失、异常和可疑数据,确保图书馆大数据资源结构完整、正确和无重复,是关系图书馆大数据应用与决策安全、科学、高效、经济和可控的重要问题。
发明内容
本发明目的在于提供一种针对图书馆的大数据清洗系统,为了克服图书馆原始大数据中混杂的脏数据导致图书馆大数据应用的收益率和数据决策科学性下降的问题,通过将数据质量管理和数据清洁引入图书馆大数据生命周期的不同阶段,不仅将非清洁数据转化为高质量的干净数据,还要从制度上规划保证数据质量管理有效和防止非清洁数据的产生,有效地实现了对图书馆大数据资源的检测、校验、修正、整合与分解,及时发现并纠正了大数据中存在的错误、缺失、异常和可疑数据,确保了图书馆大数据资源结构完整、正确和无重复,增强了大数据的可用性、提升了大数据决策效率及知识服务水平。
为解决上述技术问题,本发明采用如下的技术方案:一种针对图书馆的大数据清洗系统,该系统包括:数据源采集层、脏数据发现层、脏数据清洗层以及数据清洗管理层;其中,所述数据源采集层位于系统底层,用于保证图书馆大数据存储系统安全、高效、经济和可控;所述脏数据发现层将从数据源采集层中发现、提取出的脏数据传输至脏数据清洗层;所述脏数据清洗层是数据清洗系统的核心;所述数据清洗管理层负责元数据存取、大数据清洗流程控制、数据清洗过程的数据安全性和脏数据清洗质量的管理,保证脏数据清洗过程安全、高效、经济、高价值及可用。
进一步地,所述数据源采集层,针对大数据的来源、类型、应用对象及脏数据特点,划分为客户管理元数据库、系统配置与运行数据库、读者服务数据库和主数据库。
进一步地,所述脏数据发现层主要由大数据的获取、数据完整性检测、数据重复性检测和错误数据检测4个功能子模块组成。
进一步地,所述数据清洗管理层由图书馆元数据管理、大数据清洗模型管理、数据清洗安全性管理和数据清洗质量管理4个子模块组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州明领基因科技有限公司,未经广州明领基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711232312.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种本地数据库重构方法、设备和存储介质
- 下一篇:数据服务方法和装置