[发明专利]土壤大数据分析中的数据清洗方法及装置在审

专利信息
申请号: 202210067946.4 申请日: 2022-01-20
公开(公告)号: CN114443635A 公开(公告)日: 2022-05-06
发明(设计)人: 石媛媛;邓明军;唐健;赵隽宇;覃祚玉;宋贤冲;王会利;潘波;覃其云 申请(专利权)人: 广西壮族自治区林业科学研究院
主分类号: G06F16/215 分类号: G06F16/215;G01N33/24
代理公司: 济南知来知识产权代理事务所(普通合伙) 37276 代理人: 崔静
地址: 530002 广*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 土壤 数据 分析 中的 清洗 方法 装置
【说明书】:

本发明涉及电力系统领域,具体涉及土壤大数据分析中的数据清洗方法及装置。所述方法包括:采集土壤数据,在采集土壤数据时,获取环境数据;对采集到的土壤数据按照类别进行数据分散,得到若干个分散数据集合;基于每个分散数据的数据结构和数据量大小,构建分散数据球体;最后构建数据清洗立方体,将数据清洗立方体和分散数据球体进行整合,得到最终的清洗数据。本发明使用不同于现有技术的仅对数据本身进行异常值查找的方式进行数据清洗,而是使用基于构建数据立方体的方式来将正常数据进行标记,进而对非正常数据进行修正,且结合土壤数据中经常因为环境数据导致的异常构建修正模型,显著提升了数据清洗的准确率。

技术领域

本发明属于数据分析领域,具体涉及土壤大数据分析中的数据清洗方法及装置。

背景技术

数据清洗(Data cleaning)是指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务主管部门修正之后再进行抽取。不符合要求的数据主要包括不完整的数据、错误的数据、重复的数据三大类。数据清洗与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

申请号CN201510947469.0的专利文献公开了一种基于决策树的姿轨控数据分析方法,包括姿轨控数据预处理,通过数据预处理,完成遥测数据去重复、遥测数据排序、遥测数据提取、遥测数据野值剔除;姿轨控系统层次化建模,建立姿轨控系统的信息和控制流程图,确定与姿轨控系统当前故障相关的遥测变量,将其作为决策树分析的输入变量;建立决策树分析的流程图;决策树模型,创建决策树C5.0算法模型,在模型中定义模型名称,Boosting(推进)算法试验次数,修剪属性以及每个子分支的最小记录数。

该专利中提及了相关的数据清洗的技术方案,但其清洗方式依然使用现有常规技术,清洗后的数据依然存在异常值,导致后续的数据分析准确率降低。

发明内容

本发明的主要目的在于提供土壤大数据分析中的数据清洗方法及装置,本发明使用不同于现有技术的仅对数据本身进行异常值查找的方式进行数据清洗,而是使用基于构建数据立方体的方式来将正常数据进行标记,进而对非正常数据进行修正,且结合土壤数据中经常因为环境数据导致的异常构建修正模型,显著提升了数据清洗的准确率。

为达到上述目的,本发明的技术方案是这样实现的:

土壤大数据分析中的数据清洗方法,所述方法执行以下步骤:

步骤1:采集土壤数据,在采集土壤数据时,获取环境数据;所述采集到的土壤数据至少包括:土壤有效水含量、沙含量、淤泥含量、粘土含量、土壤容重和有机碳含量;所述环境数据包括:环境温度、环境湿度和环境光照强度;

步骤2:对采集到的土壤数据按照类别进行数据分散,得到若干个分散数据集合;所述数据分散的过程包括:首先按照数据类别将采集到的土壤数据按照数据种类进行分类,得到多个分类数据,然后将每个分类数据按照设定的比例进行放大,得到分散数据;

步骤3:基于每个分散数据的数据结构和数据量大小,构建分散数据球体;

步骤4:对每个分散数据进行数据分析,以获得所有分散数据的数据特征,以每个分散数据的数据特征为中心,以分散数据的数据半径为边长,分别构建所有分散数据的数据清洗立方体;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西壮族自治区林业科学研究院,未经广西壮族自治区林业科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210067946.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top