[发明专利]一种计算机数据统计系统及其统计分类方法在审
申请号: | 201910910589.1 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110659276A | 公开(公告)日: | 2020-01-07 |
发明(设计)人: | 张琪;宋仪轩;刘苗 | 申请(专利权)人: | 江苏医健大数据保护与开发有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/25 |
代理公司: | 11624 北京卓岚智财知识产权代理事务所(特殊普通合伙) | 代理人: | 郭智 |
地址: | 210000 江苏省南京市江北新区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 数据存储单元 数据清洗 计算机数据统计 数据采集单元 数据分类单元 设置数据 数据采集 数据类型 采集 采集单元 分类单元 前端数据 数据调用 数据分类 数据统计 保存 存储 统计 查找 | ||
1.一种计算机数据统计系统,包括数据采集单元、数据清洗单元、数据分类单元和数据存储单元,其特征在于:数据采集单元用于对前端数据进行采集,数据清洗单元用于对采集的数据进行数据清洗操作,数据分类单元用于按照数据类型对数据进行分类,数据存储单元用于对分类后的数据进行保存,数据统计系统流程如下:
S1、通过采集节点采集前端数据;
S2、对采集的数据进行数据清洗处理;
S3、将清洗后的数据进行分类处理;
S4、将分类处理后的数据进行存储。
2.根据权利要求1所述的计算机数据统计系统,其特征在于:数据采集单元采集数据流程如下:
S11、前端数据采集,通过采集节点采集前端数据;
S12、数据信号调理,将各个采集节点模拟输出分别进行信号变换,使之适应模/数转换器输入端对输入信号的要求;
S13、采样信号保存,将连续信号转化为断续的采样信号,再将断续的采样信号转化为连续信号;
S14、模数信号转换,将模拟量信号转换为数字量信号;
S15、数字信号处理,对采样的数字信号进行处理。
3.根据权利要求2所述的计算机数据统计系统,其特征在于:采样信号保存采用单位脉冲序列函数描述,其公式如下:
4.根据权利要求1所述的计算机数据统计系统,其特征在于:数据清洗单元包括以下模块:
模块一:纠正错误模块,纠正数据错误形式;
模块二:删除重复项模块,删除数据中存在的重复记录或重复字段;
模块三:统一规格模块,统一数据规格并将一致性的内容抽象出来;
模块四:修正逻辑模块,明确各个源系统的逻辑、条件、口径,并对异常源系统的采集逻辑进行修正;
模块五:转换构造模块,对数据进行标准化处理;
模块六:数据压缩模块,保持原有数据集的完整性和准确性,不丢失有用信息的前提下,按照一定的算法和方式对数据进行重新组织;
模块七:数据补缺模块,对残缺数据的数据进行补充;
模块八:数据丢弃模块,对于数据中的异常数据进行删除。
5.根据权利要求1所述的计算机数据统计系统,其特征在于:数据存储单元流程如下:
S41、建立云环境存储系统,根据相关的存储节点,建立一个大型的云环境数据存储系统;
S42、分解数据处理任务,将云环境数据存储系统内数据处理任务分解为各个小任务,将数据的大集合区域分解为各小区域;
S43、数据并行处理,对多个处理任务进行并行处理。
6.根据权利要求5所述的计算机数据统计系统,其特征在于:数据并行处理公式如下:
假设R为需要存储的大量的数据,有k元属性,A1,A2,Ai,Ak,代表大量数据的各属性,其Ai是大量数据被存储在第m个节点上;
其中,大量的数据R表示为:
7.一种计算机数据统计分类方法,包括权利要求1-6中任意一项计算机数据统计系统,其步骤如下:
S31、源数据预处理,提供算法学习样本的管理和选择最适算法的管理;
S32、数据分配处理分析,根据不同处理器的处理能力合理地分配资源;
S33、分类结果整合,将不同处理器处理的结果整合起来,分类整合公式如下:
其中,Pc为正确率,N为处理器的个数。
8.根据权利要求7所述的计算机数据统计分类方法,其特征在于:S31中,源数据预处理具体步骤如下:
S311、源数据过滤提取,对源数据信息进行过滤和提取;
S312、学习样本选取,对数据进行随机取样,使达到学习样本能充分的体现出所需要分类数据整体的分布,根据源数据的分布,将设定的学习样本分别从不同的源数据里提取;
S313、样本结果比较,将样本分别通过不同算法函数在分布式系统里的处理器进行分类,把分类结果进行比较,统计出不同算法的在同一个样本上的正确率,并制作结果数据;
S314、最适算法的选择,将不同算法的正确率进行详细比较,选取最适的算法作为该数据的分类的主算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏医健大数据保护与开发有限公司,未经江苏医健大数据保护与开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910910589.1/1.html,转载请声明来源钻瓜专利网。