[发明专利]数据合成的方法、装置和设备有效
申请号: | 202010312562.5 | 申请日: | 2020-04-20 |
公开(公告)号: | CN111625523B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 孙尉嘉;杜雨诺 | 申请(专利权)人: | 沈阳派客动力科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/25 |
代理公司: | 北京华清迪源知识产权代理有限公司 11577 | 代理人: | 康震 |
地址: | 110000 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 合成 方法 装置 设备 | ||
1.一种数据合成的方法,其特征在于,包括:
由数据库或其他源读取原始数据;
将所述原始数据分为键值数据和剩余数据;
根据所述键值数据生成新键值;
将所述剩余数据进行处理得到离散数据和连续数据;具体地,将去除主键值后的剩余数据按照数据类型分为字符型,数字型数据及时间类数据和离散数据;其中,类型区分的方式是利用Java连接SQL,读取数据库内存储的数据类型,与自设类型或java类型建立匹配关系;
对所述离散数据进行卡方分布处理得到新离散数据;
对所述连续数据进行因子处理得到字符数据、第一数字数据和时间数据,并将所述时间数据进行因子化得到第二数字数据,进而根据所述第一数字数据和所述第二数字数据得到合并数字数据;
根据所述字符数据生成新连续字符数据;
根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据,并把Copula过程得到数字数据处理为时间型数据;
将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成,生成与所述原始数据拥有相同集特征的合成数据,作为大量机器学习所需训练集数据。
2.根据权利要求1所述的数据合成的方法,其特征在于,所述根据所述字符数据生成新连续字符数据,包括:
根据所述字符数据使用抽取转换装载ETL生成所述新连续字符数据。
3.根据权利要求1所述的数据合成的方法,其特征在于,所述将所述原始数据分为所述键值数据和所述剩余数据,包括:
对所述原始数据进行数据清洗;
对所述数据清洗后的原始数据,采用根据主键约束得到所述键值数据和所述剩余数据。
4.一种数据合成的装置,其特征在于,包括:
原始数据获取模块,用于由数据库或其他源获取原始数据;
处理模块,用于将所述原始数据分为键值数据和剩余数据,根据所述键值数据生成新键值,并将所述剩余数据进行处理得到离散数据和连续数据;具体地,将去除主键值后的剩余数据按照数据类型分为字符型,数字型数据及时间类数据和离散数据;其中,类型区分的方式是利用Java连接SQL,读取数据库内存储的数据类型,与自设类型或java类型建立匹配关系;
所述处理模块还用于对所述离散数据进行卡方分布处理得到新离散数据,并对所述连续数据进行因子处理得到字符数据、第一数字数据和时间数据,并将所述时间数据进行因子化得到第二数字数据,进而根据所述第一数字数据和所述第二数字数据得到合并数字数据;所述处理模块还用于根据所述字符数据生成新连续字符数据,根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据,并把Copula过程得到数字数据处理为时间型数据;将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成,生成与所述原始数据拥有相同集特征的合成数据,作为大量机器学习所需训练集数据。
5.根据权利要求4所述的数据合成的装置,其特征在于,所述处理模块用于根据所述字符数据使用抽取转换装载ETL生成所述新连续字符数据。
6.根据权利要求4所述的数据合成的装置,其特征在于,所述处理模块用于对所述原始数据进行数据清洗;对所述数据清洗后的原始数据,采用根据主键约束得到所述键值数据和所述剩余数据。
7.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器和至少一个存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1-3任一项所述的数据合成的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-3任一项所述的数据合成的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳派客动力科技有限公司,未经沈阳派客动力科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010312562.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:MUT指纹ID系统
- 下一篇:闪存特性分析方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置