[发明专利]数据合成的方法、装置和设备有效
申请号: | 202010312562.5 | 申请日: | 2020-04-20 |
公开(公告)号: | CN111625523B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 孙尉嘉;杜雨诺 | 申请(专利权)人: | 沈阳派客动力科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/25 |
代理公司: | 北京华清迪源知识产权代理有限公司 11577 | 代理人: | 康震 |
地址: | 110000 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 合成 方法 装置 设备 | ||
本发明实施例公开了数据合成的方法、装置和设备,该方法包括:获取原始数据;将原始数据分为键值数据和剩余数据;根据键值数据生成新键值;将剩余数据进行处理得到离散数据和连续数据;对离散数据进行卡方分布处理得到新离散数据;对连续数据进行因子处理得到字符型数据和合并数字数据;根据字符数据生成新连续字符数据;根据数字数据Copula过程和算式数据处理生成新连续数字数据,并把Copula过程得到数字数据处理为时间型数据;将新键值、新离散数据、新连续字符数据、新连续数字数据和时间型数据进行数据合成。本发明可以批量生成与原始数据拥有相同集特征的合成数据,以满足大量机器学习所需训练集问题及其他研究需求。
技术领域
本发明实施例涉及数据合成技术领域,具体涉及数据合成的方法、装置和设备。
背景技术
数据合成技术(Data Synthetic),也称测试数据生成技术,其目的是根据已有数据集的特征生成有相同集特征的数据集。当前的数据合成技术中,如果存在离散型数据与连续性数据并存的数据集,对于连续型数据的特征提取以及生成算法并没有一个好的方案。
对于数据安全问题的处理手段,仍然是以脱敏技术为主。以差分隐私算法为例:该算法主要是针对差分攻击来进行数据保护,差分攻击,指通过观察输出或者中间参数,利用算法进行反向推倒来逆推出输入数据的手段。举例说明:如果攻击者知道了一组数据的平均值,那么当添加新的数据时,只要重新获取数据均值,就可以推导出新添数据的具体值。差分隐私的做法是给数据添加“噪声”来保护真实数据,比如拉普拉斯噪声,这种手段可以有效的避免差分攻击造成的损害,但仍然存在一些不足:无法通过这种算法得到多于原数据条数的数据,例:原始数据10万条,生成的数据也是10万条。
发明内容
本发明实施例的目的在于提供数据合成的方法、装置和设备,用以解决现有数据合成无法得到多余原始数据条数的问题。
为实现上述目的,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种数据合成的方法,包括:获取原始数据;将所述原始数据分为键值数据和剩余数据;根据所述键值数据生成新键值;将所述剩余数据进行处理得到离散数据和连续数据;对所述离散数据进行卡方分布处理得到新离散数据;对所述连续数据进行因子处理得到字符型数据、第一数字数据和时间数据,并将所述时间数据进行因子化得到第二数字数据,进而根据所述第一数字数据和所述第二数字数据得到合并数字数据;根据所述字符数据生成新连续字符数据;根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据,并把Copula过程得到数字数据处理为时间型数据;将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成。
根据本发明的一个实施例,所述根据所述字符数据生成新连续字符数据,包括:根据所述字符数据使用抽取转换装载ETL生成所述新连续字符数据。
根据本发明的一个实施例,所述将所述原始数据分为所述键值数据和所述剩余数据,包括:对所述原始数据进行数据清洗;对所述数据清洗后的原始数据,采用根据主键约束得到所述键值数据和所述剩余数据。
第二方面,本发明实施例还提供一种数据合成的装置,包括:原始数据获取模块,用于获取原始数据;处理模块,用于将所述原始数据分为键值数据和剩余数据,根据所述键值数据生成新键值,并将所述剩余数据进行处理得到离散数据和连续数据;所述处理模块还用于对所述离散数据进行卡方分布处理得到新离散数据,并对所述连续数据进行因子处理得到字符型数据、第一数字数据和时间数据,并将所述时间数据进行因子化得到第二数字数据,进而根据所述第一数字数据和所述第二数字数据得到合并数字数据;所述处理模块还用于根据所述字符数据生成新连续字符数据,根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据,并把Copula过程得到数字数据处理为时间型数据;将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳派客动力科技有限公司,未经沈阳派客动力科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010312562.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:MUT指纹ID系统
- 下一篇:闪存特性分析方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置