[发明专利]数据合成的方法、装置和设备有效

专利信息
申请号: 202010312562.5 申请日: 2020-04-20
公开(公告)号: CN111625523B 公开(公告)日: 2023-08-08
发明(设计)人: 孙尉嘉;杜雨诺 申请(专利权)人: 沈阳派客动力科技有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/22;G06F16/25
代理公司: 北京华清迪源知识产权代理有限公司 11577 代理人: 康震
地址: 110000 辽宁省沈阳市*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 合成 方法 装置 设备
【说明书】:

发明实施例公开了数据合成的方法、装置和设备,该方法包括:获取原始数据;将原始数据分为键值数据和剩余数据;根据键值数据生成新键值;将剩余数据进行处理得到离散数据和连续数据;对离散数据进行卡方分布处理得到新离散数据;对连续数据进行因子处理得到字符型数据和合并数字数据;根据字符数据生成新连续字符数据;根据数字数据Copula过程和算式数据处理生成新连续数字数据,并把Copula过程得到数字数据处理为时间型数据;将新键值、新离散数据、新连续字符数据、新连续数字数据和时间型数据进行数据合成。本发明可以批量生成与原始数据拥有相同集特征的合成数据,以满足大量机器学习所需训练集问题及其他研究需求。

技术领域

本发明实施例涉及数据合成技术领域,具体涉及数据合成的方法、装置和设备。

背景技术

数据合成技术(Data Synthetic),也称测试数据生成技术,其目的是根据已有数据集的特征生成有相同集特征的数据集。当前的数据合成技术中,如果存在离散型数据与连续性数据并存的数据集,对于连续型数据的特征提取以及生成算法并没有一个好的方案。

对于数据安全问题的处理手段,仍然是以脱敏技术为主。以差分隐私算法为例:该算法主要是针对差分攻击来进行数据保护,差分攻击,指通过观察输出或者中间参数,利用算法进行反向推倒来逆推出输入数据的手段。举例说明:如果攻击者知道了一组数据的平均值,那么当添加新的数据时,只要重新获取数据均值,就可以推导出新添数据的具体值。差分隐私的做法是给数据添加“噪声”来保护真实数据,比如拉普拉斯噪声,这种手段可以有效的避免差分攻击造成的损害,但仍然存在一些不足:无法通过这种算法得到多于原数据条数的数据,例:原始数据10万条,生成的数据也是10万条。

发明内容

本发明实施例的目的在于提供数据合成的方法、装置和设备,用以解决现有数据合成无法得到多余原始数据条数的问题。

为实现上述目的,本发明实施例主要提供如下技术方案:

第一方面,本发明实施例提供了一种数据合成的方法,包括:获取原始数据;将所述原始数据分为键值数据和剩余数据;根据所述键值数据生成新键值;将所述剩余数据进行处理得到离散数据和连续数据;对所述离散数据进行卡方分布处理得到新离散数据;对所述连续数据进行因子处理得到字符型数据、第一数字数据和时间数据,并将所述时间数据进行因子化得到第二数字数据,进而根据所述第一数字数据和所述第二数字数据得到合并数字数据;根据所述字符数据生成新连续字符数据;根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据,并把Copula过程得到数字数据处理为时间型数据;将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成。

根据本发明的一个实施例,所述根据所述字符数据生成新连续字符数据,包括:根据所述字符数据使用抽取转换装载ETL生成所述新连续字符数据。

根据本发明的一个实施例,所述将所述原始数据分为所述键值数据和所述剩余数据,包括:对所述原始数据进行数据清洗;对所述数据清洗后的原始数据,采用根据主键约束得到所述键值数据和所述剩余数据。

第二方面,本发明实施例还提供一种数据合成的装置,包括:原始数据获取模块,用于获取原始数据;处理模块,用于将所述原始数据分为键值数据和剩余数据,根据所述键值数据生成新键值,并将所述剩余数据进行处理得到离散数据和连续数据;所述处理模块还用于对所述离散数据进行卡方分布处理得到新离散数据,并对所述连续数据进行因子处理得到字符型数据、第一数字数据和时间数据,并将所述时间数据进行因子化得到第二数字数据,进而根据所述第一数字数据和所述第二数字数据得到合并数字数据;所述处理模块还用于根据所述字符数据生成新连续字符数据,根据所述合并数字数据进行Copula过程和算式数据处理生成新连续数字数据,并把Copula过程得到数字数据处理为时间型数据;将所述新键值、所述新离散数据、所述新连续字符数据、所述新连续数字数据和所述时间型数据进行数据合成。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳派客动力科技有限公司,未经沈阳派客动力科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010312562.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top