[发明专利]一种结构化仿真数据生成系统及生成方法有效

专利信息
申请号: 202211086686.1 申请日: 2022-09-07
公开(公告)号: CN115169252B 公开(公告)日: 2022-12-13
发明(设计)人: 刘川意;周宇星;韩培义;段少明 申请(专利权)人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
主分类号: G06F30/27 分类号: G06F30/27;G06N3/04;G06N3/08
代理公司: 深圳市添源创鑫知识产权代理有限公司 44855 代理人: 覃迎峰
地址: 518000 广东省深圳市南*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结构 仿真 数据 生成 系统 方法
【说明书】:

本发明公开了一种结构化仿真数据生成系统及生成方法,所述系统包括数据预处理单元以及训练和生成单元,所述数据预处理单元用于将原始数据中的每个样本转换成向量表示,并且在转换的过程中建模贝叶斯网络用以描述特征间的关联关系;所述训练和生成单元利用原始数据转换后的向量表示进行训练,得到仿真数据生成模型,利用所述仿真数据生成模型生成仿真数据记录。本发明系统和方法能够同时生成含有连续型特征和离散型特征的仿真数据记录;针对生成仿真数据,既保持了与原始数据一致的数据分布,也保证了与原始数据一致的特征间关联关系;同时提出一种根据所需条件生成仿真数据的方法,能够根据不同的仿真数据应用场景生成分析所需的仿真数据记录。

技术领域

本申请涉及计算机技术领域,特别是涉及一种结构化仿真数据生成系统及生成方法。

背景技术

在大数据时代,数据往往需要经过流通、分析才能获得其中的价值,但是在数据流通和分析的过程中往往会伴随着隐私泄露的风险。对于结构化数据来说,传统的数据匿名化技术无法理想地保护隐私,对于拥有相关其他数据源知识的攻击者来说,很有可能推测出经过匿名化处理的标识符或准标识符,即重识别攻击;而数据匿名化技术则会大幅降低数据的可用性。为了达到数据可用性和隐私性的平衡,提出了一种使用仿真数据代替原始数据的解决方案,在数据流通和分析过程中仅使用仿真数据,使得:1)仿真数据中的每条记录不会对应现实中的任何实体,能够最大限度保护数据隐私;2)高质量的仿真数据能够有着与原始数据相同的分析效用,保留数据分析的效果。

针对仿真数据的生成,专利 CN107886009B提供了一种防隐私泄漏的大数据生成方法和系统,该数据生成方法中需要依次计算每个特征的概率分布,特征与特征间的生成是独立的,获得的仿真数据与原始数据的联合概率分布未必一致,同时,该方法只能生成仅包含离散型特征的仿真数据记录;专利CN110287729A提供了一种数据合成方法,该方法中无法针对特定应用场景生成特定条件的仿真数据记录;同时,数据处理过程中没有考虑离散数据和连续数据可能存在的关联性;专利CN110377725B提供了一种数据生成方法、装置、计算机设备及存储介质,该方法无法针对特定应用场景生成特定条件的仿真数据记录,并且只能生成仅包含语义类文本信息的仿真数据记录,无法生成应用更广泛的、包含离散型特征和连续型特征的仿真数据记录;专利CN109376862A提供了一种基于生成对抗网络的时间序列生成方法,该方法同样无法针对特定应用场景生成特定条件的仿真数据记录,也无法保证生成的仿真数据中特征间的关联关系与原始数据一致。

综上所述,现有的仿真数据生成方法存在的缺陷包括:难以保证生成的仿真数据与原始数据联合分布保持一致;无法保证生成的仿真数据中特征与特征之间有着与原始数据一致的关联关系;无法同时处理离散型特征和连续性特征两种变量类型;无法针对特定应用场景生成特定条件的仿真数据记录。

发明内容

本发明针对上述问题,提供了一种结构化仿真数据生成系统及生成方法,用于保证生成的仿真数据与原始数据联合分布保持一致;保证生成的仿真数据中特征与特征之间有着与原始数据一致的关联关系;同时处理离散型特征和连续性特征两种变量类型;以及针对特定应用场景生成特定条件的仿真数据记录。

本发明的第一方面,一种结构化仿真数据生成系统,包括:

数据预处理单元以及训练和生成单元,所述数据预处理单元用于将原始数据中的每个样本转换成向量表示,并且在转换的过程中建模贝叶斯网络用以描述特征间的关联关系;所述训练和生成单元利用原始数据转换后的向量表示进行训练,得到仿真数据生成模型,利用所述仿真数据生成模型生成仿真数据记录;

其中,所述数据预处理单元包括特征离散化模块、关联关系建模模块以及特征向量转换模块,所述特征离散化模块用于将连续型特征进行离散化,输出离散化结果和连续型特征在离散化过程中的损失信息;所述关联关系建模模块利用输入的离散化结果建模一个贝叶斯网络用于描述特征间的关联关系;所述特征向量转换模块用于将所述特征离散化模块输出的离散化结果和连续型特征在离散化过程中的损失信息通过编码后进行拼接的方式转换为向量表示;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),未经哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211086686.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top