[发明专利]一种基于隐私保护的数据处理方法、系统及电子设备在审
申请号: | 202211054055.1 | 申请日: | 2022-08-31 |
公开(公告)号: | CN115408711A | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 孔繁斌;于鉴;张熙 | 申请(专利权)人: | 青岛迈金智能科技股份有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F21/64;G06F16/215;G06F16/2458 |
代理公司: | 北京同辉知识产权代理事务所(普通合伙) 11357 | 代理人: | 王艳秋 |
地址: | 266000 山东省青岛市城*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 隐私 保护 数据处理 方法 系统 电子设备 | ||
本发明涉及一种基于隐私保护的数据处理方法、系统及电子设备,属于数据处理技术领域,数据处理方法包括:获取原始数据;基于预设的规则对原始数据进行筛选,以剔除原始数据中的隐私特征数据;基于筛选后的数据是否存在空值确定对筛选后数据的处理策略;对处理后的数据进行数据类型以及数值范围异常判断,基于判断结果确定对数据的清理策略,本发明可以有效的保护隐私数据,防止数据在传输或者使用过程中泄露用户隐私,降低了数据处理的复杂度,同时,对数据进行了高质量提取。
技术领域
本发明属于数据处理技术领域,具体地说涉及一种基于隐私保护的数据处理方法、系统及电子设备。
背景技术
随着健身热潮的兴起,越来越多的人加入骑行健身行列。在目前的骑行健身体系中所有的课程训练都是基于FTP(Functional Threshold Power,功能性阈值功率)进行计算的,包括ERG模式阻力的调节、用户训练过后的训练评分、用户真实的运动能力数值,因此,FTP值的有效准确性决定了后续一系列数值解算、骑行体验与运动评估建议等有效性。表征用户特征信息的数据是估算FTP值的重要依据,因此,如何在保证用户隐私性信息的前提下大规模的进行数据挖掘、提取高质量的数据是最为关键的环节。
发明内容
针对现有技术的种种不足,为了解决上述问题,现提出一种基于隐私保护的数据处理方法、系统及电子设备。
为实现上述目的,本发明提供如下技术方案:
第一方面,本发明提供一种基于隐私保护的数据处理方法,包括:
步骤S100、获取原始数据;
步骤S200、基于预设的规则对原始数据进行筛选,以剔除原始数据中的隐私特征数据;
步骤S300、基于筛选后的数据是否存在空值确定对筛选后数据的处理策略;
步骤S400、对处理后的数据进行数据类型以及数值范围异常判断,基于判断结果确定对数据的清理策略。
进一步,步骤S200中,所述规则为剔除原始数据中的隐私特征数据,保留原始数据中的非隐私特征数据。
进一步,基于预先设定的规则对原始数据进行筛选,具体为:
调用预先设定的检索表对所获取的原始数据进行匹配,其中,所述检索表中包含有表征隐私特征数据的特征值;
根据匹配结果查找并剔除原始数据中的隐私特征数据,得到非隐私特征数据。
进一步,在步骤S200与步骤S300之间还包括:
将剔除隐私特征数据的原始数据使用RAND函数生成随机序列,且采用随机序列降序扰乱数据集。
进一步,基于筛选后的数据是否存在空值确定对筛选后数据的处理策略,具体为:
当所述非隐私特征数据中存在未输出数据值的标签时,将该标签定义为空值标签,采用自学习的数据自动标注算法对空值标签进行预测,反之,将标签定义为非空值标签,执行步骤S400。
进一步,采用自学习的数据自动标注算法对空值标签进行预测,具体为:
调用预先构建的自学习的数据自动标注算法模型,并利用非空值标签的数据训练模型;
基于训练后的模型,输入与空值标签相关联的非隐私特征数据,输出预测的伪标签数据,循环迭代,直至完成所有空值标签的预测。
进一步,输出预测的伪标签数据之后还包括确定置信度,具体为:
在两条或多条非隐私特征数据字段信息相同的情况下,设定该两条或多条非隐私特征数据相对应的标签值相同;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛迈金智能科技股份有限公司,未经青岛迈金智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211054055.1/2.html,转载请声明来源钻瓜专利网。