[发明专利]一种基于密度聚类的非均衡数据集的均衡化方法及装置在审

专利信息
申请号: 201910496790.X 申请日: 2019-06-10
公开(公告)号: CN110298451A 公开(公告)日: 2019-10-01
发明(设计)人: 顾凌云;谢旻旗;段湾;王存伟;张涛;罗雨晨;张阳;乔韵如;黄海涛;冯杰;王震宇;周轩;潘峻 申请(专利权)人: 上海冰鉴信息科技有限公司
主分类号: G06N20/20 分类号: G06N20/20
代理公司: 常州佰业腾飞专利代理事务所(普通合伙) 32231 代理人: 滕诣迪
地址: 200120 上海市上海自*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种基于密度聚类的非均衡数据集的均衡化方法及装置,其中方法包括:获取非均衡数据集,确定少数类样本点的数据集和多数类样本点的数据集;对少数类样本的数据集进行密度聚类,根据少数类样本点的聚类情况,对少数类样本进行合成样本点的操作,得到处理后的少数类样本点;对多数类样本的数据集进行密度聚类,根据多数类样本点的聚类情况,对多数类样本进行剔除样本点的操作,得到处理后的多数类样本点;根据处理后的少数类样本点和处理后的多数类样本点得到非均衡数据集的均衡结果。
搜索关键词: 样本点 数据集 密度聚类 非均衡 样本 均衡化 聚类 合成样本 均衡结果 剔除
【主权项】:
1.一种基于密度聚类的非均衡数据集的均衡化方法,其特征在于,包括:获取非均衡数据集,确定少数类样本点的数据集和多数类样本点的数据集;对所述少数类样本的数据集进行密度聚类,根据所述少数类样本点的聚类情况,对所述少数类样本进行合成样本点的操作,得到处理后的少数类样本点;对所述多数类样本的数据集进行密度聚类,根据所述多数类样本点的聚类情况,对所述多数类样本进行剔除样本点的操作,得到处理后的多数类样本点;根据所述处理后的少数类样本点和所述处理后的多数类样本点得到所述非均衡数据集的均衡结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海冰鉴信息科技有限公司,未经上海冰鉴信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910496790.X/,转载请声明来源钻瓜专利网。

同类专利
  • 数据处理方法、装置和服务器-201910742800.3
  • 高睿;周魁;廖鸿存;冯武明 - 中国工商银行股份有限公司
  • 2019-08-13 - 2019-11-12 - G06N20/20
  • 本申请实施例提供了一种数据处理方法、装置和服务器,其中,该方法通过在原有的特征参数的基础上,引入了相关性更低、效果更好的特征极差因子,并利用样本数据的预设特征参数和预设特征极差因子进行学习得到准确度高的预设模型;再通过上述预设模型基于预设时间段内的目标数据的预设特征参数,以及预设特征极差因子较为精准地确定出该目标数据未来的变化趋势;进而可以以该变化趋势作为指导,更加精准地处理目标数据。从而解决了现有方法中存在的对目标数据的变化趋势确定不准确、误差大,影响针对目标数据处理的技术问题。达到能够精准地预测目标数据的未来变化趋势,并根据上述变化趋势有针对性地及时、准确地对目标数据进行对应的处理。
  • 计算机执行的集成模型的确定方法及装置-201910368113.X
  • 杨新星;李龙飞;周俊 - 阿里巴巴集团控股有限公司
  • 2019-05-05 - 2019-09-10 - G06N20/20
  • 本说明书实施例提供一种计算机执行的集成模型的确定方法,所述方法包括:首先,获取当前集成模型以及未经训练的多个候选子模型;接着,将多个候选子模型中的各个子模型分别集成到所述当前集成模型中,得到多个第一候选集成模型;然后,至少对所述多个第一候选集成模型进行训练,得到本次训练后的多个第二候选集成模型;再接着,分别对所述多个第二候选集成模型中的各个第二候选集成模型进行性能评估,得到对应的性能评估结果;再然后,基于所述性能评估结果,从所述多个第二候选集成模型中确定性能最优的最优候选集成模型;进一步地,在所述最优候选集成模型的性能满足预定条件的情况下,利用所述最优候选集成模型更新所述当前集成模型。
  • 智能学习方法及装置-201910343675.9
  • 程宏亮;强劲;张建 - 美林数据技术股份有限公司
  • 2019-04-26 - 2019-08-23 - G06N20/20
  • 本公开提供一种智能学习方法及装置,涉及信息技术领域,能够解决人工智能学习过程中,集成学习的数据自适应及集成方式不够灵活的问题。具体技术方案为:获取第一集成信息,第一集成信息用于指示一级算法内各个算法节点之间的逻辑关系;根据第一集成信息和至少一个基学习算法构建至少一个一级算法,一个一级算法包括至少一个基学习算法;获取第二集成信息,第二集成信息用于指示二级算法内各个算法节点之间的逻辑关系;根据至少一个一级算法构建二级算法,二级算法包括至少一个一级算法。本公开用于人工智能学习。
  • 一种线索集成系统基础构成-201910335216.6
  • 戴文跃 - 戴文跃
  • 2019-04-24 - 2019-07-23 - G06N20/20
  • 本发明公开了一种线索集成系统基础构成,目的是提供一种能够保持线索之间的激活作用关系、具有统一结构形式和运行机制的多范畴线索集成系统基本结构和基本运行方法。为实现上述目的,本发明从认知线索入手,提出虚线索、实线索、源线索、靶线索、线索元、源靶关系、线索元网络等一系列技术结构,以及线索元测控规则、线索觉察驱动机制等基本运行方法,使得不同范畴的相关线索得以集成和协作。本发明可以作为类脑智能系统的基本构建方法和基础系统。
  • 一种模型启动方法及装置-201910163115.5
  • 曹誉仁;梁健;宾志豪;庄灿杰;张晨斌;黄泽丰;倪晓臻;胡嘉琪;徐森圣;陈奋 - 腾讯科技(深圳)有限公司
  • 2019-03-05 - 2019-07-05 - G06N20/20
  • 本发明公开了一种模型启动方法及装置,所述方法包括:获取用于进行模型启动的原始数据;根据所述原始数据获取增强数据数量;根据所述增强数据数量获取所述原始数据对应的增强策略,所述增强策略包括数据增强子策略和特征增强子策略;以所述原始数据为基础,按照所述增强策略进行增强以得到增量数据;对增量数据进行数据筛选以得到目标增量数据;组合所述目标增量数据和原始数据以得到启动数据,并以所述启动数据启动所述模型。本发明在原始数据处理和特征数据处理的流程中均进行数据增强处理,并对处理结果进行筛选,从而提升处理结果的准确度,解决冷启动问题,降低了模型投入使用前期的数据量需求和时间成本。
  • 模型训练方法、装置、电子设备及可读存储介质-201910271480.8
  • 赵呈路;李雪 - 拉扎斯网络科技(上海)有限公司
  • 2019-04-04 - 2019-07-05 - G06N20/20
  • 本公开实施例公开了一种模型训练方法、装置、电子设备及可读存储介质,所述方法包括获取第一训练数据和第二训练数据,基于所述第一训练数据训练多个基模型,确定各个基模型的模型参数,基于所述第二训练数据,通过贪心算法确定组合模型中使用的基模型和所使用的基模型的相应组合系数。该技术方案能够自动确定组合模型中使用的基模型和所使用的基模型的相应组合系数,可以提高模型训练过程中的调参效率,提高模型的准确率和客观性。
  • 基于主动学习的异常数据检测方法-201910182491.9
  • 赵晓永;王磊;李忱;闫阳 - 北京信息科技大学
  • 2019-03-12 - 2019-06-25 - G06N20/20
  • 本发明涉及一种基于主动学习的异常数据检测方法,根据各种基础学习器的对比分析,选择基于统计的和基于相似性的模型、基于轴平行子空间划分的无监督模型作为基学习器;将各基学习器评判的离群分数处于离群和正常边界的数据合并后呈现给人类专家进行标注;从标注的数据集和各基学习器投票产生的数据集中抽样训练有监督二元分类模型,将该模型应用于全数据集,得出最终的挖掘结果。本发明基于主动学习的异常数据检测方法,结合主动学习和模型集成,提出一种基于主动学习的离群点集成挖掘方法OMAL,结合多个无监督基学习器的学习结果与人类专家知识,训练出有监督的二元分类模型,在减少工作量、提升扩展性的同时,达到了较高地准确率。
  • 模型配置方法、装置、电子设备及可读取存储介质-201910105813.X
  • 曲晓峰 - 深圳绿米联创科技有限公司
  • 2019-02-01 - 2019-06-14 - G06N20/20
  • 本申请公开了一种模型配置方法、装置、电子设备及可读取存储介质,该方法包括:获取第一机器学习模型;获取一个或多个第二机器学习模型,每个所述第二机器学习模型根据其对应的设备和/或平台构建;将所述第一机器学习模型的能力迁移到每个所述第二机器学习模型上,获得训练后的一个或多个第二机器学习模型;根据训练后的每个所述第二机器学习模型对与其对应的所述设备和/或平台进行配置,以使所述设备和/或平台运行训练后的所述第二机器学习模型。本方法利用模型迁移技术,将海量数据和大型机器学习模型学习到的机器学习能力嵌入到多种不同的设备中,即可将多个大机器学习模型的性能迁移到小机器学习模型,解决生活中的实际问题。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top