[发明专利]一种基于目标分布的样本集优化算法在审

专利信息
申请号: 201810306726.6 申请日: 2018-04-08
公开(公告)号: CN108573040A 公开(公告)日: 2018-09-25
发明(设计)人: 於志文;范人杰;康健;王柱;郭斌 申请(专利权)人: 西北工业大学
主分类号: G06F17/30 分类号: G06F17/30;G06Q50/00
代理公司: 西北工业大学专利中心 61204 代理人: 刘新琼
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据集 样本 矩阵 样本数据 优化算法 样本集 权重 分析原始数据 状态转移矩阵 采样空间 分段方式 矩阵确定 控制特征 连续特征 数据特征 随机采样 特征分布 特征区间 特征状态 物理空间 应用研究 优化数据 原始数据 转移矩阵 离散化 偏差性 重采样 采样 分段 升降 多样性 支撑
【说明书】:

本发明涉及一种基于目标分布的样本集优化算法,分析原始数据集的数据特征,按一定的粒度,将连续特征分段,计算各个特征区间内数据集的分布情况,构造随机采样的特征状态转移矩阵;同时以物理空间的数据集特征分布作为目标分布,将其按对应的分段方式离散化后,结合数据集的状态转移矩阵,计算构造采样的接收矩阵;以待优化数据集作为采样空间,在其上通过重采样来调整样本权重,并依据接受矩阵确定样本的权重升降;从而可以控制特征变量的分布,最终得到一个符合目标分布的样本数据集。综合地考虑原始数据集中数据的多样性以及分布的偏差性,通过产生合适的接收矩阵来选取合适的样本,从而获得更好的样本数据集,可更好地支撑相关的应用研究。

技术领域

本发明属于信息加工技术领域,涉及一种处理不平衡数据集的优化方法,具体地说,基于已有数据集的特征分布与给定目标分布,调整数据集中特征偏高或偏低的样本。

背景技术

近年来,社交网络的兴起给研究者们提供了大量的开源和多样的数据用以开展具有各种针对性的研究工作。社交媒体研究是基于上千万个独立个体,然而对于大型社交媒体,传统的数据抽样方法往往具有各种各样的弊端。其中最为突出的,是样本集数据代表性存疑,使得这些结论往往具有一定的局限性。已有的工作往往关注如何在采样过程中施加约束并控制样本集达到预先给定的目标。然而现实研究中,很多时候研究者们得到的只是由运营商提供的一部分被允许公开的数据,或者是可以利用的数据仅有这一点。这意味着他们往往无法直接在采样过程中进行干预。因此这时研究者们需要一种方法,可以让他们从已有的结果样本集中挖掘出符合目标分布的数据集以修正数据偏差用于研究。

专利CN106599935A提出了一种解决大规模不平衡数据集在机器学习和模式识别领域中的分类问题的方法。采用Spark的RDD进行数据变化,根据邻域三支决策模型将整个训练集中的样本划分成正域,边界域和负域样本;然后分别对边界域样本,负域样本进行过采样;但完全依赖过采样的方法在小类样本数量相对较少时浮动性很大,容易由于样本个体的极值严重影响数据集整体表现。专利CN107133639A公开了一种将模型认知数据和加权特征空间数据分布相结从而优化非平衡数据的方法。该专利采用Boost模型学习当前数据,取得模型评分与特征权重,将数据集划分为pure数据集合、danger数据集合和noise数据集合,然后递归地获取数据近邻。该方法实现了生成小类样本同时去除大类样本,有一定的借鉴意义。但是该方法中各类数据目标占比定义由人为设定,无法有效地结合物理空间的分布信息进行样本集优化,同时,采样中使用近邻算法来选取样本不可避免地也会导致采样效率受损。

发明内容

要解决的技术问题

为了解决一些情况下,给定的数据集特征分布无法满足研究者要求的问题,本发明提出了一种基于蒙特卡洛-马尔科夫链的模型来优化样本集中各个样本的对结果集贡献度的算法,可以更加综合地考虑原始数据集中数据的多样性以及分布的偏差性,从而获得更好的样本数据集,可更好地支撑相关的应用研究。

技术方案

一种基于目标分布的样本集优化算法,其特征在于步骤如下:

步骤1:根据给定的粒度,将原始数据集的特征与目标特征分布分段,并根据公式计算离散后的特征分布;式中,[sin,si(n+1)]表示分段得到的任意一个特征区间,uj表示一个样本特征对应的值;从而得到向量形式的原始数据集特征分布与目标分布,分别记为{f1,f2…fk}和{t1,t2…tk},其中k表示区间总个数;

步骤2:生成原始数据集中随机采样的样本特征转移矩阵Qk×k

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810306726.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top