[发明专利]一种基于目标分布的样本集优化算法在审

专利信息
申请号: 201810306726.6 申请日: 2018-04-08
公开(公告)号: CN108573040A 公开(公告)日: 2018-09-25
发明(设计)人: 於志文;范人杰;康健;王柱;郭斌 申请(专利权)人: 西北工业大学
主分类号: G06F17/30 分类号: G06F17/30;G06Q50/00
代理公司: 西北工业大学专利中心 61204 代理人: 刘新琼
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于目标分布的样本集优化算法,分析原始数据集的数据特征,按一定的粒度,将连续特征分段,计算各个特征区间内数据集的分布情况,构造随机采样的特征状态转移矩阵;同时以物理空间的数据集特征分布作为目标分布,将其按对应的分段方式离散化后,结合数据集的状态转移矩阵,计算构造采样的接收矩阵;以待优化数据集作为采样空间,在其上通过重采样来调整样本权重,并依据接受矩阵确定样本的权重升降;从而可以控制特征变量的分布,最终得到一个符合目标分布的样本数据集。综合地考虑原始数据集中数据的多样性以及分布的偏差性,通过产生合适的接收矩阵来选取合适的样本,从而获得更好的样本数据集,可更好地支撑相关的应用研究。
搜索关键词: 数据集 样本 矩阵 样本数据 优化算法 样本集 权重 分析原始数据 状态转移矩阵 采样空间 分段方式 矩阵确定 控制特征 连续特征 数据特征 随机采样 特征分布 特征区间 特征状态 物理空间 应用研究 优化数据 原始数据 转移矩阵 离散化 偏差性 重采样 采样 分段 升降 多样性 支撑
【主权项】:
1.一种基于目标分布的样本集优化算法,其特征在于步骤如下:步骤1:根据给定的粒度,将原始数据集的特征与目标特征分布分段,并根据公式计算离散后的特征分布;式中,[sin,si(n+1)]表示分段得到的任意一个特征区间,uj表示一个样本特征对应的值;从而得到向量形式的原始数据集特征分布与目标分布,分别记为{f1,f2…fk}和{t1,t2…tk},其中k表示区间总个数;步骤2:生成原始数据集中随机采样的样本特征转移矩阵Qk×k:步骤3:计算与上述转移矩阵大小相同的转移接收矩阵Ak×k;矩阵中任意一项aij满足式中qij表示步骤2中转移矩阵Qk×k中的对应项;步骤4:从原始数据集中随机抽取一组样本其中n小于所需样本总数N的十分之一;将其作为采样初始阶段的样本特征状态,并将其加入新样本集s;此时计采样轮次r=0;步骤5:随机抽取n个样本,构成第r轮采样的结果将其与上一轮到的结果进行比较对于下标相同的每个样本,如果则无条件接受新一轮的样本;如果依据[0,1]的均匀分布随机产生一个值表示实际接受概率p,若即接受本次采样,否则放弃该样本,保持上一轮的样本不变,即步骤6:将调整后的本轮采样结果保存至新样本集s,同时使轮次计数值r自加一;步骤7:重复步骤5~6,直到新样本集s中的样本数目大于等于N,即|s|≥N;步骤8:汇总所有轮次的采样结果,若|s|>N,则从s中随机抛弃N‑|s|个样本;此时,s中各个样本出现的频次即为它们在原有数据集中的权重。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810306726.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top