[发明专利]虚拟资产不平衡交易数据的采样方法在审
| 申请号: | 201410329242.5 | 申请日: | 2014-07-11 |
| 公开(公告)号: | CN104091073A | 公开(公告)日: | 2014-10-08 |
| 发明(设计)人: | 李虎;贾焰;韩伟红;周斌;杨树强;李爱平;黄九鸣;李树栋;刘东;全拥;邓璐;姬炳帅 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
| 主分类号: | G06F19/00 | 分类号: | G06F19/00 |
| 代理公司: | 合肥市长远专利代理事务所(普通合伙) 34119 | 代理人: | 刘勇;杨静 |
| 地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开一种虚拟资产不平衡交易数据的采样方法,包括以下步骤:将虚拟资产交易中的异常交易数据定义为少数类,对少数类样本采用改进的SMOTE方法进行过采样,从而增加其样本数量;将虚拟资产交易中的正常交易数据定义为多数类,对多数类样本采用基于距离的DUS方法进行欠采样,以减少其样本数量;通过设置比例因子来调节过采样和欠采样采样数目的比例;将本发明的不平衡交易数据的采样方法应用到虚拟资产异常交易检测当中,可大大降低异常交易检测的计算量,同时能达到很高的准确率。 | ||
| 搜索关键词: | 虚拟 资产 不平衡 交易 数据 采样 方法 | ||
【主权项】:
一种虚拟资产不平衡交易数据的采样方法,其特征在于,包括以下步骤:将虚拟资产交易中的异常交易数据定义为少数类,对少数类样本采用改进的SMOTE方法进行过采样,从而增加其样本数量;将虚拟资产交易中的正常交易数据定义为多数类,对多数类样本采用基于距离的DUS方法进行欠采样,以减少其样本数量;通过设置比例因子来调节过采样和欠采样采样数目的比例;其中改进的SMOTE方法为:Step1:选取少数类中的一个样本xi(i=1,…,N),计算xi到样本集中其它样本的距离,得到k个最近邻样本点;Step2:根据采样倍数R/N,随机从k个最近邻样本点中选取R/N个样本,记为yj,j=1,…,R/N;Step3:在xi与yj之间构造新的少数类样本xi':xi'=xi+random(0,1)×(yj‑xi)×Weight[isMinority(yj)];其中,random(0,1)表示产生一个0‑1的随机数。Weight[]为二维权重向量,对近邻中的少数类和多数类样本赋予不同的权重。isMinority()用于判断yj是否是少数类;Step4:对少数类中的剩余样本重复以上步骤,直至所有少数类样本均处理完为止;Step5:将新产生的数据与原有数据进行合并,生成新的数据集;其中基于距离的DUS方法为:Step1:选取多数类中的一个样本zi(i=1,…,M,M为多数类的样本个数),计算zi到所有少数类样本的距离dij,j=1,…,N;N为少数类样本的个数;Step2:计算距离的平均值
Step3:如果Ai大于设定的与阈值,则删除,否则保留;Step4:对多数类中的剩余样本重复以上步骤,直至所有多数类样本均处理完为止;Step5:最后剩余的样本组成新的数据集;其中过采样和欠采用之间比例因子的设置方法为:Step1:对多数类中的所有样本zi(i=1,…,N,N为多数类样本的个数),计算zi到所有少数类样本的距离dij,j=1,…,M;M为少数类样本的个数;Step2:计算距离的平均值
对计算得到的平均值进行排序得到A'i;Step3:根据采样倍数R,将A'i中的前R个元素对应的样本删除,其余保留;Step4:最后剩余的样本组成新的数据集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410329242.5/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





