[发明专利]基于密度中心性的虚拟资产异常交易数据的采样-检测方法在审
申请号: | 201610319032.7 | 申请日: | 2016-05-13 |
公开(公告)号: | CN105912726A | 公开(公告)日: | 2016-08-31 |
发明(设计)人: | 李丽香;张浩;陈川;邱宝林;刘庆标;彭海朋 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明基于数据的密度中心性,提出了一种新的虚拟资产异常交易数据采样检测方法。其中采样方法包括以下两个步骤:将虚拟资产交易中的异常交易数据定义为少数类,依据改进的Density peaks Algorithm(密度峰值算法)对少数类样本进行中心选取,然后在数据中心的有效范围内进行数据添加,从而增加其样本数量;将虚拟资产交易中的正常交易数据定义为多数类,依据改进的Density peaks Algorithm对多数类样本进行中心选取,然后依据理想的样本容量以与中心点的距离为标准对数据进行采样,以减少其样本数量。本发明所给出的异常交易数据的采样检测方法可应用于各种虚拟资产异常交易采样检测当中,且具有计算速度快,检测准确率高的优点。 | ||
搜索关键词: | 基于 密度 心性 虚拟 资产 异常 交易 数据 采样 检测 方法 | ||
【主权项】:
基于密度中心性的虚拟资产异常交易数据的采样方法,包括以下步骤:将虚拟资产交易中的异常交易数据定义为少数类,依据改进的Density peaks Algorithm对少数类样本进行中心选取,然后在数据中心的有效范围内进行数据添加,从而增加其样本数量;将虚拟资产交易中的正常交易数据定义为多数类,依据改进的Density peaks Algorithm对多数类样本进行中心选取,然后依据理想的样本容量以与中心点的距离为标准对数据进行采样,以减少其样本数量;对少数类进行中心选取和数据填充为:Step1:选取少数类中的一个样本xi(i=1,…,N),计算xi到样本集中其它样本的欧式距离;Step2:运用改进的Density peaks Algorithm,将欧式距离由大到小排列,选取2%位置的距离作为阈值dc,由于DPC算法在数据集规模较大时,其聚类结果受阈值影响较小,反之则较大.为了避免阈值对样本局部密度乃至聚类结果的影响,DPC算法对数据集采用指数核计算样本密度,根据阈值dc计算样本点的局部密度
为了避免噪声点对聚类结果的影响,改进了DPC算法,定义了类簇的边界区域,一个类簇的边界区域由那些属于该类簇但与其他类簇样本的距离小于阈值dc的样本构成。以每一个类簇边界区域中密度最大样本的密度为阈值pi,定义该类簇中密度大于pi的样本为本类簇的核,该类簇的其他样本为噪声点,直接将这些噪声点排除在外。然后计算样本点xi与该类密度高的类的最短距离δi,
Step3:对少数类中的剩余样本重复以上步骤,直至计算出少数类所有样本点的Pi和δi为止;Step4:对于密度最高的点,我们一般用δi=maxj(dij)来表示其密度,δi远大于最近邻的局部密度或者全局密度最大值。因此δi非常大的点被认为是簇中心。Step5:以簇中心为基准,dc为有效范围,在簇中心周围进行数据填充,直到达到理想的样本容量。Step6:将新填充的数据与原有数据进行合并,生成新的数据集。对多数类进行中心选取和数据采样:Step1:选取多数类中的一个样本xi(i=1,…,N),计算xi到样本集中其它样本的欧式距离;Step2:运用改进的Density peaks Algorithm,将欧式距离由大到小排列,选取2%位置的距离作为阈值dc,由于DPC算法在数据集规模较大时,其聚类结果受阈值影响较小,反之则较大.为了避免阈值对样本局部密度乃至聚类结果的影响,DPC算法对数据集采用指数核计算样本密度,根据阈值dc计算样本点的局部密度
为了避免噪声点对聚类结果的影响,改进了DPC算法,定义了类簇的边界区域,一个类簇的边界区域由那些属于该类簇但与其他类簇样本的距离小于阈值dc的样本构成。以每一个类簇边界区域中密度最大样本的密度为阈值pi,定义该类簇中密度大于pi的样本为本类簇的核,该类簇的其他样本为噪声点,直接将这些噪声点排除在外。然后计算样本点xi与该类密度高的类的最短距离δi,
Step3:对多数类中的剩余样本重复以上步骤,直至计算出多数类所有样本点的Pi和δi为止;Step4:对于密度最高的点,我们一般用δi=maxj(dij)来表示其密度,δi远大于最近邻的局部密度或者全局密度最大值。因此δi非常大的点被认为是簇中心。Step5:以簇中心为基准,采集离簇中心距离最近的样本点,直至直到达到理想的样本容量为止。Step6:将采集到的样本点作为新的数据集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610319032.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种能进行持续散热的CPU散热器
- 下一篇:一种录播服务器专用机箱