[发明专利]虚拟资产不平衡交易数据的采样方法在审
| 申请号: | 201410329242.5 | 申请日: | 2014-07-11 |
| 公开(公告)号: | CN104091073A | 公开(公告)日: | 2014-10-08 |
| 发明(设计)人: | 李虎;贾焰;韩伟红;周斌;杨树强;李爱平;黄九鸣;李树栋;刘东;全拥;邓璐;姬炳帅 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
| 主分类号: | G06F19/00 | 分类号: | G06F19/00 |
| 代理公司: | 合肥市长远专利代理事务所(普通合伙) 34119 | 代理人: | 刘勇;杨静 |
| 地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 虚拟 资产 不平衡 交易 数据 采样 方法 | ||
技术领域
本技术属于网络与信息安全领域,涉及一种虚拟资产不平衡交易数据的采样方法。
背景技术
互联网的迅猛发展催生了电子商务的繁荣,其中虚拟资产交易的增长尤为迅速。
目前,我国已经开展了基于eID的网域空间虚拟资产管理与保全技术研究,实现对虚拟资产的规范统一管理。虚拟资产保全系统全面准确的记录了对虚拟资产的各种操作,但如何从这些记录数据中间挖掘出异常的交易行为仍然面临诸多挑战。针对网络虚拟资产交易信息规模巨大,增长速度非常快的特点,自动地从海量的虚拟资产交易信息中发现以及预测异常行为,从而对已经发生以及可能发生的犯罪行为进行有效的检测显得极为迫切。
由于异常检测的目的是要根据已知的异常数据训练并建立一个异常检测模型,利用这个模型检测已知类型或未知类型的异常,所以从本质上将,异常检测是一种典型的数据分类问题。异常检测模型狭义上讲就是其数据分类模型,实际上当前异常检测的研究焦点也就是在于如何构建准确高效的分类模型。因此,可以将针对虚拟资产异常交易行为的检测归纳为不平衡数据环境下的异常行为挖掘问题。即认为在虚拟资产交易过程中,大部分交易都是正常进行的,异常交易只占到很小一部分。在正常交易和异常交易数目不平衡的环境下,如何实现异常行为的挖掘是发明所要着重解决的问题。
柴洪峰等人[1]提出了一种基于数据挖掘的异常交易检测方法,当一个用户提交一笔新的消费交易时,采用贝叶斯信念网络算法判断当前交易属于正常交易的后验概率,作为在业务层面的可信因子;然后提取该用户在当前交易之前的若干个操作,与当前交易一起构成一个固定长度的操作序列,并通过BLAST-SSAHA算法将其与该用户正常操作序列和已知异常操作序列进行比对,得出在操作层面的可信因子。综合考虑业务层面的可信因子和操作层面的可信因子,最终决定当前交易是否为异常交易。
刘卓军等人[2]提出一种新的基于非线性马尔科夫随机过程、相空间重构和隐马尔科夫链的非线性随机方法,用于对金融交易时序进行建模拟合,然后应用鲁棒控制图对估计误差进行检验以发现异常。
前述第一种异常交易检测方法在每次检测的时候都需要计算当前交易属于正常交易的后验概率,计算量较大。第二种方法需要对交易时序数据进行拟合,同样计算量很大。
[1]柴洪峰,李锐,王兴建,等.基于数据挖掘的异常交易检测方法[J].计算机应用与软件,2013,30(1):165-170.
[2]刘卓军,李晓明.基于时间序列建模和控制图的异常交易检测方法[J].数学的实践与认识,2013,43(10):89-96.
发明内容
针对现有技术的缺陷,本发明将不平衡数据分类技术应用到了虚拟资产异常交易检测当中,大大降低了异常交易检测的计算量,同时能达到很高的准确率。
本发明的技术方案主要包括:虚拟资产存储架构的描述、不平衡交易数据的采样和分类器的构建。
其中不平衡交易数据的采样方法如下:
一般情况下,大部分虚拟资产的交易数据都是正常的,异常交易数据只占很少一部分。因此,可将正常交易数据看作是多数类,即包含更多实例数据的类。将异常交易数据看作是少数类,即含有较少实例数据的类。本发明对少数类样本采用改进的SMOTE方法(ISMOTE)进行过采样,从而增加其样本数量,同时对多数类样本采用DUS(Distance-based Under Sampling)方法对多数类样本进行欠采样,以减少其样本数量。过采用和欠采用并非独立,因此,通过设置比例因子来调节两者采样数目的比例,从而保持数据集规模不变,不会增加计算量。
1、改进的SMOTE方法(ISMOTE)
SMOTE[1]首先为每个少数类样本随机选出几个邻近样本,并且在该样本与这些邻近样本的连线上随机生成无重复的新样本。本方法增加了权重向量的概念,对邻近样本中的少数类样本赋予较高的权重,对多数类样本赋予较低权重。具体算法如下:
Step1:选取少数类中的一个样本xi(i=1,…,N),计算xi到样本集中其它样本的距离,得到k个最近邻样本点;
Step2:根据采样倍数R/N,随机从k个最近邻样本点中选取R/N个样本,记为yj,j=1,…,R/N;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410329242.5/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





