[发明专利]一种基于SVD的高斯混合模型参数初始化方法在审
申请号: | 202010131033.5 | 申请日: | 2020-02-28 |
公开(公告)号: | CN111340119A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 许艳萍;仇建;张君;叶挺聪;张灵均;陆澄澹;张桦;吴以凡;陈政 | 申请(专利权)人: | 杭州电子科技大学;浙江省电子信息产品检验研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 svd 混合 模型 参数 初始化 方法 | ||
1.一种基于SVD的高斯混合模型参数初始化方法,其特征在于,该方法具体包括以下步骤:
步骤一:针对海量高维网络流量数据集X,包含N个样本,数据维度为D,数据集合分为K个类别,包括正常流量种类和威胁流量种类;利用SVD技术分解数据矩阵X,X=USVT;
其中,U是N×N的正交矩阵,也称为左奇异矩阵;S是N×D的对角奇异值矩阵,其对角线上的元素为X的奇异值,并按照从大到小的降序排列;VT是D×D的正交矩阵,是V的转置,也称为右奇异矩阵;
步骤二:针对网络流量数据集X,采用GMM建立模型刻画数据特点,GMM的模型分量数与数据集X的流量类别数相等,因此,根据奇异值矩阵得到GMM的模型分量数初始值;
利用奇异值矩阵元素下降趋势、前N个元素之和代表奇异值矩阵大部分信息以及数据矩阵的维度,进而确定奇异值矩阵中保留的奇异值元素数目,将其作为原始数据矩阵的初始聚类数;由于每一个聚类数据由一个GMM分量描述,则初始聚类数与模型分量数相等,得到GMM模型分量数的初始值;
步骤三:根据左奇异矩阵得到网络流量数据集X的初始聚类子集,从而实现将网络流量数据集初步划分到多个类别聚类,同时,得到每个GMM模型分量的初始数据集合;
在确定奇异值矩阵中保留的奇异值元素数目之后,能够确定奇异值矩阵的规模,对应地确定左奇异矩阵的规模;在左奇异矩阵中,查找每一列数据中的最大值,并将最大值对应的列序号相同的原始数据聚为一类,实现将数据集的初始聚类;
步骤四:根据初始聚类子集,得到GMM的每个模型分量混合系数,用于表示GMM模型对每个网络流量数据聚类的刻画权重;
GMM模型分量混合系数表示初始聚类子集中的数据被聚类到相应模型分量的概率,因此将每个模型分量描述的初始聚类中子集的长度与原始数据集的长度比值,作为每个模型分量混合系数的初始值。
2.根据权利要求1所述的一种基于SVD的高斯混合模型参数初始化方法,其特征在于:所述的根据奇异值矩阵得到GMM的模型分量数初始值,根据左奇异矩阵得到原始流量数据集的初始聚类子集,即初始把流量数据集分为正常类别集合和威胁类别集合,具体为:
由于S中对角线元素si按照从大到小的降序排列,保留最大两个奇异值元素代替奇异值矩阵的全部信息,作为奇异值矩阵S的近似矩阵S';另外,S矩阵的维度也与元素的下降趋势有关;因此,定义保留的奇异值矩阵的元素数量K'为
其中,代表对数据向上取整;当保留的奇异值矩阵的元素数量确定,即能够确定奇异值近似矩阵S'的规模为K'×K',对应地,保留U的前K'列数据;然后,查找U中的前K'列数据中每一列的最大值,并将最大值对应的列序号相同的数据聚为一类,实现将数据集X的初始聚类,聚类数为K';由于每一类数据由一个GMM分量描述,则初始聚类数K'与模型分量数K相等,得到GMM模型分量数的初始值。
3.根据权利要求1所述的一种基于SVD的高斯混合模型参数初始化方法,其特征在于:
根据初始聚类子集,得到GMM的每个模型分量混合系数,具体为:
原始数据集被分成了K个初始聚类,每个聚类中包含的数据子集为{Xk},k=1,2,…,K,第k个子集的长度为len(Xk);
对GMM分量的混合系数πk初始化,πk表示数据被聚类到第k个模型分量的概率,每个分量的混合系数与初始聚类中子集的长度以及数据集总长度有关,因此,定义第k个混合系数初始值为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学;浙江省电子信息产品检验研究院,未经杭州电子科技大学;浙江省电子信息产品检验研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010131033.5/1.html,转载请声明来源钻瓜专利网。