[发明专利]一种基于SVD的高斯混合模型参数初始化方法在审
申请号: | 202010131033.5 | 申请日: | 2020-02-28 |
公开(公告)号: | CN111340119A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 许艳萍;仇建;张君;叶挺聪;张灵均;陆澄澹;张桦;吴以凡;陈政 | 申请(专利权)人: | 杭州电子科技大学;浙江省电子信息产品检验研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 svd 混合 模型 参数 初始化 方法 | ||
本发明公开了一种基于SVD的高斯混合模型参数初始化方法,包括计算模型分量的初始值,每个模型分量的混合系数、均值和协方差。本发明所属技术领域为大数据分析和建模领域,在采用GMM建立概率聚类模型之后,采用SVD分解数据矩阵,实现对数据集合的初始分类,得到模型分量初始值;再针对分类子集计算混合系数、均值和协方差,作为GMM模型的各参数初始值。本发明提出的基于SVD初始化方法,不仅不依赖人为主观性和系统随机性,能够通过算法客观、自动地计算出参数的初始值,而且计算复杂度较低、消耗的时间和系统资源较少,还对不同应用场景的数据分析和建模具有较强的适应性。
技术领域
本发涉及到大数据分析和建模领域,尤其是涉及到一种高斯混合模型的参数初始化方法。
背景技术
在数据驱动的人工智能时代,大数据分析和建模技术占有重要地位。当汇聚的海量数据在没有标记或者标记代价太昂贵的情况下,无监督聚类算法为解决此类问题提供了可靠的解决方案。其中,高斯混合模型(Gaussian Mixture Models,GMM)利用组合高斯概率密度函数能够精准刻画数据高斯分布的特点,根据数据分属不同的模型分量,实现数据的聚类,以及异常模式数据的识别。GMM数学模型中包含多个参数,如模型分量数、模型混合系数、均值和协方差,在参数求解过程中,最常用的方法是最大期望(ExpectationMaximization,EM)算法和变分推断(Variational Inference,VI)方法。然而,这两种方法都对参数的初始值比较敏感,合理的参数初始值有利于模型快速收敛到最优值。在现有的EM和VI参数推理过程中,常用的初始值设置方式包括随机初始化法、固定值初始化法、聚类初始化法等。从数据集中随机选择一个或多个数据作为参数初始值的缺点是随机性较强,导致GMM聚类的结果不固定,且有可能达不到最优;将固定值作为参数初始值的缺点是主观性较强,导致GMM聚类的结果达不到最优;而将聚类算法的结果作为参数初始值,一方面聚类过程增加了参数求解的复杂度,另一方面,像Kmeans聚类算法需要输入一些参数初始值,仍然没有解决参数初始值根据数据特点自适应设置的问题。
因此,为了解决GMM参数初始值自适应设置问题,本发明提出了一种基于SVD的高斯混合模型参数初始化方法,利用SVD技术分解数据矩阵,对数据集进行初始聚类,确定GMM模型分量数的初始值,进而确定GMM模型混合系数、均值和协方差初始值,再基于EM和VI算法推理出GMM模型参数的最优值。
发明内容
本发明为了克服现有技术的不足,本发明提供了一种基于SVD的高斯混合模型参数初始化方法。
在数据驱动的人工智能时代,大规模数据的采集和分析成为一种有效的技术手段,而在网络安全领域,通过网络流量大数据的分析和建模,实现网络威胁的检测和预测,具有重要意义。在针对海量高维网络流量大数据建立高斯混合模型检测网络中的威胁时,提出一种基于SVD的高斯混合模型参数初始化方法。本发明采用的技术方案是:步骤一:针对海量高维网络流量数据集X,包含N个样本,数据维度为D,数据集合分为K个类别,包括正常流量种类和威胁流量种类;利用SVD技术分解数据矩阵X,X=USVT;
其中,U是N×N的正交矩阵,也称为左奇异矩阵;S是N×D的对角奇异值矩阵,其对角线上的元素为X的奇异值,并按照从大到小的降序排列;VT是D×D的正交矩阵,是V的转置,也称为右奇异矩阵;
步骤二:针对网络流量数据集X,采用GMM建立模型刻画数据特点,GMM的模型分量数与数据集X的流量类别数相等,因此,根据奇异值矩阵得到GMM的模型分量数初始值;
利用奇异值矩阵元素下降趋势、前N个元素之和代表奇异值矩阵大部分信息以及数据矩阵的维度,进而确定奇异值矩阵中保留的奇异值元素数目,将其作为原始数据矩阵的初始聚类数;由于每一个聚类数据由一个GMM分量描述,则初始聚类数与模型分量数相等,得到GMM模型分量数的初始值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学;浙江省电子信息产品检验研究院,未经杭州电子科技大学;浙江省电子信息产品检验研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010131033.5/2.html,转载请声明来源钻瓜专利网。