[发明专利]基于t分布混合模型的网络多媒体业务半监督分类方法有效
申请号: | 201710077295.6 | 申请日: | 2017-02-14 |
公开(公告)号: | CN106878073B | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 董育宁;赵家杰 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;G06K9/62 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 李湘群 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布 混合 模型 网络 多媒体 业务 监督 分类 方法 | ||
1.基于t分布混合模型的网络多媒体业务半监督分类方法,其特征在于包含以下步骤:
(1)数据集预处理:采集互联网上各种多媒体业务的数据流样本,对数据流样本进行z-score标准化操作,使数据无量纲化,然后进行特征提取,包括以下步骤:
(1.1)根据数据流样本,分别采用信息增益、信息增益率、一致性特征选择方式进行特征选择,提取出相应的特征组合;
(1.2)对这些特征组合分别进行后续的实验分析,确定算法对应的较好的特征选择方法,提取出有效的特征组合;
(1.3)划分已标识样本和未标识样本,采用半监督分类,随机选取一定比例样本作为已标识样本,其余部分作为未标识样本来检测实验效果;
(2)t分布聚类过程:对上述网络数据流样本执行t分布混合模型或有限t分布混合模型的拟合工作,得到K个多维t分布聚类,所述t分布聚类过程,具体包括:
(2.1)为了实现聚类过程,首先需要对数据变量进行初始化,设数据样本为X={x1,...,xN},聚类数为K,包括:
(2.1.1)初始化K个聚类中心,记为μ1,...,μK;
(2.1.2)初始化混合模型参数π1,...,πK取值为1/K;
(2.1.3)使用协方差公式,计算每个混合模型协方差Σ1,...,ΣK;
(2.2)根据μ,Σ和π向量,执行EM算法的E步,具体步骤为:
(2.2.1)根据已求的μ,Σ和π参数,使用贝叶斯公式计算t分布模型的后验概率;
(2.2.2)如果采用有限t分布混合模型,则需要计算每个样本点到聚类中心的马氏距离,根据t分布的3σ准则确定离群噪声点;
(2.3)根据EM算法的M步,更新μ,Σ和π,具体步骤为:
(2.3.1)如果采用有限t分布混合模型,则需要在计算M步之前,忽略离群噪声点的影响,否则算法收敛速度较慢;
(2.3.2)根据EM算法的M步公式,更新μ,Σ和π;
(2.4)计算算法的似然函数L(x),如果第k+1次迭代后计算的似然函数L(k+1)(x)与第k次迭代后的似然函数L(k)(x)的差值小于误差值eps,则算法迭代结束;否则返回步骤2.2;
(3)分类过程:对上述聚类后的结果进一步进行分类,并计算最后分类的总体正确率。
2.根据权利要求1所述的基于t分布混合模型的网络多媒体业务半监督分类方法,其特征在于所述一定比例为10%。
3.根据权利要求1所述的基于t分布混合模型的网络多媒体业务半监督分类方法,其特征在于所述t分布混合模型进行拟合包括:
(3.1)初始化聚类中心μ、协方差Σ和混合模型权重π;
(3.2)执行t分布混合模型的EM算法,更新参数;
(3.3)计算EM算法的似然函数,如果第k+1次迭代的似然函数与第k次似然函数之间的差值小于误差值,则算法迭代结束;否则返回步骤3.2。
4.根据权利要求1所述的基于t分布混合模型的网络多媒体业务半监督分类方法,其特征在于所述有限t分布混合模型进行拟合包括:
(4.1)计算E步,根据已求的μ,Σ和π参数,使用贝叶斯公式计算后验概率;
(4.2)计算样本点到聚类中心的马氏距离,根据t分布的3σ准则确定离群噪声点;
(4.3)忽略离群噪声点的影响,计算M步,更新μ,Σ和π参数。
5.根据权利要求1所述的基于t分布混合模型的网络多媒体业务半监督分类方法,其特征在于所述分类过程具体分为以下三类:
(5.1)聚类后的簇中没有已标识的样本,则这个聚类可视为未知聚类,不在考虑范围内;
(5.2)聚类后的簇中已标识的样本的类型仅有一种,则该聚类的所有样本都划分为该类型;
(5.3)聚类后的簇中如果含多种已标识的样本类型,则需要进行进一步的多分类过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710077295.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种报文传输方法和装置
- 下一篇:流量过滤方法及装置