[发明专利]基于t分布混合模型的网络多媒体业务半监督分类方法有效
申请号: | 201710077295.6 | 申请日: | 2017-02-14 |
公开(公告)号: | CN106878073B | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 董育宁;赵家杰 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;G06K9/62 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 李湘群 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于t分布混合模型的网络多媒体业务半监督分类方法,具体包含数据集预处理、t分布聚类过程和分类过程。数据集预处理采集互联网上各种多媒体业务的数据流样本,然后进行预处理操作。t分布聚类过程对上述网络数据流样本执行t分布混合模型或有限t分布混合模型的拟合工作,得到K个多维t分布聚类。分类过程对上述聚类后的结果进一步进行分类,并计算最后分类的总体正确率。本发明使用t分布混合模型对多媒体业务进行更加精确的拟合,提高了分类的准确度。有限t分布混合模型的EM算法有效地提高了t分布混合模型的收敛速度。实验表明提出的算法有较高的准确率,并且拟合的模型要优于传统的K‑means算法和传统的高斯混合模型的EM算法。 | ||
搜索关键词: | 基于 分布 混合 模型 网络 多媒体 业务 监督 分类 方法 | ||
【主权项】:
1.基于t分布混合模型的网络多媒体业务半监督分类方法,其特征在于包含以下步骤:(1)数据集预处理:采集互联网上各种多媒体业务的数据流样本,对数据流样本进行z‑score标准化操作,使数据无量纲化,然后进行特征提取,包括以下步骤:(1.1)根据数据流样本,分别采用信息增益、信息增益率、一致性特征选择方式进行特征选择,提取出相应的特征组合;(1.2)对这些特征组合分别进行后续的实验分析,确定算法对应的较好的特征选择方法,提取出有效的特征组合;(1.3)划分已标识样本和未标识样本,采用半监督分类,随机选取一定比例样本作为已标识样本,其余部分作为未标识样本来检测实验效果;(2)t分布聚类过程:对上述网络数据流样本执行t分布混合模型或有限t分布混合模型的拟合工作,得到K个多维t分布聚类,所述t分布聚类过程,具体包括:(2.1)为了实现聚类过程,首先需要对数据变量进行初始化,设数据样本为X={x1,...,xN},聚类数为K,包括:(2.1.1)初始化K个聚类中心,记为μ1,...,μK;(2.1.2)初始化混合模型参数π1,...,πK取值为1/K;(2.1.3)使用协方差公式,计算每个混合模型协方差Σ1,...,ΣK;(2.2)根据μ,Σ和π向量,执行EM算法的E步,具体步骤为:(2.2.1)根据已求的μ,Σ和π参数,使用贝叶斯公式计算t分布模型的后验概率;(2.2.2)如果采用有限t分布混合模型,则需要计算每个样本点到聚类中心的马氏距离,根据t分布的3σ准则确定离群噪声点;(2.3)根据EM算法的M步,更新μ,Σ和π,具体步骤为:(2.3.1)如果采用有限t分布混合模型,则需要在计算M步之前,忽略离群噪声点的影响,否则算法收敛速度较慢;(2.3.2)根据EM算法的M步公式,更新μ,Σ和π;(2.4)计算算法的似然函数L(x),如果第k+1次迭代后计算的似然函数L(k+1)(x)与第k次迭代后的似然函数L(k)(x)的差值小于误差值eps,则算法迭代结束;否则返回步骤2.2;(3)分类过程:对上述聚类后的结果进一步进行分类,并计算最后分类的总体正确率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710077295.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种报文传输方法和装置
- 下一篇:流量过滤方法及装置