[发明专利]基于t分布混合模型的网络多媒体业务半监督分类方法有效

申请号：	201710077295.6	申请日：	2017-02-14
公开（公告）号：	CN106878073B	公开（公告）日：	2019-10-08
发明（设计）人：	董育宁;赵家杰	申请（专利权）人：	南京邮电大学
主分类号：	H04L12/24	分类号：	H04L12/24;H04L12/26;G06K9/62
代理公司：	南京知识律师事务所 32207	代理人：	李湘群
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了基于t分布混合模型的网络多媒体业务半监督分类方法，具体包含数据集预处理、t分布聚类过程和分类过程。数据集预处理采集互联网上各种多媒体业务的数据流样本，然后进行预处理操作。t分布聚类过程对上述网络数据流样本执行t分布混合模型或有限t分布混合模型的拟合工作，得到K个多维t分布聚类。分类过程对上述聚类后的结果进一步进行分类，并计算最后分类的总体正确率。本发明使用t分布混合模型对多媒体业务进行更加精确的拟合，提高了分类的准确度。有限t分布混合模型的EM算法有效地提高了t分布混合模型的收敛速度。实验表明提出的算法有较高的准确率，并且拟合的模型要优于传统的K‑means算法和传统的高斯混合模型的EM算法。
搜索关键词：	基于分布混合模型网络多媒体业务监督分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于t分布混合模型的网络多媒体业务半监督分类方法，其特征在于包含以下步骤：(1)数据集预处理：采集互联网上各种多媒体业务的数据流样本，对数据流样本进行z‑score标准化操作，使数据无量纲化，然后进行特征提取，包括以下步骤：(1.1)根据数据流样本，分别采用信息增益、信息增益率、一致性特征选择方式进行特征选择，提取出相应的特征组合；(1.2)对这些特征组合分别进行后续的实验分析，确定算法对应的较好的特征选择方法，提取出有效的特征组合；(1.3)划分已标识样本和未标识样本，采用半监督分类，随机选取一定比例样本作为已标识样本，其余部分作为未标识样本来检测实验效果；(2)t分布聚类过程：对上述网络数据流样本执行t分布混合模型或有限t分布混合模型的拟合工作，得到K个多维t分布聚类，所述t分布聚类过程，具体包括：(2.1)为了实现聚类过程，首先需要对数据变量进行初始化，设数据样本为X＝{x₁,...,x_N}，聚类数为K，包括：(2.1.1)初始化K个聚类中心，记为μ₁,...,μ_K；(2.1.2)初始化混合模型参数π₁,...,π_K取值为1/K；(2.1.3)使用协方差公式，计算每个混合模型协方差Σ₁,...,Σ_K；(2.2)根据μ,Σ和π向量，执行EM算法的E步，具体步骤为：(2.2.1)根据已求的μ,Σ和π参数，使用贝叶斯公式计算t分布模型的后验概率；(2.2.2)如果采用有限t分布混合模型，则需要计算每个样本点到聚类中心的马氏距离，根据t分布的3σ准则确定离群噪声点；(2.3)根据EM算法的M步，更新μ,Σ和π，具体步骤为：(2.3.1)如果采用有限t分布混合模型，则需要在计算M步之前，忽略离群噪声点的影响，否则算法收敛速度较慢；(2.3.2)根据EM算法的M步公式，更新μ,Σ和π；(2.4)计算算法的似然函数L(x)，如果第k+1次迭代后计算的似然函数L(k+1)(x)与第k次迭代后的似然函数L(k)(x)的差值小于误差值eps，则算法迭代结束；否则返回步骤2.2；(3)分类过程：对上述聚类后的结果进一步进行分类，并计算最后分类的总体正确率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710077295.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L12-00 数据交换网络
H04L12-02 .零部件
H04L12-28 .以通路配置为特征的，例如LAN[局域网]或WAN[广域网]
H04L12-50 .电路交换系统，即系统在通信期间通路具有完全永久性
H04L12-54 .存储转发交换系统
H04L12-64 .混合交换系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于t分布混合模型的网络多媒体业务半监督分类方法有效

专利文献下载