[发明专利]基于t分布混合模型的网络多媒体业务半监督分类方法有效

专利信息
申请号: 201710077295.6 申请日: 2017-02-14
公开(公告)号: CN106878073B 公开(公告)日: 2019-10-08
发明(设计)人: 董育宁;赵家杰 申请(专利权)人: 南京邮电大学
主分类号: H04L12/24 分类号: H04L12/24;H04L12/26;G06K9/62
代理公司: 南京知识律师事务所 32207 代理人: 李湘群
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了基于t分布混合模型的网络多媒体业务半监督分类方法,具体包含数据集预处理、t分布聚类过程和分类过程。数据集预处理采集互联网上各种多媒体业务的数据流样本,然后进行预处理操作。t分布聚类过程对上述网络数据流样本执行t分布混合模型或有限t分布混合模型的拟合工作,得到K个多维t分布聚类。分类过程对上述聚类后的结果进一步进行分类,并计算最后分类的总体正确率。本发明使用t分布混合模型对多媒体业务进行更加精确的拟合,提高了分类的准确度。有限t分布混合模型的EM算法有效地提高了t分布混合模型的收敛速度。实验表明提出的算法有较高的准确率,并且拟合的模型要优于传统的K‑means算法和传统的高斯混合模型的EM算法。
搜索关键词: 基于 分布 混合 模型 网络 多媒体 业务 监督 分类 方法
【主权项】:
1.基于t分布混合模型的网络多媒体业务半监督分类方法,其特征在于包含以下步骤:(1)数据集预处理:采集互联网上各种多媒体业务的数据流样本,对数据流样本进行z‑score标准化操作,使数据无量纲化,然后进行特征提取,包括以下步骤:(1.1)根据数据流样本,分别采用信息增益、信息增益率、一致性特征选择方式进行特征选择,提取出相应的特征组合;(1.2)对这些特征组合分别进行后续的实验分析,确定算法对应的较好的特征选择方法,提取出有效的特征组合;(1.3)划分已标识样本和未标识样本,采用半监督分类,随机选取一定比例样本作为已标识样本,其余部分作为未标识样本来检测实验效果;(2)t分布聚类过程:对上述网络数据流样本执行t分布混合模型或有限t分布混合模型的拟合工作,得到K个多维t分布聚类,所述t分布聚类过程,具体包括:(2.1)为了实现聚类过程,首先需要对数据变量进行初始化,设数据样本为X={x1,...,xN},聚类数为K,包括:(2.1.1)初始化K个聚类中心,记为μ1,...,μK;(2.1.2)初始化混合模型参数π1,...,πK取值为1/K;(2.1.3)使用协方差公式,计算每个混合模型协方差Σ1,...,ΣK;(2.2)根据μ,Σ和π向量,执行EM算法的E步,具体步骤为:(2.2.1)根据已求的μ,Σ和π参数,使用贝叶斯公式计算t分布模型的后验概率;(2.2.2)如果采用有限t分布混合模型,则需要计算每个样本点到聚类中心的马氏距离,根据t分布的3σ准则确定离群噪声点;(2.3)根据EM算法的M步,更新μ,Σ和π,具体步骤为:(2.3.1)如果采用有限t分布混合模型,则需要在计算M步之前,忽略离群噪声点的影响,否则算法收敛速度较慢;(2.3.2)根据EM算法的M步公式,更新μ,Σ和π;(2.4)计算算法的似然函数L(x),如果第k+1次迭代后计算的似然函数L(k+1)(x)与第k次迭代后的似然函数L(k)(x)的差值小于误差值eps,则算法迭代结束;否则返回步骤2.2;(3)分类过程:对上述聚类后的结果进一步进行分类,并计算最后分类的总体正确率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710077295.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top