[发明专利]一种基于Hadoop平台的改进并行KNN网络舆情分类算法在审
申请号: | 201711190525.6 | 申请日: | 2017-11-24 |
公开(公告)号: | CN107943947A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 杜少波;何文华;杨露;李静;陈显祥 | 申请(专利权)人: | 贵州商学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 贵阳中工知识产权代理事务所52106 | 代理人: | 邹迅 |
地址: | 550014 贵州省*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Hadoop平台的改进并行KNN网络舆情分类算法,利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题,对并行kNN算法进行分类能力和分类效率进行测试验证,实验结果表明,基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时,能够快速、高效和准确对网络舆情数据进行分类。 | ||
搜索关键词: | 一种 基于 hadoop 平台 改进 并行 knn 网络 舆情 分类 算法 | ||
【主权项】:
一种基于Hadoop平台的改进并行KNN网络舆情分类算法,其特征在于,包括如下步骤:S1:将测试集和调练集数据上传至HDFS集群中;S2:HDFS集群通过MAP函数输出以<key,value>键值形式存在的结果;S3:将步骤S2中输出的结果输入至shuffle函数中重新筛选,再上传至Reduce函数中;S4:Reduce函数读取MAP函数输出结果,并计算确定测试向量所属类别即输出测试数据的分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州商学院,未经贵州商学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711190525.6/,转载请声明来源钻瓜专利网。