[发明专利]一种基于云计算的大数据文本分类方法有效
| 申请号: | 201510096820.X | 申请日: | 2015-03-05 |
| 公开(公告)号: | CN104699772B | 公开(公告)日: | 2018-03-23 |
| 发明(设计)人: | 孟海东;肖银龙;宋宇辰;任敬佩 | 申请(专利权)人: | 内蒙古科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 014010 内蒙*** | 国省代码: | 内蒙古;15 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于云计算的大数据文本分类方法,包括如下步骤对有类标和无类标的训练文本分别进行预处理,得到对应的训练数据集;对训练数据集分别进行特征选择,得到对应的降维后的训练数据集;对降维后的训练数据集分别按照TFIDF加权模型计算,从而将训练数据集分别转化为对应的一维向量;将有类标的一维向量按照贝叶斯算法计算,得到每个类别的先验概率和每个词条属于每个类别的先验概率,初始化贝叶斯分类器参数;利用EM算法优化贝叶斯分类器的参数,得到分类模型;利用分类模型对待分类的文本进行文本分类。本发明通过将传统的朴素贝叶斯分类技术与Hadoop以及EM算法结合,使得实际应用中计算速度限制和训练数据限制的问题得以改善,提高了分类器的效率和准确性。 | ||
| 搜索关键词: | 一种 基于 计算 数据 文本 分类 方法 | ||
【主权项】:
一种基于云计算的大数据文本分类方法,其特征在于,包括如下步骤:S1、对有类标和无类标的训练文本分别进行预处理,得到对应的训练数据集;S2、对步骤S1所得的训练数据集分别进行特征选择,得到对应的降维后的训练数据集;S3、对步骤S2所得的降维后的训练数据集分别按照TFIDF加权模型计算,从而将训练数据集分别转化为对应的一维向量;S4、将有类标的一维向量按照贝叶斯算法计算,得到每个类别的先验概率和每个词条属于每个类别的先验概率;S5、利用得到的先验概率,按照贝叶斯算法计算出无类标的一维向量中每个词条可能属于的类别,并将结果加入到之前有类标的一维向量中;S6、将新的一维向量,采用最大似然估计法,得到每个类别的先验概率和每个词条属于每个类别的先验概率;S7、利用得到的先验概率,按照贝叶斯算法计算,更新一维向量中每个词条可能属于的类别;S8、重复步骤S6、S7,直到一维向量中每个类别的先验概率和每个词条属于每个类别的先验概率收敛,得到分类模型;S9、利用分类模型对待分类的文本进行文本分类;所述的步骤S2具体包括以下步骤:采用基于χ2特征选择法来构造评估函数,将倒排索引文件分块存储在多个节点上,Mappers并行读取文件块、计算特征值,利用MapReduce计算框架的排序过程完成对特征值的排序,最后在Reducer中取指定个数的特征词完成特征词选择,得到特征词库;所述的步骤S3利用Hadoop平台的MapReduce计算模型分布式并行计算特征词的TFIDF权重,利用倒排索引文件计算TFIDF权重后生成文本向量文件;所述χ2特征选择法计算公式如下:χ2(t,c)=(AD-BC)2(A+C)(A+B)(B+D)(C+D)]]>式中,t表示待统计的词,c表示相关联的类别,A表示包含词t且属于类c的文档数,B表示包含词t但不属于类c的文档数,C表示不包含词t但却属于类c的文档数,D表示不包含词t也不属于类c的文档数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古科技大学,未经内蒙古科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510096820.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于视频的审判员打电话行为识别方法
- 下一篇:一种轴承锈蚀智能诊断方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





