[发明专利]一种基于云计算的大数据文本分类方法有效

专利信息
申请号: 201510096820.X 申请日: 2015-03-05
公开(公告)号: CN104699772B 公开(公告)日: 2018-03-23
发明(设计)人: 孟海东;肖银龙;宋宇辰;任敬佩 申请(专利权)人: 内蒙古科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 014010 内蒙*** 国省代码: 内蒙古;15
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于云计算的大数据文本分类方法,包括如下步骤对有类标和无类标的训练文本分别进行预处理,得到对应的训练数据集;对训练数据集分别进行特征选择,得到对应的降维后的训练数据集;对降维后的训练数据集分别按照TFIDF加权模型计算,从而将训练数据集分别转化为对应的一维向量;将有类标的一维向量按照贝叶斯算法计算,得到每个类别的先验概率和每个词条属于每个类别的先验概率,初始化贝叶斯分类器参数;利用EM算法优化贝叶斯分类器的参数,得到分类模型;利用分类模型对待分类的文本进行文本分类。本发明通过将传统的朴素贝叶斯分类技术与Hadoop以及EM算法结合,使得实际应用中计算速度限制和训练数据限制的问题得以改善,提高了分类器的效率和准确性。
搜索关键词: 一种 基于 计算 数据 文本 分类 方法
【主权项】:
一种基于云计算的大数据文本分类方法,其特征在于,包括如下步骤:S1、对有类标和无类标的训练文本分别进行预处理,得到对应的训练数据集;S2、对步骤S1所得的训练数据集分别进行特征选择,得到对应的降维后的训练数据集;S3、对步骤S2所得的降维后的训练数据集分别按照TFIDF加权模型计算,从而将训练数据集分别转化为对应的一维向量;S4、将有类标的一维向量按照贝叶斯算法计算,得到每个类别的先验概率和每个词条属于每个类别的先验概率;S5、利用得到的先验概率,按照贝叶斯算法计算出无类标的一维向量中每个词条可能属于的类别,并将结果加入到之前有类标的一维向量中;S6、将新的一维向量,采用最大似然估计法,得到每个类别的先验概率和每个词条属于每个类别的先验概率;S7、利用得到的先验概率,按照贝叶斯算法计算,更新一维向量中每个词条可能属于的类别;S8、重复步骤S6、S7,直到一维向量中每个类别的先验概率和每个词条属于每个类别的先验概率收敛,得到分类模型;S9、利用分类模型对待分类的文本进行文本分类;所述的步骤S2具体包括以下步骤:采用基于χ2特征选择法来构造评估函数,将倒排索引文件分块存储在多个节点上,Mappers并行读取文件块、计算特征值,利用MapReduce计算框架的排序过程完成对特征值的排序,最后在Reducer中取指定个数的特征词完成特征词选择,得到特征词库;所述的步骤S3利用Hadoop平台的MapReduce计算模型分布式并行计算特征词的TFIDF权重,利用倒排索引文件计算TFIDF权重后生成文本向量文件;所述χ2特征选择法计算公式如下:χ2(t,c)=(AD-BC)2(A+C)(A+B)(B+D)(C+D)]]>式中,t表示待统计的词,c表示相关联的类别,A表示包含词t且属于类c的文档数,B表示包含词t但不属于类c的文档数,C表示不包含词t但却属于类c的文档数,D表示不包含词t也不属于类c的文档数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古科技大学,未经内蒙古科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510096820.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top