[发明专利]一种基于hadoop数据挖掘的文档分类方法在审
申请号: | 201810015666.2 | 申请日: | 2018-01-08 |
公开(公告)号: | CN108268620A | 公开(公告)日: | 2018-07-10 |
发明(设计)人: | 王海勇;窦敏 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 李吉宽 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于hadoop数据挖掘的文档分类方法,包括:A、对数据文档进行预处理,确定关键词以及每个关键词与其所属文档的对应关系;B、采用属性特征转换的方法描述文档中数据的属性特征;C、采用匹配规则从关键词集合生成其关键词向量,根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量;D、根据步骤C中的关键词向量和概念向量计算待分类数据文档中任意两个文本文档之间的相似性;E、针对属性向量执行基于聚类处理的分类操作,获得所述属性向量的分类结果,分类结果指示每个属性向量所对应的目标对象的分类;F、Hadoop自动收集上述分类结果,对待分类数据文档进行分类。本发明具有易于实现、分类准确度高的显著优点。 | ||
搜索关键词: | 文档 关键词向量 分类结果 属性向量 概念向量 属性特征 数据挖掘 文档分类 分类 预处理 待分类数据 分类准确度 关键词集合 方法描述 分类数据 聚类处理 目标对象 匹配规则 数据属性 数据文档 特征集合 文本文档 自动收集 转换 | ||
【主权项】:
1.一种基于hadoop数据挖掘的文档分类方法,其特征在于:包括以下步骤:A、对数据文档进行预处理,并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系;B、采用属性特征转换的方法描述文档中数据的属性特征;C、采用一定的匹配规则从步骤A中数据文档的关键词集合生成其关键词向量,根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量;D、根据步骤C中的关键词向量和概念向量,计算待分类数据文档中任意两个文本文档之间的相似性,并将该文档稳定的至少一个属性数据的值标识为属性向量;E、针对步骤D中属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,分类结果指示每个属性向量所对应的目标对象的分类;F、利用Hadoop自动收集步骤F中属性向量的分类结果,对待分类数据文档进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810015666.2/,转载请声明来源钻瓜专利网。
- 上一篇:内容推荐方法及装置
- 下一篇:基于大数据的数据分析、挖掘、渲染及可视化方法