[发明专利]文档聚类方法及装置、网络设备有效
| 申请号: | 201410160939.4 | 申请日: | 2014-04-21 |
| 公开(公告)号: | CN105095209B | 公开(公告)日: | 2019-05-10 |
| 发明(设计)人: | 万振;张凯达 | 申请(专利权)人: | 珠海豹好玩科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35 |
| 代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;黄灿 |
| 地址: | 519000 广东省珠海市横琴新*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 方法 装置 网络设备 | ||
本发明提供了一种文档聚类方法及装置、网络设备,属于数据挖掘、文档聚类及web网页聚类技术领域。该方法包括:步骤a:将待聚类的文档分为多组;步骤b:对其中一组文档通过聚类算法进行聚类,获取初始簇,初始簇对应有频繁项集;步骤c:获取余下的另外一组文档的特征词,根据特征词和初始簇对应的频繁项集,将特征词包含在频繁项集中的文档聚类到频繁项集对应的初始簇,并对剩下的特征词未包含在频繁项集中的文档进行聚类获取新的对应有频繁项集的初始簇;步骤d:判断是否存在未聚类的文档组,如存在,转向步骤c;如不存在,存储聚类成的多个初始簇和每个初始簇对应的频繁项集。本发明的技术方案能够提高文档聚类的速度并且节约计算资源。
技术领域
本发明涉及数据挖掘、文档聚类及web网页聚类技术领域,特别是指一种文档聚类方法及装置、网络设备。
背景技术
目前,搜索引擎技术已经趋于成熟,用户可以非常方便地通过搜索引擎来获取他们想要寻找的网页内容。为了方便用户浏览目标网页,出现了基于web网页的推荐技术,即根据用户关注的一些网页,向用户推荐一些相关网页,省去了用户通过搜索查找网页的麻烦。现有技术中,基于web网页的推荐技术都是基于web网页聚类而获得推荐的相关网页的,也就是首先对一定范围内的网页进行聚类,然后从用户收藏网页所属的类簇中选取一个或多个网页推荐给用户。web网页聚类是文档聚类的一种,它通过分词技术将一个web网页的所有内容切分成词,然后将这些词作为网页的特征项,据此对网页进行聚类。
现有文档聚类算法的种类比较多,有KM、UPGMA、BKM、FIHC等,各个算法都具有其特点,有优势也有劣势,一个公共的主要问题在性能上:针对超大数据量时,由于文档的词较多,维度较大,需要耗费很长时间才能完成聚类算法,且非常占用CPU、内存、IO等计算资源。
针对文档聚类算法的性能问题,目前的主要解决方案是基于Map Reduce算法的分布式并行计算平台,包括Apache Hadoop平台、Yahoo S4、微软Dryad等。该方案通过将一个任务分布到多台通过网络互联的计算机上进行并行计算,来取得时间上的成倍减少,但是这种方法需要运用多台网络互联的计算机,因此比较浪费资源,成本比较高。
发明内容
本发明要解决的技术问题是提供一种文档聚类方法及装置、网络设备,能够提高文档聚类的速度并且节约计算资源。
为解决上述技术问题,本发明的实施例提供技术方案如下:
一方面,提供一种文档聚类方法,包括:
步骤a:将待聚类的文档分为多组;
步骤b:对其中一组待聚类的文档通过聚类算法进行聚类,获取初始簇,所述初始簇对应有频繁项集;
步骤c:获取余下的另外一组待聚类文档的特征词,根据所述特征词和所述初始簇对应的频繁项集,将特征词包含在所述频繁项集中的文档聚类到所述频繁项集对应的初始簇,并对剩下的特征词未包含在所述频繁项集中的文档通过聚类算法进行聚类获取新的对应有频繁项集的初始簇;
步骤d:判断是否存在未聚类的文档组,如果存在,转向步骤c;如果不存在,存储所有待聚类的文档聚类成的多个初始簇和每个所述初始簇对应的频繁项集。
进一步地,所述步骤b包括:
获取所述其中一组待聚类的文档中每个文档的特征词;
根据获取的特征词使用Apriori算法提取频繁项集;
根据所述提取的频繁项集和所述每个文档的特征词,将特征词包含在同一频繁项集中的文档聚类成同一初始簇。
进一步地,所述获取所述其中一组待聚类的文档中每个文档的特征词包括:
将每个文档中的文字拆分成多个词语,并对拆分后的词语进行过滤,去除干扰词获取文档的初始特征词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海豹好玩科技有限公司,未经珠海豹好玩科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410160939.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文档内容自动搜索系统及方法
- 下一篇:垃圾评论检测方法及设备





