[发明专利]文档聚类方法及装置、网络设备有效
| 申请号: | 201410160939.4 | 申请日: | 2014-04-21 |
| 公开(公告)号: | CN105095209B | 公开(公告)日: | 2019-05-10 |
| 发明(设计)人: | 万振;张凯达 | 申请(专利权)人: | 珠海豹好玩科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35 |
| 代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;黄灿 |
| 地址: | 519000 广东省珠海市横琴新*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明提供了一种文档聚类方法及装置、网络设备,属于数据挖掘、文档聚类及web网页聚类技术领域。该方法包括:步骤a:将待聚类的文档分为多组;步骤b:对其中一组文档通过聚类算法进行聚类,获取初始簇,初始簇对应有频繁项集;步骤c:获取余下的另外一组文档的特征词,根据特征词和初始簇对应的频繁项集,将特征词包含在频繁项集中的文档聚类到频繁项集对应的初始簇,并对剩下的特征词未包含在频繁项集中的文档进行聚类获取新的对应有频繁项集的初始簇;步骤d:判断是否存在未聚类的文档组,如存在,转向步骤c;如不存在,存储聚类成的多个初始簇和每个初始簇对应的频繁项集。本发明的技术方案能够提高文档聚类的速度并且节约计算资源。 | ||
| 搜索关键词: | 文档 方法 装置 网络设备 | ||
【主权项】:
1.一种文档聚类方法,其特征在于,包括:步骤a:将待聚类的文档分为多组;步骤b:对其中一组待聚类的文档通过聚类算法进行聚类,获取初始簇,所述初始簇对应有频繁项集;步骤c:获取余下的另外一组待聚类文档的特征词,根据所述特征词和所述初始簇对应的频繁项集,将特征词包含在所述频繁项集中的文档聚类到所述频繁项集对应的初始簇,并对剩下的特征词未包含在所述频繁项集中的文档通过聚类算法进行聚类获取新的对应有频繁项集的初始簇;步骤d:判断是否存在未聚类的文档组,如果存在,转向步骤c;如果不存在,存储所有待聚类的文档聚类成的多个初始簇和每个所述初始簇对应的频繁项集;所述步骤b包括:获取所述其中一组待聚类的文档中每个文档的特征词;根据获取的特征词使用Apriori算法提取频繁项集;根据所述提取的频繁项集和所述每个文档的特征词,将特征词包含在同一频繁项集中的文档聚类成同一初始簇。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海豹好玩科技有限公司,未经珠海豹好玩科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410160939.4/,转载请声明来源钻瓜专利网。
- 上一篇:文档内容自动搜索系统及方法
- 下一篇:垃圾评论检测方法及设备





