[发明专利]基于交互式文档聚类的信息检索方法及系统有效
申请号: | 201210209911.6 | 申请日: | 2012-06-19 |
公开(公告)号: | CN103514183B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | 黄威靖;于倩;陈薇;王腾蛟;杨冬青 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 余长江 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 交互式 文档 信息 检索 方法 系统 | ||
技术领域
本发明属于信息技术领域,涉及利用计算机辅助挖掘和整理文本信息的技术,具体涉及一种基于交互式文档聚类的信息检索方法及系统,采用有用户介入的半监督学习方式,对文档进行聚类分析,供用户获得不同类别的检索结果。
背景技术
在社交网络发展日新月异,信息涌入以海量计算的大环境下,现代人被过量信息疲劳轰炸,多数人仅是接收“新信息”就应接不暇,遑论对每个信息有充裕的时间消化、吸收。文本信息就是海量信息中典型的一种。借助计算机对文本信息进行挖掘和整理就显得富有实际意义。
文档聚类系统能够提供一种对指定文档集进行分类的无监督学习方法,它的分类准则是使得类内文档相似度尽可能高,类间文本相似度尽可能低。作为一种数据分析的重要工具,文档聚类使得针对规模巨大的文档集的分类管理、浏览和摘要成为一种可能。其典型的应用场景包括:信息检索、话题检测与追踪、网站新闻分类展现。
传统文档聚类并不要求用户提供训练样本,其输入是没有任何标签的文档的集合以及用户预先指定的参数K,用以指明文档集需要划分成多少个类,输出是文档的标签集合,用以标明文档所属的类别。聚类任务会定义损失函数,无监督的聚类在求解损失函数最小化的过程中获得最终结果,例如K-Means算法。无监督聚类的算法主要包括:基于划分的聚类(如K-Means)算法、层次聚类算法(如凝聚算法)、基于密度的聚类算法(如DBSCAN)、基于网格的聚类算法、基于神经网络的聚类算法。
在实际应用中,对于文档集用户会有若干先验知识,这些知识包括但不限于:文档相似性上的联结关系(must-link),文档相似性上的互斥关系(cannot-link),以及最终分析所得的聚类簇数目。这些已有的知识和外在规律可以有效的帮助聚类分析,使得聚类尽可能的挖掘出文档之间潜在的语义关系,以及尽可能的与用户的先验知识吻合。利用使用者先验知识的聚类任务就称作是半监督的或带有约束的聚类任务,它的分析和计算过程主要是修改损失函数,对损失函数进行最优化求解。半监督聚类算法主要有三类:对层次聚类的改进、在K-Means算法的基础上进行改进和对谱聚类算法进行调整。
半监督的层次聚类的方法由于是在层次聚类的基础上做的改进,复杂度较高,为O(N2),即与输入规模成平方量级关系。所以,层次聚类同谱聚类和K-Means的复杂度O(KN)相比在计算速度上不具有优势,其中K为聚类数,N为输入规模。
半监督的K-Means方法如[Constrained K-Means clustering with background knowledge,Kiri Wagstaff etc.,Proceedings of the Eighteenth International Conference on Machine Learning,2001,page 577–584.][Semi-superivsed Clustering by Seeding,S Basu etc.,Proceedings of the Nineteenth International Conference on Machine Learning,2002,page 19-26.],K-Means算法的主要缺点是预先指定K值(聚类数),要获得良好的聚类效果需要用户反复调整参数K,并且调整的过程不能同时利用两类先验知识——聚类数和样本之间的相似关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210209911.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动变速箱不解体清洗剂
- 下一篇:控制设备、控制方法、以及程序
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置