[发明专利]一种快速文档聚类方法无效
申请号: | 200810209524.6 | 申请日: | 2008-11-26 |
公开(公告)号: | CN101408893A | 公开(公告)日: | 2009-04-15 |
发明(设计)人: | 刘远超;刘铭;王晓龙 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 哈尔滨市哈科专利事务所有限责任公司 | 代理人: | 刘 娅 |
地址: | 150001黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 文档 方法 | ||
(一)技术领域
本发明涉及一种文档聚类技术,具体涉及一种快速文档聚类方法。
(二)背景技术
随着网络的日益普及和信息资讯建设取得的显著成效,人们经常需要面对数目惊人的自然语言文档,突出的问题是如何对其中包含的丰富信息和知识进行迅速有效的组织、浓缩和融合等处理,以提高人类把握这些海量信息的能力,改善认知水平。特别是近年来受到广泛关注的用户个人文档自动整理、网络大规模信息舆情监控、话题跟踪与检测技术、网络舆论态势跟踪、论坛大量文档的自动分类等研究内容中,就离不开快速高质量文本聚类技术的支持。
由于一般认为聚类算法的复杂度较高,并且采用广为人知的Salton向量空间模型表示自然语言文档容易导致维数灾难,当处理文档数目达到较大规模时其高昂的计算开销被公认为是文本聚类技术在实践应用中需要解决的重要问题之一。
(三)发明内容
本发明提供一种用以克服已有的聚类方法由于特征高维量化和频繁相似度计算所带来的效率及其低下问题的快速文档聚类方法。
本发明的目的是这样实现的:它通过下述步骤实现:一、利用词频统计从每篇文档中抽取出一组关键词(如10个),用于代表该文的主要内容;二、通过一次扫描,利用抽取的所有文档的关键词构造特征向量空间,并将文档表示为其包含的关键词在特征空间上的相应维度的索引值的集合;三、将自组织映射模型中的神经元表示为特征空间上的向量;四、依次输入文档,并计算其与所有神经元之间的相似度;五、累加值最大的神经元为获胜神经元,其和其邻域的神经元向当前文档方向调整权值;六、在调整神经元与输入文档匹配的个别维的同时,对其他维的权值进行弱化,以防止其他主题的文档错误映射到该神经元上;七、所有文档输入完毕后,结束。
本发明还有这样一些技术特征:
1、所述的相似度计算方法为,计算文档关键词索引在神经元节点上的相关维度上的权值的累加值。
本发明针对目前文本聚类由于维数较高和相似度计算比较频繁带来的效率较低的问题,利用自组织映射聚类模型,在文档量化表示和相似度计算等环节进行革新,使得在处理文档数目相同且聚类质量得以保持的情况下,计算效率获得大幅提升。
本发明方法的步骤:与传统上将文档表示为高维空间向量的做法不同,本方法首先从文档中提取若干关键词(如10个关键词),关键词为对文本进行高频词统计生成的重要内容词。而后实现一次扫描,完成了利用所有文档的关键词动态构造特征空间和同时将文档则直接表示为其包含的关键词在向量空间中的索引的工作。自组织映射模型中的神经元节点表示为空间上的向量。虽然神经元节点仍为高维向量,但大量的文档则仅包含若个关键词的索引(如10个),而不是传统上表示为与神经元节点同样的高维向量(如几千维)。因此传统上聚类过程中频繁进行的文档和神经元节点之间的相似度计算被简化。
文档和神经元节点之间的相似度计算方法为文档关键词索引在神经元节点上的相关维度上的权值的累加值。累加值最大的神经元为获胜神经元,其和其邻域的神经元获得了向当前文档调整权值的机会。为了防止文档向神经元的错误映射,采取了抑制其它维的办法,即在调整神经元与输入文档匹配的个别维的同时,对其他维的权值进行弱化,以防止其他主题的文档错误映射到该神经元上。
本发明方法的本质在于规避了传统方法的大量冗余计算,特征并没有压缩,因而可以达到不影响聚类质量,大幅提升聚类效率的目的。
本发明的潜在用户包括:1.需要进行网络大规模文本信息流的动态分析与监控的国家有关部门;2.众多从事文档信息检索和信息管理应用和研究的企业用户、图书情报机构、科研院所等单位;3.大量需要进行文档组织管理和快速检索浏览(如个人电子邮件和各类自然语言文档聚类处理)的个人用户等。
本发明的方法将文档表示为若干关键词索引构成的集合,其数目远少于特征空间的维数,后者一般为几千维。神经元仍然延续传统的做法。由于自组织映射模型中频繁进行文档与神经元节点之间的相似度,且文档数目一般远远大于神经元节点的数目(一般可以设定为需要生成的文档簇的数目),因此节省的计算开销非常可观。注意到本发明方法并不是对特征进行压缩,其采用的特征与传统方法完全相同。本发明的特点在于通过在特征量化表示和相似度计算等环节进行改进,使得大量冗余计算得以消除,从而达到保持聚类质量,大幅提升效率的目的。聚类质量可以利用聚类F值来衡量。
聚类F值的计算方法:用聚类F值对文档聚类的综合质量进行评价。对于聚类生成的某一个聚类类别r和原来的预定类别s,召回率recall和精确率precision的定义分别为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810209524.6/2.html,转载请声明来源钻瓜专利网。