[发明专利]一种针对海量相似短文本的聚类方法和系统无效
申请号: | 201110147340.3 | 申请日: | 2011-06-02 |
公开(公告)号: | CN102184256A | 公开(公告)日: | 2011-09-14 |
发明(设计)人: | 白俊良;陈光 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种针对海量相似短文本的聚类方法和系统是属于信息技术科学领域内的一项针对重复短文本检测的研究。因为短文本有着它自身的特点,所以传统的重复文本分析方法应用到短文本上的计算结果无法令人满意。而本发明采用基于短文本内容主干的重复分析方法,并结合相关词群,除能检测出完全重复的文本外,还可以检测出相似性极高的文本,而且处理速度快,效率高,可以较好的处理海量数据。采用本发明的方法可以去除冗余短文本,能够大大降低系统处理规模,并且还可以在一定程度上发现热点短文本,辅助发现社会热点。 | ||
搜索关键词: | 一种 针对 海量 相似 文本 方法 系统 | ||
【主权项】:
对海量相似短文本的基于内容主干的重复检测方法,包括对文本进行预处理,将完整的文本内容切分成带有词性的字或者单词,对文本提取主干,只提取文本中的动词、名词、数词,其它词性的单词丢弃不用,然后将语义相同的同义词、近义词替换为同一个词(语义归一化),对文本进行相似性计算,经提取主干后,我们假设相同词数越多(单词顺序不变)的文本,其相似性越强,将相关文档归为一类,从而形成多个“相关文本”的类别。并选出词频(关键词重复率)最高的若干个关键词代表该类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110147340.3/,转载请声明来源钻瓜专利网。
- 上一篇:船舶发动机吸气式增压装置
- 下一篇:一种户外垂直百页遮阳板