[发明专利]一种针对海量相似短文本的聚类方法和系统无效
申请号: | 201110147340.3 | 申请日: | 2011-06-02 |
公开(公告)号: | CN102184256A | 公开(公告)日: | 2011-09-14 |
发明(设计)人: | 白俊良;陈光 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 海量 相似 文本 方法 系统 | ||
1.对海量相似短文本的基于内容主干的重复检测方法,包括对文本进行预处理,将完整的文本内容切分成带有词性的字或者单词,对文本提取主干,只提取文本中的动词、名词、数词,其它词性的单词丢弃不用,然后将语义相同的同义词、近义词替换为同一个词(语义归一化),对文本进行相似性计算,经提取主干后,我们假设相同词数越多(单词顺序不变)的文本,其相似性越强,将相关文档归为一类,从而形成多个“相关文本”的类别。并选出词频(关键词重复率)最高的若干个关键词代表该类别。
2.如权利要求1所述的对海量相似短文本的基于内容主干的重复检测方法,其特征在于对文本进行预处理时对文本的进行过滤和修剪,即去掉长度过短且没有信息量的文本和文本中的起干扰作用的前后缀和特殊符号。
3.如权利要求1所述的对海量相似短文本的基于内容主干的重复检测方法,其特征在于对文本进行预处理时对文本进行编码转换,并对对文本内容归一化,即繁简体统一、大小写字母统一、全角半角符号统一、各种形式编号的统一等。
4.如权利要求1所述的对海量相似短文本的基于内容主干的重复检测方法,其特征在于对文本进行预处理时对文本进行相似性计算过程中将文本主干放入HASH表中,根据映射关系把文本分为相关和不相关两种。
5.对海量相似短文本的包含重复检测和重复程度统计功能的分布式架构,包括每个分布式处理节点从短文本数据源获取数据,提取短文本主干,与HASH数据库服务器通信,在HASH数据库中查找该短文本主干,从而确定该短文本是否重复过,如果重复,则在本地TokyoCabinet中更新该类短文本的数量,处理结果传输到后续进程做进一步处理。
6.如权利要求5所述的对海量相似短文本的包含重复检测和重复程度统计功能的分布式架构,其特征在于对每个分布式处理节点从短文本数据源获取数据,提取短文本主干时在每个处理节点上采用BUFFER_DEQUE和DB_DEQUE对hash服务器中的重复文本类别信息做二级缓存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110147340.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:船舶发动机吸气式增压装置
- 下一篇:一种户外垂直百页遮阳板