[发明专利]一种针对海量相似短文本的聚类方法和系统无效

专利信息
申请号: 201110147340.3 申请日: 2011-06-02
公开(公告)号: CN102184256A 公开(公告)日: 2011-09-14
发明(设计)人: 白俊良;陈光 申请(专利权)人: 北京邮电大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 海量 相似 文本 方法 系统
【说明书】:

一、技术领域

信息技术

二、背景技术

在信息化已经成为世界发展趋势的背景下,互联网有着应用极为广泛、发展规模最大、非常贴近人们生活等众多特点。一方面,互联网创造了巨大的经济效益和社会效益,使得人们可以接受到即时的、最新的消息;但同时随着网络的普及、网上的信息量越来越大,不仅对计算机对这些海量信息的获取、存储及实时分析处理能力提出了严峻的挑战,也给人们在搜索信息时准确性和可靠性带来了一定的难度;另一方面,互联网也带来了一些负面影响,如色情、反动等不良信息在网络上大量传播。垃圾邮件等不正当行为的泛滥,利用网络传播电影、音乐、软件等侵犯版权的行为,甚至通过网络方式诈骗用户,以及出现网络暴力等问题。因此,在建设信息化社会的过程中,提高信息内容安全保障水平及对互联网中各种不良信息的检测能力,是网络信息技术中的重要一环,也是顺利建设信息化社会的坚实基础。

伴随着三网融合的进程,下一代互联网中文本形式变得多样化,普通网页所占比例越来越小。微博、WAP、评论、短信等内容比例会逐渐提高。同普通网页类似,这类文本中也存在大量的相同或极为相似的内容。例如:

[1]北京办证办毕业证身份证刻章QQ731787311

[2]北京办,证办毕业,证身份,证刻,章QQ7317@87@311

[3]祝福短信我来发,光棍开怀笑哈哈。节日不分大和小,快乐潇洒真热闹。万事都随风刮掉,如意才会无烦恼!

[4]<祝福>短信我来发,<光棍>开怀笑哈哈。<节日>不分大和小,<快乐>潇洒真热闹。<万事>都随风刮掉,<如意>才会无烦恼!

[5]瑞雪飘,寒梅俏,金牛哞哞报春早。锣鼓敲,爆竹闹,神州处处有欢笑。交情牢,赶个巧,今儿巴巴送福到。身体好,财神找,牛运鼎鼎莫忘交!——张三敬上

[6]瑞雪飘,寒梅俏,金牛哞哞报春早。锣鼓敲,爆竹闹,神州处处有欢笑。交情牢,赶个巧,今儿巴巴送福到。身体好,财神找,牛运鼎鼎莫忘交!——李四敬上

例1和例2比较发现,短信里插入了不当的标点符号和特殊符号,这是发送广告短信的不法商贩为了躲避运营商的广告过滤。例3和例4比较发现,发送短信者在转发过程中把要强调的关键词括了起来。例5和例6比较发现,短信的主体内容是相同的,不同的转发者在最后分别署上自己的名字。虽然这种类型短信的内容有所更改,但其主体部分还是一样的。

还有一类是手机用户就同一话题或类似话题创作的短信。如节日祝福短信或就某一个公众事件交流的短信等。这类短信都是原创短信,虽然表达方式各异,但因为内容是同一话题,所以有很大的相似性。

三、发明内容

1、本发明所要解决的技术问题(发明目的)

短文本语料的冗余现象特别严重:在手机短信中冗余主要来自垃圾短信的大量群发,搞笑短信和祝福短信的大量群发和转发,以及常用日常用语的大量涌现;在BBS语料或新闻评论语料中,冗余主要来自于热点帖子的大量转帖和大量回复;即时消息中幽默消息、祝福消息、日常用语等非常频繁,导致大量消息冗余。微软曾经统计了由1.5亿个网页构成的互联网语料,发现6%的网页是完全重复的。由此可以看出短文本完全重复的比例远远高于互联网语料的重复比例。另外,短文本语料中除了内容完全相同的冗余短信外,还有数量更为庞大的短文本内容是近似相同的,这些短文本明显是谈论同一个事件,而且明显是以几乎完全相同的方式谈论,只是标点符号有细微差别,或者短信开始或结尾添加了几个字符。而微软从互联网语料统计出来的近似冗余比例为29.2%,因此短文本语料的近似冗余比例大大高于互联网语料的近似冗余比例。完全冗余短文本和近似冗余短文本的存在会造成硬盘空间的浪费.检测并去除冗余短文本能够大大降低系统处理规模。检测并去除冗余短文本还可以一定程度上发现热点短文本,辅助发现社会热点。

传统的重复文本检测算法大多用于解决检测两个文本是否完全重复,不能解决1.1中的相似短文本的重复检测问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110147340.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top