[发明专利]一种分布式文本拷贝检测系统有效

专利信息
申请号: 201210001424.0 申请日: 2012-01-05
公开(公告)号: CN102591978A 公开(公告)日: 2012-07-18
发明(设计)人: 张玥;张奇;黄萱菁 申请(专利权)人: 复旦大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海正旦专利代理有限公司 31200 代理人: 陆飞;盛志范
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 分布式 文本 拷贝 检测 系统
【说明书】:

技术领域

发明属于电子文本拷贝检测技术领域,具体涉及一种分布式文本拷贝检测系统。

背景技术

进行电子文本的拷贝检测,主流的方法是建立文本索引,通过文本索引进行查找、识别。为了处理日益增长的大规模电子文本数据,目前的拷贝检测系统通常使用多台计算机联合的分布式处理方法。为了进行拷贝检测,需要将数据在多台计算机之间传递。然而,集群中单个计算机节点的处理能力存在瓶颈,随着文本集规模增长而大大增加,将超过节点的处理能力,使得拷贝检测系统处理能力受限。 

发明内容

本发明的目的在于提供一种分布式文本拷贝检测系统,以提高拷贝检测系统处理能力。

本发明提供的分布式文本拷贝检测系统,使用Apache的开源软件项目Hadoop提供的分布式计算存储框架;电子文本数据集通过磁盘等介质作为输入进入到拷贝检测系统,系统由多台计算机组成的集群对电子文本数据进行处理,将互为拷贝的文档对结果以文件形式输出到磁盘上;电子文本数据集简称文档集,每个文档包括一个唯一标示的ID和内容;本系统包括为:分布式计算框架子系统,特征提取子系统,文本索引子系统,索引分发子系统,拷贝检测子系统,分布式文件存储子系统,分布式缓存子系统七个子系统,如图1所示。其中:

所述分布式计算框架子系统,是整个系统的中央控制模块。该子系统建立在Hadoop的Map-Reduce框架基础上,利用Hadoop框架对其他子系统进行控制。通过对其他子系统发送控制指令,完成Map-Reduce任务的调度、监控以及衔接。本系统采用迭代多轮的方法进行拷贝检测,其中迭代的过程也是由该子系统负责控制。

所述特征提取子系统,负责将原始文本文档转换为文本特征向量。该系统从分布式文件存储子系统中读取原始文本文件,对其进行数据清洗,分词,特征抽取等操作。将抽取的特征以文档特征向量的形式写入分布式文件存储系统。该子系统中,并没有限定文本特征的类型,可以采用任意的特征模型,例如Shingle、Spotsig等。

所述文本索引子系统,负责根据特征向量,对文档建立分布式倒排索引。该子系统每次读入一部分文档的特征向量,对其建立倒排索引,将所得的索引分块写入分布式文件存储子系统。

所述索引分发子系统,负责在每一轮拷贝检测迭代过程中,向各个子节点发送索引分块。该子系统可以根据配置,从分布式文件存储子系统中读取索引分块,存入分布式缓存子系统中,使得每一个子节点都可以读取这些索引分块。该子系统与拷贝检测子系统相互配合,在分布式计算框架子系统的控制之下,实现多轮迭代的拷贝检测。

所述拷贝检测子系统,负责进行真正的拷贝检测任务。该子系统从分布式文件存储子系统中读取文档特征向量,并从分布式缓存子系统中读取分布式索引分块。通过读取的文档特征向量,在索引中查找相似的文档对,并按照特征计算相似度,对于相似度超过阈值的文档对,将其ID号的组合输出到分布式文件存储子系统中。本系统中,不限定采用的相似度度量方式,通常可以根据采用的特征模型来决定相似度度量。

所述分布式文件存储子系统,基于Hadoop的HDFS分布式文件系统。用于存储系统的输入,输出以及作为各模块之间的中间数据。

所述分布式缓存子系统,基于Hadoop的HDFS分布式文件系统缓存(DistributedCache)。用于存储分布式索引分块。通过Round Robin算法控制每个节点上缓存的内容,从而分散对分布式文件系统各个节点的读写数据流,防止出现单点密集读写而降低总体性能的问题。 

本发明的文本拷贝检测系统运行在多台计算机组成的分布式集群上。其处理流程如下:首先,系统读入文本文档,抽取特征,建立分布式倒排索引,保存于分布式文件系统中;然后系统分次读入分布式索引的一部分,分发到各个节点进行拷贝检测;迭代分发和拷贝检测过程多次,最终完成对整个文档集的拷贝检测任务。本发明使用Map-Reduce技术, 并提出了一种新的分布式索引结构,使得进行分布式拷贝检测时,可以一次只利用一部分索引进行检测,通过多伦迭代完成拷贝检测任务。增加了拷贝检测系统的处理能力和可扩展性。 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210001424.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top