[发明专利]一种分布式文本拷贝检测系统有效
申请号: | 201210001424.0 | 申请日: | 2012-01-05 |
公开(公告)号: | CN102591978A | 公开(公告)日: | 2012-07-18 |
发明(设计)人: | 张玥;张奇;黄萱菁 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;盛志范 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 文本 拷贝 检测 系统 | ||
技术领域
本发明属于电子文本拷贝检测技术领域,具体涉及一种分布式文本拷贝检测系统。
背景技术
进行电子文本的拷贝检测,主流的方法是建立文本索引,通过文本索引进行查找、识别。为了处理日益增长的大规模电子文本数据,目前的拷贝检测系统通常使用多台计算机联合的分布式处理方法。为了进行拷贝检测,需要将数据在多台计算机之间传递。然而,集群中单个计算机节点的处理能力存在瓶颈,随着文本集规模增长而大大增加,将超过节点的处理能力,使得拷贝检测系统处理能力受限。
发明内容
本发明的目的在于提供一种分布式文本拷贝检测系统,以提高拷贝检测系统处理能力。
本发明提供的分布式文本拷贝检测系统,使用Apache的开源软件项目Hadoop提供的分布式计算存储框架;电子文本数据集通过磁盘等介质作为输入进入到拷贝检测系统,系统由多台计算机组成的集群对电子文本数据进行处理,将互为拷贝的文档对结果以文件形式输出到磁盘上;电子文本数据集简称文档集,每个文档包括一个唯一标示的ID和内容;本系统包括为:分布式计算框架子系统,特征提取子系统,文本索引子系统,索引分发子系统,拷贝检测子系统,分布式文件存储子系统,分布式缓存子系统七个子系统,如图1所示。其中:
所述分布式计算框架子系统,是整个系统的中央控制模块。该子系统建立在Hadoop的Map-Reduce框架基础上,利用Hadoop框架对其他子系统进行控制。通过对其他子系统发送控制指令,完成Map-Reduce任务的调度、监控以及衔接。本系统采用迭代多轮的方法进行拷贝检测,其中迭代的过程也是由该子系统负责控制。
所述特征提取子系统,负责将原始文本文档转换为文本特征向量。该系统从分布式文件存储子系统中读取原始文本文件,对其进行数据清洗,分词,特征抽取等操作。将抽取的特征以文档特征向量的形式写入分布式文件存储系统。该子系统中,并没有限定文本特征的类型,可以采用任意的特征模型,例如Shingle、Spotsig等。
所述文本索引子系统,负责根据特征向量,对文档建立分布式倒排索引。该子系统每次读入一部分文档的特征向量,对其建立倒排索引,将所得的索引分块写入分布式文件存储子系统。
所述索引分发子系统,负责在每一轮拷贝检测迭代过程中,向各个子节点发送索引分块。该子系统可以根据配置,从分布式文件存储子系统中读取索引分块,存入分布式缓存子系统中,使得每一个子节点都可以读取这些索引分块。该子系统与拷贝检测子系统相互配合,在分布式计算框架子系统的控制之下,实现多轮迭代的拷贝检测。
所述拷贝检测子系统,负责进行真正的拷贝检测任务。该子系统从分布式文件存储子系统中读取文档特征向量,并从分布式缓存子系统中读取分布式索引分块。通过读取的文档特征向量,在索引中查找相似的文档对,并按照特征计算相似度,对于相似度超过阈值的文档对,将其ID号的组合输出到分布式文件存储子系统中。本系统中,不限定采用的相似度度量方式,通常可以根据采用的特征模型来决定相似度度量。
所述分布式文件存储子系统,基于Hadoop的HDFS分布式文件系统。用于存储系统的输入,输出以及作为各模块之间的中间数据。
所述分布式缓存子系统,基于Hadoop的HDFS分布式文件系统缓存(DistributedCache)。用于存储分布式索引分块。通过Round Robin算法控制每个节点上缓存的内容,从而分散对分布式文件系统各个节点的读写数据流,防止出现单点密集读写而降低总体性能的问题。
本发明的文本拷贝检测系统运行在多台计算机组成的分布式集群上。其处理流程如下:首先,系统读入文本文档,抽取特征,建立分布式倒排索引,保存于分布式文件系统中;然后系统分次读入分布式索引的一部分,分发到各个节点进行拷贝检测;迭代分发和拷贝检测过程多次,最终完成对整个文档集的拷贝检测任务。本发明使用Map-Reduce技术, 并提出了一种新的分布式索引结构,使得进行分布式拷贝检测时,可以一次只利用一部分索引进行检测,通过多伦迭代完成拷贝检测任务。增加了拷贝检测系统的处理能力和可扩展性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210001424.0/2.html,转载请声明来源钻瓜专利网。