[发明专利]一种基于上下文关联的中文相似性比较方法无效

申请号：	201110303533.3	申请日：	2011-10-09
公开（公告）号：	CN102314418A	公开（公告）日：	2012-01-11
发明（设计）人：	赵长海;晏海华;郎钰泽	申请（专利权）人：	北京航空航天大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京永创新实专利事务所 11121	代理人：	周长琪
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于上下文关联中文相似性比较方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及中文相似性比较技术领域，具体是一种基于上下文关联的中文相似性比较方法。

背景技术

中文相似性比较技术广泛应用于抄袭检测、信息检索、机器翻译、文本挖掘、网页去重等领域，因为计算机对自然语言，尤其是中文的理解很困难，所以一直是人们研究的热点和难点。

相似性比较方法的目的是判断两篇文本是否“相似”。这里所说的“相似”，应该是指语义层面的所谓的“形不似而神似”。即两篇“相似”的文章，在经过(1)语法结构改变；(2)语序调换；(3)部分词语替换；(4)加入其他内容之后，仍然能检测出其相关性。其相似度大小取决于相似片段长度、改动程度等因素。

目前文本相似性比较广泛采用基于词频统计的方法，该方法基于VSM(向量空间模型)，对粒度设置很敏感，粒度过小则会将大量不相关的片段判定为相似，粒度过大则会产生大量漏判。使用基于词频统计的方法的技术包括SCAM(N Shivakumar，H Garcia-Molina，SCAM：A Copy Detection Mechanism for Digital Documents，1995)、CHECK(Antonio Si Hong Va Leong Rynson W.H.Lau，CHECK：A Document Plagiarism Detection System，1997)等。

上述基于VSM的中文相似性比较方法是把一篇文本或其中的一个粒度单位作为一个向量，其中的每一个词或字作为该向量的一个维；这个词或字出现的次数即为该向量在该维度上的值。这种方法相当于把一个粒度范围内的文本完全拆散成为孤立的字或词，而忽略了这些字或词之间的上下文关联。然而在判定两篇文本是否相似的时候，其上下文经常会提供重要的信息。现有的这些方法并没有充分利用这些上下文信息。

有关VSM的知识可以参考N Shivakumar，H Garcia-Molina的论文：SCAM：A Copy Detection Mechanism for Digital Documents。

发明内容

本发明针对现有基于VSM的中文相似性比较方法并没有充分利用上下文信息进行比较的问题，提出了一种基于上下文关联的中文相似性比较方法。

本发明一种基于上下文关联的中文相似性比较方法，具体包括以下步骤：

步骤1、首先将要进行比较的两篇文本的文本流进行分词，然后为每一个文本建立倒排表，具体是：通过词汇内容建立索引，将词汇本身作为索引的键，词汇在文本中的位置作为索引值；步骤2、对倒排表进行相似性检测，得到可疑相似片段(suspicious fragment)；步骤3、对可疑相似片段进行聚合，得到最终的相似文本块(Similar Chunk)及该相似文本块的相似度。

所述的步骤2具体又包括：

步骤2.1、首先使用倒排表对中心词进行映射：若词X同时在文本S的倒排表和文本D的倒排表中出现，则在文本S的倒排表和文本D的倒排表中建立词X的关系映射，并得到以词X作为中心词、以r作为半径，长度n＝2r+1的一对可疑相似片段；步骤2.2、以n个词作为一个粒度对两篇文本S和D进行相似性检测，并确定每一对可疑相似片段的相似度；

步骤2.3、确定文本S和文本D的相似值R_S，D表示文本S对文本D的相似度，R_D，S表示文本D对文本S的相似度。

所述的步骤3中生成相似文本块，是针对文本S中每个核心可疑相似片段，进行下面过程：寻找该核心可疑相似片段的直接密度可达集合，将生成的直接密度可达集合中的核心可疑相似片段的最小的起始位置索引号作为所要生成的相似文本块的起始位置，最大的终止位置索引号作为所要生成的相似文本块的结束位置。

本发明的优点与积极效果在于：本发明方法先发现较小可疑相似片段，再对可疑相似片段进行聚合，减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾。

附图说明

图1是本发明的中文相似性比较方法的整体步骤流程图；

图2是本发明方法步骤二中使用倒排表对中心词进行映射的示意图；

图3是一个可疑相似片段的数据结构所包含的信息。

具体实施方式

下面将结合附图和实施例对本发明的技术方案作进一步的详细说明。

本发明的基于上下文关联的中文相似性比较方法，如图1所示，具体包括以下步骤：

步骤一、读取要进行比较的文本S和文本D，将两篇文本的文本流(Text Stream)进行分词和索引。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。