[发明专利]一种基于停用词的相似文档查询方法无效

申请号：	201210461090.5	申请日：	2012-11-15
公开（公告）号：	CN102937994A	公开（公告）日：	2013-02-20
发明（设计）人：	林述民	申请（专利权）人：	北京锐安科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京君尚知识产权代理事务所(普通合伙) 11200	代理人：	余功勋
地址：	100044 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于用词相似文档查询方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及对电子化文档与文档之间相似度的查询方法，具体涉及一种利用中文停顿词比较文档相似度的方法，属于计算机语言处理及信息检索技术领域。

背景技术

随着互联网技术的普及和应用，电子化文档的使用量越来越大。电子化文档在方便人们提高工作效率、节约纸张等自然资源的利用的同时，也带来一些额外的问题和麻烦。如：电子化文档比较容易复制，也比较容易传播。这些文档电子化的新特征使得文档的抄袭在技术上更加容易。加之电子化数据量的日益增大，这类抄袭的人工判断越来越困难。因此，非常有必要利用现代化信息技术来改进人们对文档相似度判断的方法，从而提高人们处理日益增长的海量电子化文档的能力。

在过去几十年内，人们对于自然语言处理的理论和技术都有了比较大的提高，电子文档是文本电子化的产物，而文本正是人类自然语言描述的产物。利用自然语言的处理方法来改变过去对文档逐字、逐词进行比较的方法将有效提高文档比对的效率和效果。

文档相似性是文本信息处理领域的核心问题，很多的文本应用包括文档聚类、文档检索、文档过滤等，都密切依赖于文档形似性的精确度量。在自然语言处理领域，人们总结了一些通用的方法和规则，如：N-Gram分词方法（具体可参考A.Andoni and P.Indyk,“Near-optimal hashing algorithms for approximate nearest neighbor in highdimensions,”Comm.ACM 51:1,pp.117–122,2008.），基于Shingle的信息指纹对比（具体可参考2.A.Z.Broder,“On the resemblance and containment of documents,”Proc.Compression and Complexity of Sequences,pp.21–29,Positano Italy,1997.）等。然而这些方法大多数据源于西方的西文文字处理，对于中文等东亚语种的特殊性没有专门的应对。中文及东亚文字有典型的断词问题，这些问题在西方语种中是以单词，即单字的形式出现，在表达上以空格分开。因此，西方文字天然不用分词，而中文语言的处理恰恰相反，在进行结构化处理的时候，需要“分词”的问题，也要考虑由此带来的“分词歧义”问题。所以，在文档相似度比对方面，有必要充分考虑中文处理的特殊性。

发明内容

针对现有文献相似度比较方法，本发明提出利用非精确、集合运算比对的算法来提高比对工作效率，利用中文“停用词”（Stop Word）来实现提高中文文档对比效果的比对方法。

本发明的技术方案提出了一种基于停用词的相似文档查询方法，其步骤包括：

1）将待查询的两文档进行归一化处理，去除文档中所有非中文字字符信息；所述两文档，其一为待查文档，另一取自一个或多个数据源；或两文档为从一个或多个数据源中提取的两文档，

2）根据分词词典对所述两个文档进行分词操作，将该些文档转化成词汇流；

3）在所述词汇流中按照书写习惯提取得到停用词；

4）将所述停用词后面的正常语义词和该停用词组合成分段信息指纹；

5）把所述分段信息指纹分别汇总形成所述两个文档的中指纹标识，并放入信息指纹库中进行比对；

6）对所述信息指纹库中指纹标识相似度进行计算，得到所述两个文档的相似度值；

7）将相似度值大于设定阈值的两文档作为相似文档，按照设定方式输出所有或部分相似文档。

所述分段信息指纹通过唯一记数器记录。

所述停用词中按照书写习惯由左到右进行提取同时去掉连续的重复词。