[发明专利]文档相似性评价系统、文档相似性评价方法以及计算机程序有效
| 申请号: | 201210528898.0 | 申请日: | 2012-12-10 |
| 公开(公告)号: | CN103218388B | 公开(公告)日: | 2017-06-27 |
| 发明(设计)人: | 周文琦 | 申请(专利权)人: | 日本电气株式会社 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 王波波 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 相似性 评价 系统 方法 以及 计算机 程序 | ||
本申请基于并要求2012年1月19日递交的日本专利申请No.2012-008691的优先权权益,其全部公开内容通过引用合并于此。
技术领域
本发明涉及评价文档之间相似性的信息处理技术领域。
背景技术
评价不同文档之间相似性的方法广泛用于评价科学论文之间的相似性或者检测公司文档之间的相似性。专利文档1至3公开了文档相似性确定系统。
在专利文档1至2中公开的文档相似性确定系统中,首先针对每一页分离整个文档,或者在出现特定字符串的每个位置处分割整个文档(在下文中,一个分离出(或分割出)的单元被称作“片段”),并且针对每个片段计算特性值。按照文档中从第一个片段到最后一个片段的顺序,通过比较片段的特性值,基于特性值彼此相同的片段的个数来确定不同文档之间的相似性。作为确定的结果,当特性值彼此相同的片段的个数较多时,文档之间的相似性较高,相反,当特性值彼此相同的片段的个数较少时,文档之间的相似性较低。
在专利文档3中公开的文档相似性确定系统中,从句子中分离文档中存在的图和等式,针对分离出的图和等式的布置来定义密集程度,并且将密集程度用作确定相似性的指数。
[专利文档]
[专利文档1]日本专利申请特开No.2008-257444
[专利文档2]日本专利申请特开No.2010-256951
[专利文档3]国际公开No.WO 2009/048149
[本发明的简要概述]
[本发明要解决的问题]
上述专利文档中描述的文档相似性确定系统可以评价整个文档之间的相似性。然而,这些文档相似性确定系统不能评价具有高相似性的部分是集中在特定段落中还是分散在整个文档中。
发明内容
考虑到上述问题提出本发明。本发明的主要目的是提供一种针对至少两类文档之间的相似性确定具有高相似性的部分的文档相似性评价系统或类似系统。
为了实现上述目的,根据本发明的文档相似性评价系统的特征在于具有以下配置。
即,根据本发明的文档相似性评价系统的特征在于包括:
片段搜索单元,所述片段搜索单元在第一片段串和第二片段串二者中寻找公共片段,对找到的所述公共片段的个数进行计数,并且识别出现所述公共片段的出现范围;以及
相似性指数计算单元,所述相似性指数计算单元:计算第一和,所述第一和是所述片段搜索单元识别出的所述出现范围中包括的每个片段的字符个数和;计算第二和,所述第二和是被识别为所述公共片段的每个片段的字符个数和;以及使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的相似性指数:
相似性指数=F(NTC)/G(NCC)×NS,
(其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数F和函数G是将特定整数值与正实数值相关联的单调增函数。)
作为本发明的另一方面,根据本发明的文档相似性评价方法的特征在于包括:
在第一片段串和第二片段串二者中寻找公共片段;
对找到的所述公共片段的个数进行计数;
识别出现所述公共片段的出现范围;
计算第一和,所述第一和是所述出现范围中包括的每个片段的字符个数和;
计算第二和,所述第二和是被识别为所述公共片段的每个片段的字符个数和;并且
使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的相似性指数:
相似性指数=F(NTC)/G(NCC)×NS,
(其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数F和函数G是将特定整数值与正实数值相关联的单调增函数。)
此外,该目的还可以通过使用计算机程序以及存储了所述计算机程序的计算机可读存储介质来实现,所述计算机程序使计算机实现具有上述配置的文档相似性评价系统和对应方法。
通过使用本发明,可以针对至少两类文档之间的相似性来确定具有高相似性的部分。
附图说明
结合附图,通过以下详细描述,本发明的示例性特征和优点将变得显而易见,在附图中:
图1是示出了根据本发明第一示例性实施例的文档相似性评价系统的配置的框图,
图2是示出了根据本发明第一示例性实施例的文档相似性评价系统中执行的处理步骤的流程图,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社,未经日本电气株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210528898.0/2.html,转载请声明来源钻瓜专利网。





