[发明专利]一种文档对比方法及装置有效
申请号: | 201611265983.7 | 申请日: | 2016-12-31 |
公开(公告)号: | CN108268884B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 周好冲;王学武;李平立 | 申请(专利权)人: | 方正国际软件(北京)有限公司;方正国际软件有限公司 |
主分类号: | G06F18/22 | 分类号: | G06F18/22;G06F16/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 对比 方法 装置 | ||
本发明公开一种文档对比方法及装置,该方法包括:将修订文档和原文档进行内容对比,确定所述修订文档和所述原文档的最长公共字符串;根据所述最长公共字符串分别对所述修订文档和所述原文档进行段落定位,确定在所述修订文档和原文档中存在对应关系的段落;针对所述修订文档中任意一个非对应段落,将所述非对应段落与所述原文档进行内容对比,根据对比结果确定所述非对应段落的修改类型用以准确识别不同文档之间的差异。
技术领域
本发明涉及数据处理领域,尤其涉及一种文档对比方法及装置。
背景技术
现有技术中,对于简短内容地比较,插入文字和删除文字这样的差异可以准确地标出,段落移动的情况也基本上没有问题;但是对于长篇或复杂的内容比较,段落向上(向下)移动的类型可能就不能准确判断,段落的概念也可能被破坏,从而导致插入文字和删除文字类型的判断也不够准确,另外对于段落拆分和组合、段落部分拷贝、大范围的剪切粘贴的类型尚无分析。
综上,现有的文档对比方法尚存不足,对比结果也不够准确。
发明内容
本发明实施例提供一种文档对比方法及装置,用以解决现有技术中存在文档对比结果不够准确的问题。
本发明方法包括一种文档对比方法,该方法包括:将修订文档和原文档进行内容对比,确定所述修订文档和所述原文档的最长公共字符串;
根据所述最长公共字符串分别对所述修订文档和所述原文档进行段落定位,确定在所述修订文档和原文档中存在对应关系的段落;
针对所述修订文档中任意一个非对应段落,将所述非对应段落与所述原文档进行内容对比,根据对比结果确定所述非对应段落的修改类型。
基于同样的发明构思,本发明实施例进一步地提供一种文档对比装置,该装置包括:
确定单元,用于将修订文档和原文档进行内容对比,确定所述修订文档和所述原文档的最长公共字符串;
段落定位单元,用于根据所述最长公共字符串分别对所述修订文档和所述原文档进行段落定位,确定在所述修订文档和原文档中存在对应关系的段落;
对比单元,用于针对所述修订文档中任意一个非对应段落,将所述非对应段落与所述原文档进行内容对比,根据对比结果确定所述非对应段落的修改类型。
本发明实施例提出的文档对比方法首先做的是对整篇文档内容对比,然后根据最长公共字符串对原文档和修订文档的段落进行定位,确定修订文档中各段落和原文档的各段落的位置存在对应关系的段落,当段落定位完成之后,继续用段落组与原文档进行对比,确定匹配段落的移动(或剪切粘贴),两篇文档对应段落中的差异(插入或删除),段落拆分、组合,以及段落部分拷贝等,最后根据以上所提的不同类型,使用不同颜色进行标注展示比较结果,可见,本发明实施例提供的方法可以对长篇或复杂的内容进行比较,段落向上(向下)移动的类型也可以得到准确地判断。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文档对比方法流程示意图;
图2为本发明实施例提供的一种原文档和修订文档的段落对应的示意图;
图3为本发明实施例提供的一种原文档和修订文档的段落拆分组合的示意图;
图4为本发明实施例提供的一种原文档和修订文档内容对比示意图一;
图5为本发明实施例提供的一种文字插入删除的文档对比结果示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方正国际软件(北京)有限公司;方正国际软件有限公司,未经方正国际软件(北京)有限公司;方正国际软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611265983.7/2.html,转载请声明来源钻瓜专利网。