[发明专利]一种面向电子表格的表克隆自动化检测方法及电子装置在审
| 申请号: | 202011271368.3 | 申请日: | 2020-11-13 |
| 公开(公告)号: | CN112364786A | 公开(公告)日: | 2021-02-12 |
| 发明(设计)人: | 窦文生;张雅坤;魏峻 | 申请(专利权)人: | 中国科学院软件研究所 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余功勋 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 电子表格 克隆 自动化 检测 方法 电子 装置 | ||
本发明提供一种面向电子表格的表克隆自动化检测方法及电子装置,包括:根据电子表格中的空白行与空白列,将电子表格划分成若干物理块;通过查找每一物理块的行表头与列表头及合并相应的物理块,得到若干子表格;依据子表格中每一单元格的特征,计算各子表格之间的相似性,判断子表格之间是否存在表克隆。本发明可以自动化检测出电子表格中的表,建模并抽取表的结构与格式特征,并基于这些特征的相似度,准确识别表之间的克隆关系,能够更全面、准确的识别电子表格中各种表克隆情况。
技术领域
本发明属于计算机软件技术领域,尤其涉及一种面向电子表格的表克隆自动化检测方法及电子装置。
背景技术
电子表格系统(Spreadsheet)是目前最成功的一种终端用户数据记录和分析平台,已经被广泛运用到各种商业领域中,包括数据储存、数据分析、金融报告等。据调查显示(Christopher Scaffidi,Mary Shaw,and Brad Myers.Estimating the numbers of endusers and end user programmers.In Proceedings of IEEE Symposium on VisualLanguages and Human-Centric Computing(VL/HCC),207–214,2005),美国2012年估计已经有超过550万用户工作利用电子表格。显而易见,当前应该有数以亿计的用户利用电子表格完成各种日常工作。
电子表格和传统编程语言有类似之处。和代码复用类似,终端用户总是复用已经存在的电子表格并对其进行修改,从而加速电子表格的开发过程。比如,一个用户可以通过复制、粘贴并修改过去金融报告,从而形成一份新的金融报告,这样节省了大量时间成本,提高了工作效率。
表(Table)指电子表格中的完成某个商业任务或功能的连接区域,是数据处理和信息表示的关键结构(Zhe Chen and Michael Cafarella.Integrating spreadsheetdata via accurate and low-effort extraction.In Proceedings of ACM SIGKDDInternational Conference on Knowledge Discovery andDataMining(KDD),1126–1135,2014)。一个表通常包含以下四个元素。(1)表头(Header):其功能是描述表中的其他单元格。例如,图1中的单元格[B1:F1]和[A1:A7]是1月表的表头。通过表头B1和A2,可以知道单元格B2中的10表示Green在第1周工作了10个小时。(2)数据(Data):数据单元格存储业务数据,例如图1中的单元格[B2:D7]。(3)公式(Formula):公式单元格用于分析表中的数据,例如,图1中的单元格[E2:F7]。(4)单元格格式(Cell format):单元格格式可以方便用户查看、理解相关数据。例如,图1中单元格[B1:F1]使用粗体和斜体,并有底边框。
表克隆(Table clone)是指电子表格中的两个表,它们具有相同或者相似的计算语义。其中的一个表绝大多数是通过复制、粘贴、修改另一个表创建的。这在电子表格开发中是非常普遍的现象。在图1和图2中的两个表可以形成一个表克隆。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011271368.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种静音电源
- 下一篇:调用链数据生成方法、拓扑生成方法及系统和计算机设备





