[发明专利]一种从Word文档中快速提取文字格式的方法和装置有效
申请号: | 201210587758.0 | 申请日: | 2012-12-30 |
公开(公告)号: | CN103902918A | 公开(公告)日: | 2014-07-02 |
发明(设计)人: | 王申;金端峰;郭向国 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06F21/60 | 分类号: | G06F21/60 |
代理公司: | 北京工信联合知识产权代理事务所(普通合伙) 11266 | 代理人: | 郭一斐;黄晓军 |
地址: | 100195 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 word 文档 快速 提取 文字 格式 方法 装置 | ||
技术领域
本发明涉及文档处理、信息安全等领域,特别涉及电子签章应用中一种从Word文档中快速提取文字格式的方法和装置。
背景技术
随着技术的发展,越来越多的企事业单位及国家机关逐渐采取了电子化办公,极大的提高了工作效率。随之而来的便是电子办公所带来的安全性问题。由于电子文档易被拷贝或篡改,所签发的电子文档是否被修改,是否为签发人所签发等问题随之而来。电子签章产品的出现解决了上述问题,为电子文档的安全需求提供了技术依据。
Microsoft Word是微软公司出品的一个文档处理应用程序,Word文档是目前电子文档中的主流文档格式。所有电子签章产品均需要支持Word文档格式,保证能够检测出Word文档中文字是否经过篡改。
另一方面,很多情况下不仅文字起着重要作用,文字格式也发挥了很大作用。不同的文字格式含义可能完全不同,在一份电子合同或电子文档中,如果更改了部分文字格式,可能会引起不同的含义,从而提取Word文档所有文字格式,进行检测具有很重要的意义。
目前常用的Word文档文字格式提取的方法有以下几种:方法一:调用ms-word所提供的Com接口,获取每个文字对象,提取其属性值;方法二:使用一些开源文档处理软件进行解析及提取,如调用OpenOffice接口进行解析文档并提取文字格式;方法三:根据Word文档格式解析,并提取文字格式。
对于方法一来说,是目前电子签章产品获取文档格式的主流方法,使用简单,与Word应用系统兼容性好,但是每解析一个Word元素均要调用一次Com接口,效率低下,运行时间长,文档较大时运行速度非常缓慢,严重影响应用系统的使用,从而使用该方法的电子签章产品均不支持对大文档进行文字格式的签章。
对于方法二来说,一方面与Word应用程序兼容不好,很难集成使用;另一方面对doc格式文档支持不好,稳定性差,文档较复杂时,容易出现获取不到格式的情况。
对于方法三来说,目前只公布了docx文档格式,对于doc文档格式不支持,从而无法支持Word2003与Word2000文档。
因此,找到一种能够快速提取Word文档中所有文字格式的方法,对于保护文档安全,具有很大意义。
发明内容
本发明实施例提供了一种从Word文档中快速提取文字格式的方法和装置,以实现在微软Word应用程序中,快速提取文档中文字格式,用于检测电子文档的安全性。
本发明解决上述技术问题的技术方案是,一种从Word文档中快速提取文字格式的方法,包括以下步骤:
将文档切分为多个部分;
将每个部分的文档内容转换为字符串格式,得到每个部分的文档内容分别对应的字符串数据;
提取所述字符串数据中所用字体及颜色集合;
解析每个字符串数据,并按照树形数据结构保存;
从所述树形数据结构中提取文字格式,将所有文字格式汇总。
以及一种从Word文档中快速提取文字格式的装置,所述装置包括:
文档处理模块,用于将文档切分为多个部分;
文档转换模块,用于将每个部分的文档内容转换为字符串格式,得到每个部分的文档内容分别对应的字符串数据;
字符串解析模块,用于提取所述字符串数据中所用字体及颜色集合,解析每个字符串数据,并按照树形数据结构保存,从所述树形数据结构中提取文字格式,将所有文字格式汇总。
本发明将ms-com接口与字符串处理相结合,研究出一系列解析规则,即吸取了ms-com接口操作便利的优势,又避免了反复调用ms-com接口导致效率低下的缺点,能够快速提取文档中全部文字格式。可以与电子签章等一些文档处理相关应用程序相结合,具有很高的使用价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种Word文档中快速提取文字格式方法的处理流程图。
图2为本发明实施例提供的一种Word文档中快速提取文字格式方法的装置结构示意图。
具体实施方式
为便于对本发明实施例的理解,下面将结合附图并以具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明的限定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210587758.0/2.html,转载请声明来源钻瓜专利网。