[发明专利]WORD稿件的结构化方法及WORD稿件的结构化装置有效

专利信息
申请号: 201710247950.8 申请日: 2017-04-17
公开(公告)号: CN108733638B 公开(公告)日: 2020-09-04
发明(设计)人: 代芳;陈瀚博 申请(专利权)人: 北大方正集团有限公司;北京北大方正电子有限公司
主分类号: G06F40/154 分类号: G06F40/154
代理公司: 北京友联知识产权代理事务所(普通合伙) 11343 代理人: 尚志峰;汪海屏
地址: 100871 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: word 稿件 结构 方法 化装
【说明书】:

发明提供了一种WORD稿件的结构化方法和WORD稿件的结构化装置,其中,WORD稿件的结构化方法包括:获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件;对所述待结构化的WORD稿件的结构内容进行识别;根据所述样式模板文件和所述XML标签文件对识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件。通过本发明的技术方案,实现了WORD稿件结构化,并且易用性强、可靠性高,便于后续将WORD稿件转换为XML标准文件。

技术领域

本发明涉及文档格式转换技术领域,具体而言,涉及WORD稿件的结构化方法及WORD稿件的结构化装置。

背景技术

Office是我们最常用的办公软件。目前图书、期刊、百科类图书等的出版、发行起始多是利用WORD进行创作的。XML(Extensible Markup Language,可扩展标记语言)文件,它是标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。它是各种应用程序之间进行数据传输最常用的工具。

随着网络技术的发展,XML技术已经应用到了数字出版相关领域,随之,WORD稿件到XML文件的转换,也成为迫切的需求。然而,在转换过程中,最大的难度在于WORD稿件的标引结构化。

发明内容

本发明正是基于上述技术问题,提出了一种新的技术方案,通过本发明的技术方案,实现了WORD稿件的结构化,并且易用性强、可靠性高,便于后续将WORD稿件转换为XML标准文件。

有鉴于此,本发明的第一方面,提出了一种WORD稿件的结构化方法,包括:获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件;对所述待结构化的WORD稿件的结构内容进行识别;根据所述样式模板文件和所述XML标签文件对识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件。

在该技术方案中,当需要对待结构化的WORD稿件进行结构化处理时,可以获取适用于该待结构化的WORD稿件的XML标签文件与样式模板文件,其中,XML标签文件与样式模板文件存在一一对应的关系,并在识别出该待结构化的WORD稿件的结构内容确定其结构层次关系后,根据上述样式模板文件、XML标签文件对识别出的结构内容进行处理,实现对WORD稿件的结构化,以便输出目标XML标准文件,从而解决WORD稿件到XML文件的转换过程中的最大难题,易用性强、可靠性高。

其中,可以利用正则表达式、人工智能、样式匹配、特征相似度等算法识别待结构化的WORD稿件的结构内容。

在上述技术方案中,优选地,所述样式模板文件中包含样式信息,以及所述样式信息包括:样式名称和样式类型信息。

在该技术方案中,与XML标签文件对应的样式模板文件中包含有样式信息,具体地,在样式模板文件中以XML标签的形式命名定义样式信息,而XML标签的层次关系可以采用样式信息的基准样式进行层次表达,其中,样式信息至少包括样式名称和样式类型信息。

在上述技术方案中,优选地,所述根据所述样式模板文件和所述XML标签文件对识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件的步骤,包括:将所述样式信息加载于所述待结构化的WORD稿件中,以使所述样式信息与所述结构内容进行匹配;对匹配完所述样式信息的所述结构内容标记内容标签;根据所述XML标签文件将所述内容标签转换为对应的XML节点标签;根据所述XML节点标签输出所述目标XML标准文件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710247950.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top