[发明专利]Word论文的标引方法、装置、设备及存储介质在审
申请号: | 201811282802.0 | 申请日: | 2018-10-31 |
公开(公告)号: | CN111199143A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 代芳;严昌华;陈巍 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F40/154 | 分类号: | G06F40/154 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 王征;刘芳 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | word 论文 标引 方法 装置 设备 存储 介质 | ||
本发明提供一种Word论文的标引方法、装置、设备及存储介质,通过获取标引流程管理文件,标引流程管理文件包括标引流程树;然后遍历标引流程树的每一节点,并执行该节点上配置的标引规则文件的算法,查找Word论文中需要标引的元素,并根据元素对Word论文进行标引。本发明的方法通过在标引流程树的节点上配置标引规则文件,可以方便快捷的编写标引规则,提高标引规则编写的效率,进而可根据标引流程树实现Word论文的自动标引,提高Word论文的标引效率。
技术领域
本发明涉及通信技术领域,尤其涉及一种Word论文的标引方法、装置、设备及存储介质。
背景技术
Office是我们最常用的办公软件。目前图书、期刊、百科类图书等的出版、发行起始多是利用Word进行创作的。而XML(eXtensible Markup Language)文件即可扩展标记语言,它是标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。它是各种应用程序之间进行数据传输最常用的工具。随着网络技术的发展,XML技术已经应用到了数字出版相关领域,随之,Word文档到XML文档的转换,也成为迫切的需求。
现有技术中,需要在Word论文执行标引完成后输出结构化的XML文档,而在标引时通常采用人工判定、手工标引,或者采用通配符查找、简单样式匹配等。由于Word论文具有各自特定的形态和格式,现有技术标引准确率不高、灵活性较差、且效率低下。
发明内容
本发明提供一种Word论文的标引方法、装置、设备及存储介质,以实现Word论文的自动标引,提高Word论文的标引效率。
本发明的第一方面是提供一种Word论文的标引方法,包括:
获取标引流程管理文件,所述标引流程管理文件包括标引流程树;
遍历所述标引流程树的每一节点,并执行该节点上配置的标引规则文件的算法,查找Word论文中需要标引的元素;
根据所述元素对所述Word论文进行标引。
进一步的,所述根据所述元素对所述Word论文进行标引后,还包括:
获取所述元素在所述Word论文中的位置,并在所述Word论文中采用预设样式对所述元素进行标记。
进一步的,所述遍历所述标引流程树的每一节点,包括:
采用深度优先算法遍历所述标引流程树的每一节点;
所述执行该节点上配置的标引规则文件的算法,包括:
读取所述执行该节点上配置的标引规则文件的路径,根据所述路径获取所述标引规则文件,并执行所述标引规则文件。
进一步的,所述方法还包括:
根据预设规则运算符获取所述标引规则文件,其中所述预设规则运算符包括操作运算符和标引策略;
其中,所述操作运算符包括逻辑运算运算符、序列运算符、及循环运算符中的至少一项,所述标引策略包括正则表达式策略、机器学习策略、样式策略、及特殊策略中的至少一项。
本发明的第二方面是提供一种Word论文的标引装置,包括:
获取模块,用于获取标引流程管理文件,所述标引流程管理文件包括标引流程树;
处理模块,用于遍历所述标引流程树的每一节点,并执行该节点上配置的标引规则文件的算法,查找Word论文中需要标引的元素;
标引模块,用于根据所述元素对所述Word论文进行标引。
进一步的,所述处理模块还用于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811282802.0/2.html,转载请声明来源钻瓜专利网。