[发明专利]一种基于翻译的word文档解析方法在审
申请号: | 201611180452.8 | 申请日: | 2016-12-19 |
公开(公告)号: | CN106649271A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 席斌;李明;王兴强;张马成;彭成超 | 申请(专利权)人: | 成都优译信息技术股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/21;G06F17/28 |
代理公司: | 成都行之专利代理事务所(普通合伙)51220 | 代理人: | 田甜 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 翻译 word 文档 解析 方法 | ||
技术领域
本发明涉及翻译技术领域,具体涉及一种基于翻译的word文档解析方法。
背景技术
计算机辅助翻译软件发展到今天,已经形成了翻译、记忆、存储等不同的技术原理。计算机辅助翻译软件在对word文档进行处理时,会先对word文档进行解析。现有的word文档解析方法在处理过程中,其存在如下问题,若文档中存在如图1所示表格嵌表格的情况,则表格中的表格不能被解析出来,从而导致漏翻的情况。
发明内容
本发明为了解决上述技术问题提供一种基于翻译的word文档解析方法。
本发明通过下述技术方案实现:
一种基于翻译的word文档解析方法,包括以下步骤,
利用XPath扫描解析XML格式文件;
根据扫描得到的wp标签内容构造POI段落;
解析段落中原文文本和样式,记录wp在文件中的位置信息并编号。
本方案的方法利用XPath对XML格式文件进行扫描,由于XML格式文件中段落的构成是以wp标签做为段前和段后的标识,通过对wp标签的识别从而有效识别段落。当word文档中存在表格嵌表格的情况时,也能有效的对表格中表格的段落进行识别,有效的避免漏翻的情况。
作为优选,在扫描解析XML格式文件之前还包括文本转换步骤,该步骤具体为:若原文为word文件,则直接将其转换为XML格式的文件;若原文为PDF格式的文件,先将其转换为word文件再转换为XML格式的文件。
进一步的,所述word文件为2003以后的版本文件,若word文件为2003以前的版本,还包括版本转化步骤。由于2003以前的word版本转化为XML格式后,其段落标志没有wp标签,故许对其进行版本转化。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明利用XPath对XML格式文件进行扫描解析,通过识别wp标签实现对段落得识别,有效的避免表格嵌表格时,表格中表格的段落不能被识别出线漏翻的情况。
附图说明
图1为表格嵌表格的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
一种基于翻译的word文档解析方法,包括以下步骤,
利用XPath扫描解析XML格式文件,获得XML格式文件中的wp标签,包括对页眉、页脚和正文的扫描;
根据扫描得到的wp标签内容构造POI段落,POI即Apache POI,是创建和维护操作各种符合Office Open XML标准和微软的OLE 2复合文档格式的Java API;
解析段落中原文文本和样式,记录wp在文件中的位置信息并编号。原文文本和样式的解析即将原文翻译成html,主要有两方面的用处:1)用html来记录原文的内容和它的样式,原文内容是指文件中的文字,样式是指文字上具有的样式如:加粗,下划线,文字颜色等,这样使得文件内容和样式能在翻译网页进行展示。2)用户在网页上对译文设置样式后,在进行译文回填时还需从html中解析得到译文保存到文件时所需要设置和译文内容和样式,这样才能使得文件中保存的译文内容和样式与用户在网页上设置的译文样式一致。记录wp在文件中的位置信息并编号即记录每段的段数信息,为译文的回填做准备。
POI的段落提供了很多操作接口方便用户在word段落上进行各种操作。如果用户自行处理表示word段落的xml数据很容易出现错误且程序的执行效率不高。
实施例2
上述实施例适用于2003以后的word版本文件,若其为2003以前的word版本或PDF文件,则在上述实施例的步骤之前,还包括版本转化步骤,具体为:将word文件转化为2003以后的word版本文件;若原文为PDF格式的文件,先将其转换为2003以后的word版本。
接下来将2003以后的word版本转换为XML格式的文件。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优译信息技术股份有限公司,未经成都优译信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611180452.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:儿童安全座椅(CC01)
- 下一篇:儿童安全座椅(CC02)