[发明专利]一种将Word文件转换为EPUB文件的方法及系统有效
申请号: | 201810071710.1 | 申请日: | 2018-01-25 |
公开(公告)号: | CN110083805B | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 高良才;陈嘉云;汤帜 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/14 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 word 文件 转换 epub 方法 系统 | ||
1.一种将Word文件转换为EPUB文件的方法,包括如下步骤:
1)解析待转换的Word源文件:对待转换的Word源文件进行解析,生成相应的资源文件及文件夹,包括多个XML文件和图片文件;所述待转换的源Word文件为.docx格式文件,遵循基于ZIP+XML格式的OOXML电子文件规范;解析得到的XML文档遵循OOXML电子文件规范;
2)解析XML文件:对得到的资源文件中的多个XML文件进行XML解析,提取得到Word源文件的文本、段落、字体字号、标题信息;
3)拆分Word源文件:利用步骤2)的解析XML的结果,提取得到Word源文档的目录结构,根据相应的章节结构将Word源文件拆分为多个Word子文件;
4)生成HTML文件:将各个子文件转换为HTML文件;
具体是:针对拆分得到的Word子文件,根据XML解析结果,生成HTML的资源索引文件,对应Word子文件中出现的图片文件资源地址;结合Word文本内容,将各个子文件转换为相应的HTML格式文件,用于合成EPUB格式文件,并对应转换后的EPUB目录链接地址;
5)生成EPUB文件:根据步骤4)生成的HTML文件、资源索引文件和步骤3)得到的目录结构,打包生成EPUB格式文件。
2.如权利要求1所述的将Word文件转换为EPUB文件的方法,其特征是,步骤1)解析待转换的Word源文件,具体是:将Word源文件后缀名修改为.zip,使用解压软件对.zip文件进行解压,得到[Content_Types].xml文件、docProps文件夹和word文件夹;其中[Content_Types].xml文件记录包含的所有文件的名称及类型;docProps文件夹包含app.xml文件、core.xml文件和thumbnail.emf文件;word文件夹包含document.xml文件、footnotes.xml文件、endnotes.xml文件、styles.xml文件、numbering.xml文件和media文件夹。
3.如权利要求2所述的将Word文件转换为EPUB文件的方法,其特征是,步骤2)解析XML文件具体利用XML文档解析工具,解析资源文件中的多个XML文件中嵌套的XML文档结构;XML标签元素包括段落、文本、表格、编号、节、样式、字体、标题、页脚、域、链接、目录;XML文档解析步骤包括划分数据块、利用多线程并行解析各数据块、识别数据标签、识别数据属性内容和后处理过程;由此获取Word源文件的文档内容及相关样式。
4.如权利要求1所述的将Word文件转换为EPUB文件的方法,其特征是,步骤3)拆分Word源文件包括以下情况:
a)若Word源文件包含目录结构,则对Word源文件进行目录识别,得到Word源文件的目录;解析得到的Word源文件的document.xml文件中包含TOC目录域,通过包含标题层级、特定样式的TOC域表示目录结构,提取相应标签内容,直接转换为EPUB文件的目录结构;
b)若Word源文件不包含目录结构,但存在包含纯文本内容的目录页,目录页包含特定的排版特征,利用排版特征筛选并确定目录页,进一步解析目录页,提炼标题与页码,再匹配到对应的文档内容,由此生成目录结构;
c)若Word源文件不包含目录结构或具有排版特征的目录页,则对Word源文件进行标题识别,采用支持向量机SVM分类方法,根据页面空白、章标题字体、页眉页脚的分析结果,提取文档的各项标题与相应的段落内容;并利用相同层级标题之间风格一致性的特点,采用聚类的方法提炼出标题间的层级结构,从而生成相应的目录。
5.如权利要求1所述的将Word文件转换为EPUB文件的方法,其特征是,步骤5)生成EPUB文件具体是:
首先在目标存放位置添加mimetype文件,用于声明EPUB格式;
根据目录结构,创建EPUB的ncx文件,添加以HTML文件名称为标识的导航链接,从而生成EPUB的文件目录;
创建opf文件、container.xml文件,并拷贝HTML文件及其对应的资源文件;
最后将上述文件打包,最终生成EPUB格式文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810071710.1/1.html,转载请声明来源钻瓜专利网。