[发明专利]一种异构源文档静态化html处理方法在审

申请号：	202011073266.0	申请日：	2020-10-09
公开（公告）号：	CN112395833A	公开（公告）日：	2021-02-23
发明（设计）人：	欧阳静;冯光璐;倪凡;舒彧;曾路;黄莉雅;李然	申请（专利权）人：	贵州电网有限责任公司
主分类号：	G06F40/154	分类号：	G06F40/154
代理公司：	成都玖和知识产权代理事务所(普通合伙) 51238	代理人：	胡琳梅
地址：	550000 贵***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种异构源文档静态 html 处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种异构源文档静态化html处理方法，通过将不同源文档统一转换为PDF，再将PDF转换为HTML，从而避降低了将文档直接转换为html的难度，也避免了文档直接转换为html可能会造成的样式错乱及内容丢失的情况。从而提升了工作效率，也便于数据存储和文件传输。

技术领域

本发明涉及数据文件处理技术领域，特别涉及一种异构源文档静态化html处理方法。

背景技术

现有技术实现文档在线浏览主要有以下几种方案：1. 客户端浏览器插件；2. 将文档转换为图片；3. 通过POI等工具将文档转换为HTML，以上第一针方式需要客户端浏览器安装相应插件，增加了客户端的压力，容易引起用户的反感，且不同的文档源需要不同的插件支持，第二种方式将文档转换为图片后在线浏览，此种方式会导致文档内容不可选，不方便用户操作；第三种方式通过POI等工具进行转换，由于不同源的文档结构不同，解析难度较大，且解析后悔出现样式错乱，文本丢失等问题。

发明内容

有鉴于此，本发明的目的是提供一种异构源文档静态化html处理方法。能够解决背景技术中存在的问题。

本发明的目的是通过以下技术方案实现的：

本发明的第一方面的目的是提供一种异构源文档静态化html处理方法，包括

读取文档；

判断文档格式不是PDF文档格式时，则根据当前操作系统判断，根据不同的操作系统选用不同的转换模块进行格式转换；

将不同源的文档统一转换为PDF格式。

特别地，如果是windows操作系统且文档格式为WPS文档格式，则调用WPS应用程序进行转换，如果是office文档格式，则调用office应用程序进行转换；若操作系统位Linux，则调用LibreOffice进行转换；将不同源的文档统一转换为PDF格式。

特别地，在将不同源的文档统一转换为PDF格式后，加载PDF文件，调用pdf2htmlEX进行转换，得到html格式文档。

特别地，对于含有目录结构的PDF可以提取出文档目录，方便web端浏览时进行快速导航操作。、

特别地，对转换后的html进行预处理，处理内容包括html文档样式转换为源文档演示，部分转换出错标签处理。

特别地，所述office文档格式包括Word、PPT、excel、visio文档格式。