[发明专利]一种电子文档处理的方法及装置在审
申请号: | 201710165668.5 | 申请日: | 2017-03-20 |
公开(公告)号: | CN106991083A | 公开(公告)日: | 2017-07-28 |
发明(设计)人: | 甘俊源 | 申请(专利权)人: | 珠海格力电器股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 黄志华 |
地址: | 519070*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子 文档 处理 方法 装置 | ||
技术领域
本发明涉及数据处理技术领域,尤其涉及一种电子文档处理的方法及装置。
背景技术
随着社会信息化的快速发展,电子文档已经成为了各个企业内的一种通用的文件媒介。我们经常需要通过电子文档传输信息,从而保障正常的工作。我们工作中经常用到的电子文档有文字处理器Word、演示文稿PowerPoint、办公软件Excel和便携式文档格式(Portable Document Format、PDF)等等。现如今,我们使用的电子文档,必须使用第三方软件打开,才能获取电子文档的内容,从而限制了电子文档的传播方式。
然而,如何在不使用第三方软件的情况下,获取电子文档的内容,目前还没有解决方案。
发明内容
本发明实施例提供一种电子文档处理的方法及装置,用以解决在不使用第三方软件的情况下,无法获取电子文档的内容的问题
为达到上述目的,本发明实施例公开了一种电子文档处理的方法,应用于电子设备,包括:
将电子文档转换为超文本标记语言HTML文件,读取所述HTML文件,获得所述HTML文件中包含的每个字符串;
根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体大小,确定每个标题对应的字符串、每个标题中的正文对应的字符串;根据读取所述HTML文件的顺序,确定标题间的关联关系;
根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系,将每个字符串写入文本文档TXT文件。
进一步地,所述将每个字符串写入文本文档TXT文件之前,所述方法还包括:
根据每个字符串的内容,识别目录标题对应的字符串;并
根据预先保存的正文对应的字体大小,确定目录标题中的正文对应的字符串;
所述根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系,将每个字符串写入文本文档TXT文件包括:
根据每个标题对应的字符串、每个标题中的正文对应的字符串、标题间的关联关系,及目录标题对应的字符串和目录标题中的正文对应的字符串,将每个字符串写入文本文档TXT文件。
进一步地,所述标题间的关联关系包括:
同一等级的标题间的前后关系及不同等级的标题间的归属关系。
进一步地,所述确定每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系之后,将每个字符串写入文本文档TXT文件之前,所述方法还包括:
确定每个标题的标识信息及每个标题的等级,在数据库中针对每个标题,记录标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串;
所述将每个字符串写入文本文档TXT文件包括:
根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串,将每个字符串写入TXT文件。
进一步地,所述根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串,将每个字符串写入TXT文件之前,所述方法还包括:
判断所述HTML文件中是否还存在未被识别的字符串;
若存在,将所述字符串作为封面字符串并记录在数据库中;
所述根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串,将每个字符串写入TXT文件包括:
根据数据库中记录的封面字符串和针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串,将每个字符串写入文本文档TXT文件。
进一步地,所述根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系,将每个字符串写入文本文档TXT文件包括:
将每个字符串转换为对象表示法JSON数据;
根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系,将对应的JSON数据写入TXT文件。
进一步地,如果电子文档中存在图片,所述方法还包括:
将所述电子文档中的图片保存为图片文件,其中所述HTML文件中记录有图片文件中的每个图片在所述HTML文件中的位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海格力电器股份有限公司,未经珠海格力电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710165668.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多页同类文档碎片的分组方法
- 下一篇:一种文档评估方法及装置