[发明专利]一种文件解析方法、装置、电子设备及存储介质在审
申请号: | 202111476492.8 | 申请日: | 2021-12-06 |
公开(公告)号: | CN114398309A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 张黎;吴洋;张承伟;陈广辉;刘维炜 | 申请(专利权)人: | 合肥闪捷信息科技有限公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/16;G06F16/178;G06F40/205 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 高燕 |
地址: | 230088 安徽省合*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 解析 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种文件解析方法、装置、电子设备及存储介质,包括:(A)确定目标Office文件,目标Office文件为在终端设备上实时操作的Office文件;(B)确定当前层的待解析Office文件的目标文件类型;(C)按照与目标文件类型对应的文件目录解析逻辑,获得待解析Office文件的文件目录;(D)根据文件目录,输出待解析Office文件的文件属性信息和文件内容;(E)根据文件目录,确定待解析Office文件中是否存在嵌套文件;(F)若待解析Office文件中存在嵌套文件,则获取嵌套文件,并将嵌套文件作为待解析Office文件,以返回执行步骤(B)。
技术领域
本申请涉及文件解析技术领域,具体而言,涉及一种文件解析方法、装置、电子设备及存储介质。
背景技术
市面上主流Office嵌套文件套件提供商有微软Microsoft Office、金山WPSOffice、永中Office等,也有一些开源软件如Open Office和Libre Office。上述文件格式类型可归为OLE、ODF和OOXML三大类,不同版本的文件格式也是有差别的。现有的微软Windows API接口、NET NPOI库或Java POI类库等平台对文件进行解析时,通常存在对于嵌套文件解析不完全、文件格式不兼容以及解析效率差的问题。因此需要一种兼容性强、解析内容全面的跨平台Office嵌套文件内容的解析方法。
发明内容
有鉴于此,本申请的目的在于提供一种文件解析方法、装置、电子设备及存储介质,通过一个平台对多种文件格式的Office嵌套文件进行全面的解析。
第一方面,本申请实施例提供一种文件解析方法,包括:(A)确定目标Office文件,目标Office文件为在终端设备上实时操作的Office文件;(B)确定当前层的待解析Office文件的目标文件类型;(C)按照与目标文件类型对应的文件目录解析逻辑,获得待解析Office文件的文件目录;(D)根据文件目录,输出待解析Office文件的文件属性信息和文件内容;(E)根据文件目录,确定待解析Office文件中是否存在嵌套文件;(F)若待解析Office文件中存在嵌套文件,则获取嵌套文件,并将嵌套文件作为待解析Office文件,以返回执行步骤(B)。
优选地,嵌套文件包括多个,其中,步骤(F)包括:(F1)若确定待解析Office文件中存在多个嵌套文件,则遍历多个嵌套文件,并确定i是否等于m,m为当前层的待解析Office文件中的嵌套文件的数量,i的初始值为零;(F2)若i不等于m,则使得i=i+1,并将第i个嵌套文件作为当前层的待解析Office文件,返回执行步骤(B);(F3)若i等于m,则完成对待解析Office文件的解析。
优选地,通过以下方式确定待解析Office文件的目标文件类型:确定待解析Office文件的文件签名,根据文件签名确定待解析Office文件的目标文件类型;和/或确定待解析Office文件的文件拓展名,根据文件拓展名确定待解析Office文件的目标文件类型;和/或确定待解析Office文件的文件目录的数据结构,根据所述数据结构确定待解析Office文件的目标文件类型。
优选地,在初次执行步骤(B)时,当前层的待解析Office文件为目标Office文件本身,在非初次执行步骤(B)时,当前层的待解析Office文件为嵌套文件。
优选地,方法还包括:
针对所述待解析Office文件中确定出的文件内容和/或文件属性,将其转换为与目标Office文件对应的解析文件,其中,文件内容至少包括文字、图片、音视频、压缩包和嵌套文件中的一个或多个,对于文件内容中的文字,将文字转换为txt格式的文本文件;对于文件内容中的图片、音视频或压缩包,根据文件内容的原始格式输出对应的图片、音视频或压缩包;对于文件内容中的嵌套文件,根据所述嵌套文件的文件拓展名输出对应文档格式的Office文件;对于文件内容中的嵌套文件的图标,将嵌套文件的图标转换为emf格式的图片文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥闪捷信息科技有限公司,未经合肥闪捷信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111476492.8/2.html,转载请声明来源钻瓜专利网。