[发明专利]一种文件解析方法、装置、电子设备及存储介质在审
申请号: | 202111476492.8 | 申请日: | 2021-12-06 |
公开(公告)号: | CN114398309A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 张黎;吴洋;张承伟;陈广辉;刘维炜 | 申请(专利权)人: | 合肥闪捷信息科技有限公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/16;G06F16/178;G06F40/205 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 高燕 |
地址: | 230088 安徽省合*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 解析 方法 装置 电子设备 存储 介质 | ||
1.一种文件解析方法,其特征在于,包括:
(A)确定目标Office文件;
(B)确定当前层的待解析Office文件的目标文件类型;
(C)按照与所述目标文件类型对应的文件目录解析逻辑,获得所述待解析Office文件的文件目录;
(D)根据所述文件目录,输出所述待解析Office文件的文件属性信息和文件内容;
(E)根据所述文件目录,确定所述待解析Office文件中是否存在嵌套文件;
(F)若所述待解析Office文件中存在嵌套文件,则获取所述嵌套文件,并将所述嵌套文件作为待解析Office文件,以返回执行步骤(B)。
2.根据权利要求1所述的方法,其特征在于,所述嵌套文件包括多个,其中,步骤(F)包括:
(F1)若确定所述待解析Office文件中存在多个嵌套文件,则遍历所述多个嵌套文件,并确定i是否等于m,m为当前层的待解析Office文件中的嵌套文件的数量,i的初始值为零;
(F2)若i不等于m,则使得i=i+1,并将第i个嵌套文件作为当前层的待解析Office文件,返回执行步骤(B);
(F3)若i等于m,则完成对所述待解析Office文件的解析。
3.根据权利要求1所述的方法,其特征在于,通过以下方式确定待解析Office文件的目标文件类型:
确定待解析Office文件的文件签名,根据所述文件签名确定待解析Office文件的目标文件类型;和/或
确定待解析Office文件的文件拓展名,根据所述文件拓展名确定待解析Office文件的目标文件类型;和/或
确定待解析Office文件的文件目录的数据结构,根据所述数据结构确定待解析Office文件的目标文件类型。
4.根据权利要求1所述的方法,其特征在于,在初次执行步骤(B)时,当前层的待解析Office文件为所述目标Office文件本身,
在非初次执行步骤(B)时,当前层的待解析Office文件为嵌套文件。
5.根据权利要求3所述的方法,其特征在于,还包括:
针对所述待解析Office文件的文件内容和/或文件属性,将其转换为与目标Office文件对应的解析文件,其中,所述文件内容至少包括文字、图片、音视频、压缩包和嵌套文件中的一个或多个,
对于文件内容中的文字,将文字转换为txt格式的文本文件;
对于文件内容中的图片、音视频或压缩包,根据文件内容的原始格式输出对应的图片、音视频或压缩包;
对于文件内容中的嵌套文件,根据所述嵌套文件的文件拓展名输出对应文档格式的Office文件;
对于文件内容中的嵌套文件的图标,将嵌套文件的图标转换为emf格式的图片文件。
6.根据权利要求3所述的方法,其特征在于,还包括:
根据待解析Office文件的文件拓展名或文件目录的数据结构,确定待解析Office文件的文件版本;
当确定所述待解析Office文件的文件版本为第一版本时,以列表条目形式展示所述待解析Office文件的文件目录;
当确定所述待解析Office文件的文本版本为第二版本时,以结构树形式展示所述待解析Office文件的文件目录,第一版本的版本等级高于第二版本的版本等级。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥闪捷信息科技有限公司,未经合肥闪捷信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111476492.8/1.html,转载请声明来源钻瓜专利网。