[发明专利]检测文件编码的方法、装置、存储介质以及电子设备在审
申请号: | 202211521149.5 | 申请日: | 2022-11-30 |
公开(公告)号: | CN115712599A | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 朱宏波;徐东明;马单 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 董文倩 |
地址: | 100033*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 文件 编码 方法 装置 存储 介质 以及 电子设备 | ||
1.一种检测文件编码的方法,其特征在于,包括:
接收待检测文件;
获取所述待检测文件所对应的字节流数据的目标字节,根据所述目标字节判断所述待检测文件是否为规范编码格式类型;
在所述待检测文件是非规范编码格式类型的情况下,将所述待检测文件所属的字节流数据均匀划分,得到字节流段集合,其中,所述非规范编码格式类型包含多种指定编码格式;
根据各个所述字节流段的编码格式从非规范编码格式类型所对应的编码格式集合中确定所述待检测文件的编码格式。
2.根据权利要求1所述的方法,其特征在于,根据所述目标字节判断所述待检测文件是否为规范编码格式类型,包括:
判断所述目标字节是否具有字节顺序标记BOM;
在所述目标字节具有所述BOM的情况下,确定所述待检测文件的编码格式类型为规范编码格式类型;
在所述目标字节不具有所述BOM的情况下,确定所述待检测文件的编码格式类型为非规范编码格式类型。
3.根据权利要求1所述的方法,其特征在于,将所述待检测文件所属的字节流数据均匀划分,包括:
确定所述字节流数据的总长度;
依据所述总长度和预定数量确定单位长度,其中,预定数量的单位长度之和等于所述总长度;
将所述字节流数据按照所述单位长度进行均匀划分。
4.根据权利要求1所述的方法,其特征在于,根据各个所述字节流段的编码格式从非规范编码格式类型所对应的编码格式集合中确定所述待检测文件的编码格式,包括:
检测各个所述字节流段的编码格式;
确定所述字节流段集合中属于乱码格式的字节流段数量;
比较所述字节流段数量与预设阈值;
依据比较结果判断所述待检测文件是否为乱码格式。
5.根据权利要求4所述的方法,其特征在于,依据比较结果判断所述待检测文件是否为乱码格式,包括:
在所述字节流段数量大于所述预设阈值的情况下,确定所述待检测文件为乱码格式;
在所述字节流段数量小于所述预设阈值的情况下,确定所述字节流段集合中其他编码格式的字节流段数量;
根据所述其他编码格式的字节流段数量确定所述待检测文件的编码格式,其中,所述其他编码格式为除乱码格式之外的编码格式。
6.根据权利要求5所述的方法,其特征在于,根据所述其他编码格式的字节流段数量确定所述待检测文件的编码格式,包括:
确定所述字节流段集合中数量最多的编码格式的字节流段,将所述数量最多的编码格式作为所述待检测文件的编码格式。
7.根据权利要求6所述的方法,其特征在于,确定所述字节流段集合中数量最多的编码格式的字节流段,包括:
在所述字节流段集合中乱码格式的字节流段数量最多且所述乱码格式的字节流段数量未超过所述预设阈值的情况下,确定所述字节流段集合中其他编码格式的字节流段数量;
确定所述字节流段集合中除乱码格式之外数量最多的编码格式的字节流段。
8.一种检测文件编码的方法,其特征在于,包括:
目标设备接收待检测文件;
确定待检测文件的编码类型,所述类型包括:规范编码格式类型和非规范编码格式类型;
从所述目标设备预先存储的检测方法中确定与编码类型对应的目标检测方法,其中,所述检测方法用于对待检测文件的编码格式进行检测,且目标设备预先存储的检测方法包括:与规范编码格式类型对应的第一检测方法和与非规范编码格式类型对应的第二检测方法;
采用所述目标检测方法确定所述待检测文件的编码格式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211521149.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像分类方法及装置
- 下一篇:云服务器访问方法、装置、云服务器及存储介质