[发明专利]自动识别文件编码的方法及计算机可读存储介质有效
申请号: | 202110207832.0 | 申请日: | 2019-04-19 |
公开(公告)号: | CN113064863B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 刘德建;陈丛亮;郭玉湖 | 申请(专利权)人: | 福建天晴数码有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;H03M7/30 |
代理公司: | 福州市博深专利事务所(普通合伙) 35214 | 代理人: | 颜丽蓉 |
地址: | 350000 福建省福州市开发区君竹路8*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动识别 文件 编码 方法 计算机 可读 存储 介质 | ||
本发明公开了一种自动识别文件编码识别方法及计算机可读存储介质,方法包括:采集样本文件;分别将样本文件的文件编码转换为预设的各编码,生成各编码对应的正向字词库;分别将样本文件通过与其文件编码不同的其他编码进行解码,得到乱码文件并记录编码转化方向;根据乱码文件,生成其编码转化方向对应的反向字词库;获取待识别文件;依次通过一编码对待识别文件进行解码;获取解码后的待识别文件中的词语和单字,并分别将词语和单字在对应的正向字词库以及反向字词库中进行匹配,得到正向匹配数和反向匹配数;若正向匹配数大于反向匹配数,则将一编码作为待识别文件的文件编码。本发明可正确识别出文件编码。
本案是以申请日为2019年04月19日,申请号为201910317628.7,名称为“文件编码的识别方法及计算机可读存储介质”的发明专利为母案而进行的分案申请。
技术领域
本发明涉及编码识别技术领域,尤其涉及一种文件编码的识别方法及计算机可读存储介质。
背景技术
目前存在着多种编码方式,因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。
现有技术中对文件编码的判断,只能根据文件的前3个字节判断是否是UTF-8(8-bit Unicode Transformation Format,一种针对Unicode的可变长度字符编码,又称万国码)的文件编码,而其他文件编码则没有任何明显的特征可判断,只能让用户自己选择查看文件的编码,如果用户选择的编码不正确则会出现乱码。
发明内容
本发明所要解决的技术问题是:提供一种文件编码的识别方法及计算机可读存储介质,可正确识别出文件编码,防止出现乱码。
为了解决上述技术问题,本发明采用的技术方案为:一种文件编码的识别方法,包括:
采集样本文件,所述样本文件包括各种语言的非乱码文本;
分别将所述样本文件的文件编码转换为预设的编码集合中的各编码,并根据转换后的样本文件,生成各编码对应的正向字词库;
分别将所述样本文件通过所述编码集合中与其文件编码不同的其他编码进行解码,得到乱码文件,并记录所述乱码文件的编码转化方向,所述编码转化方向包括文件编码和解码编码;
根据所述乱码文件,生成其编码转化方向对应的反向字词库;
获取待识别文件;
依次通过所述编码集合中的一编码对所述待识别文件进行解码;
获取解码后的待识别文件中的词语和单字,并分别将所述词语和单字在所述一编码对应的正向字词库以及第一编码转化方向对应的反向字词库中进行匹配,得到正向匹配数和反向匹配数,所述第一编码转化方向中的解码编码为所述一编码;
若所述正向匹配数大于所述反向匹配数,则将所述一编码作为所述待识别文件的文件编码。
本发明还涉及一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的步骤。
本发明的有益效果在于:通过对采集的样本文件进行分析处理,生成正向字词库和反向字词库,后续根据待识别文件与正向字词库和反向字词库的匹配结果,得到待识别文件的文件编码。本发明可对编码方式未知的文件进行正确的编码识别,有效地避免出现乱码。
附图说明
图1为本发明的一种文件编码的识别方法的流程图;
图2为本发明实施例一的方法流程图一;
图3为本发明实施例一的方法流程图二。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图详予说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建天晴数码有限公司,未经福建天晴数码有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110207832.0/2.html,转载请声明来源钻瓜专利网。