[发明专利]自动识别文件编码的方法及计算机可读存储介质有效

申请号：	202110207832.0	申请日：	2019-04-19
公开（公告）号：	CN113064863B	公开（公告）日：	2022-06-07
发明（设计）人：	刘德建;陈丛亮;郭玉湖	申请（专利权）人：	福建天晴数码有限公司
主分类号：	G06F16/16	分类号：	G06F16/16;H03M7/30
代理公司：	福州市博深专利事务所(普通合伙) 35214	代理人：	颜丽蓉
地址：	350000 福建省福州市开发区君竹路8***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自动识别文件编码方法计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种自动识别文件编码识别方法及计算机可读存储介质，方法包括：采集样本文件；分别将样本文件的文件编码转换为预设的各编码，生成各编码对应的正向字词库；分别将样本文件通过与其文件编码不同的其他编码进行解码，得到乱码文件并记录编码转化方向；根据乱码文件，生成其编码转化方向对应的反向字词库；获取待识别文件；依次通过一编码对待识别文件进行解码；获取解码后的待识别文件中的词语和单字，并分别将词语和单字在对应的正向字词库以及反向字词库中进行匹配，得到正向匹配数和反向匹配数；若正向匹配数大于反向匹配数，则将一编码作为待识别文件的文件编码。本发明可正确识别出文件编码。

本案是以申请日为2019年04月19日，申请号为201910317628.7，名称为“文件编码的识别方法及计算机可读存储介质”的发明专利为母案而进行的分案申请。

技术领域

本发明涉及编码识别技术领域，尤其涉及一种文件编码的识别方法及计算机可读存储介质。

背景技术

目前存在着多种编码方式，因此，要想打开一个文本文件，就必须知道它的编码方式，否则用错误的编码方式解读，就会出现乱码。

现有技术中对文件编码的判断，只能根据文件的前3个字节判断是否是UTF-8(8-bit Unicode Transformation Format，一种针对Unicode的可变长度字符编码，又称万国码)的文件编码，而其他文件编码则没有任何明显的特征可判断，只能让用户自己选择查看文件的编码，如果用户选择的编码不正确则会出现乱码。

发明内容

本发明所要解决的技术问题是：提供一种文件编码的识别方法及计算机可读存储介质，可正确识别出文件编码，防止出现乱码。

为了解决上述技术问题，本发明采用的技术方案为：一种文件编码的识别方法，包括：

采集样本文件，所述样本文件包括各种语言的非乱码文本；

分别将所述样本文件的文件编码转换为预设的编码集合中的各编码，并根据转换后的样本文件，生成各编码对应的正向字词库；

分别将所述样本文件通过所述编码集合中与其文件编码不同的其他编码进行解码，得到乱码文件，并记录所述乱码文件的编码转化方向，所述编码转化方向包括文件编码和解码编码；

根据所述乱码文件，生成其编码转化方向对应的反向字词库；

获取待识别文件；

依次通过所述编码集合中的一编码对所述待识别文件进行解码；

获取解码后的待识别文件中的词语和单字，并分别将所述词语和单字在所述一编码对应的正向字词库以及第一编码转化方向对应的反向字词库中进行匹配，得到正向匹配数和反向匹配数，所述第一编码转化方向中的解码编码为所述一编码；

若所述正向匹配数大于所述反向匹配数，则将所述一编码作为所述待识别文件的文件编码。

本发明还涉及一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的步骤。