[发明专利]UTF-8编码与GB2312编码识别方法及装置在审
申请号: | 202211024171.9 | 申请日: | 2022-08-24 |
公开(公告)号: | CN115373686A | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 曹红光 | 申请(专利权)人: | 北京中科网威信息技术有限公司 |
主分类号: | G06F8/41 | 分类号: | G06F8/41;G06F8/34 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张文玄 |
地址: | 100094 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | utf 编码 gb2312 识别 方法 装置 | ||
1.一种UTF-8编码与GB2312编码识别方法,其特征在于,包括:
确定待识别字符串的长度,和所述待识别字符串中包括的最高位为0的字节数;
在确定所述字节数与所述长度相等的情况下,确定所述待识别字符串的编码方式为UTF-8编码;
在确定所述字节数小于所述长度的情况下,判断所述字节数和/或所述长度是否满足第一预设条件;
在确定所述字节数和/或所述长度满足所述第一预设条件的情况下,确定所述待识别字符串的编码方式为GB2312编码;
其中,所述第一预设条件包括以下任意一项:
所述长度小于3;
所述长度大于或等于3,且所述长度与所述字节数的差值不是3的整数倍。
2.根据权利要求1所述的UTF-8编码与GB2312编码识别方法,其特征在于,所述方法还包括:
在确定所述字节数和/或所述长度不满足所述第一预设条件的情况下,遍历所述待识别字符串,确定当前遍历到的所述待识别字符串中的目标字节,和所述目标字节对应的索引值;
在确定所述目标字节的最高位为1,且所述长度与所述索引值的差值小于或等于2的情况下,确定所述待识别字符串的编码方式为GB2312编码。
3.根据权利要求2所述的UTF-8编码与GB2312编码识别方法,其特征在于,在确定当前遍历到的所述待识别字符串中的目标字节之后,所述方法还包括:
判断所述目标字节的编码值是否满足第二预设条件;
在确定所述目标字节的编码值满足所述第二预设条件的情况下,确定所述待识别字符串的编码方式为GB2312编码;
其中,所述第二预设条件包括以下任意一项:
所述目标字节的编码值小于0xE0;
所述目标字节的编码值大于或等于0xF0。
4.根据权利要求2或3所述的UTF-8编码与GB2312编码识别方法,其特征在于,在确定当前遍历到的所述待识别字符串中的目标字节之后,所述方法还包括:
确定所述待识别字符串的开始位置;
判断所述开始位置后面的第i+1个字节的最高两位是否分别是1和0;
在确定所述开始位置后面的第i+1个字节的最高两位不是1和0的情况下,确定所述待识别字符串的编码方式为GB2312编码;
其中,i表示所述目标字节对应的索引值。
5.根据权利要求4所述的UTF-8编码与GB2312编码识别方法,其特征在于,在确定所述待识别字符串的开始位置之后,所述方法还包括:
判断所述开始位置后面的第i+2个字节的最高两位是否分别是1和0;
在确定所述开始位置后面的第i+2个字节的最高两位不是1和0的情况下,确定所述待识别字符串的编码方式为GB2312编码。
6.根据权利要求1所述的UTF-8编码与GB2312编码识别方法,其特征在于,所述方法还包括:
按照所述待识别字符串的编码方式显示所述待识别字符串。
7.一种UTF-8编码与GB2312编码识别装置,其特征在于,包括:
第一确定模块,用于确定待识别字符串的长度,和所述待识别字符串中包括的最高位为0的字节数;
第二确定模块,用于在确定所述字节数与所述长度相等的情况下,确定所述待识别字符串的编码方式为UTF-8编码;
判断模块,用于在确定所述字节数小于所述长度的情况下,判断所述字节数和/或所述长度是否满足第一预设条件;
第三确定模块,用于在确定所述字节数和/或所述长度满足所述第一预设条件的情况下,确定所述待识别字符串的编码方式为GB2312编码;
其中,所述第一预设条件包括以下任意一项:
所述长度小于3;
所述长度大于或等于3,且所述长度与所述字节数的差值不是3的整数倍。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科网威信息技术有限公司,未经北京中科网威信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211024171.9/1.html,转载请声明来源钻瓜专利网。