[发明专利]纠正终端型号库的方法及装置、电子设备及介质在审
| 申请号: | 202111588647.7 | 申请日: | 2021-12-23 |
| 公开(公告)号: | CN114265829A | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 王秋森;宫云平;陈喜洲;王金波;王谦;马泽雄;陈园光;邱文川;郑三强 | 申请(专利权)人: | 中国电信股份有限公司 |
| 主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/2458 |
| 代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 孙宝海;阚梓瑄 |
| 地址: | 100033 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 纠正 终端 型号 方法 装置 电子设备 介质 | ||
1.一种纠正终端型号库的方法,其特征在于,包括:
获取用户行为数据中的用户代理数据,基于用户代理数据的识别算法,识别所述用户代理数据中的非标准终端型号;
根据注册上报终端型号库,生成所述非标准终端型号与标准终端型号之间的映射关系;
根据所述非标准终端型号与标准终端型号之间的映射关系,对所述注册上报终端型号库中的终端型号进行纠正。
2.根据权利要求1所述的方法,其特征在于,基于用户代理数据的识别算法,识别所述用户代理数据中的非标准终端型号,包括:
标注所述用户代理数据的类别标签;
根据标注的所述用户代理数据的类别标签,获取各个类别的用户代理数据;
根据预先构建的类别树的自上而下顺序,确定所述各个类别的用户代理数据的数据处理顺序;
按照所述数据处理顺序,对所述各个类别的用户代理数据进行识别处理,获得所述用户代理数据中的非标准终端型号。
3.根据权利要求2所述的方法,其特征在于,所述类别树是按照如下方法预先构建的:
获取样本数据,标注所述样本数据的类别标签;
根据标注的所述样本数据的类别标签,获取各个类别的样本数据;
基于修正的经验熵和修正的条件熵,对所述各个类别的样本数据进行计算,依次提取出所述各个类别的样本数据;
根据所述各个类别的样本数据的提取顺序,构建所述类别树。
4.根据权利要求3所述的方法,其特征在于,基于修正的经验熵和修正的条件熵,对所述各个类别的样本数据进行计算,依次提取出所述各个类别的样本数据,包括:
基于修正的经验熵和修正的条件熵,计算所述各个类别的样本数据对所述样本数据的信息增益;
确定信息增益最大值对应的类别为目标类别,从所述样本数据中提取出所述目标类别的样本数据。
5.根据权利要求4所述的方法,其特征在于,在从所述样本数据中提取出所述目标类别的样本数据之后,所述方法还包括:
获取剩余样本数据;
基于修正的经验熵和修正的条件熵,计算所述剩余样本数据中各个类别的样本数据对所述剩余样本数据的信息增益;
确定信息增益最大值对应的类别为新的目标类别,从所述剩余样本数据中提取出所述新的目标类别的样本数据。
6.根据权利要求3至5任一所述的方法,其特征在于,所述修正的经验熵和所述修正的条件熵包括自定义的修正系数;所述自定义的修正系数是对所述样本数据中的异常数据进行统计得到的;以及,所述异常数据包括识别出来的终端型号为异常值的数据、类别为异常值的数据。
7.根据权利要求2所述的方法,其特征在于,在基于用户代理数据的识别算法,识别所述用户代理数据中的非标准终端型号之后,所述方法还包括:
获取识别结果,根据识别结果对所述类别树进行验证。
8.根据权利要求1所述的方法,其特征在于,根据注册上报终端型号库,生成所述非标准终端型号与标准终端型号之间的映射关系,包括:
将所述非标准终端型号与所述注册上报终端型号库中的注册上报终端型号进行关联,获得与所述非标准终端型号关联的一个或多个注册上报终端型号;
根据所述一个或多个注册上报终端型号的用户数,从所述一个或多个注册上报终端型号中选取目标终端型号;
若所述目标终端型号的用户数大于预设的用户数量阈值、且所述目标终端型号的用户数占所述非标准终端型号的用户数的比例大于预设的比例阈值,则确定所述目标终端型号为所述非标准终端型号对应的标准终端型号,生成所述非标准终端型号与所述目标终端型号之间的映射关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111588647.7/1.html,转载请声明来源钻瓜专利网。





