[发明专利]一种基于DPI解析与决策树模型的用户画像识别方法在审
申请号: | 202110434413.0 | 申请日: | 2021-04-22 |
公开(公告)号: | CN113312531A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 陈曦;蓝志坚;林炫宇 | 申请(专利权)人: | 广州丰石科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510640 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dpi 解析 决策树 模型 用户 画像 识别 方法 | ||
1.一种基于DPI解析与决策树模型的用户画像识别方法,其特征在于,包括以下步骤:
S1:获取移动大数据平台的用户各维度数据及互联网数据;
S2:对获取的互联网数据进行深度报文检测得到解析后的互联网数据;
S3:对移动大数据平台的用户各维度数据和解析后的互联网数据进行数据预处理;
S4:构建决策树模型,将预处理后的数据作为模型的输入,输出预测类别;
S5:选择评估指标对模型进行评估得到准确率符合要求的模型。
2.根据权利要求1所述的一种基于DPI解析与决策树模型的用户画像识别方法,其特征在于,获取互联网数据的具体步骤为:
S101:创建爬虫项目project,创建爬虫文件spider;
S102:定义item文件,定义需要爬取的数据字段;
S103:处理爬虫文件spider,定义爬取网页URL,解析网页数据字段,传入item;
S104:处理爬虫中间件Middlewares,在中间件中定义爬虫请求头、爬虫代理信息;
S105:处理管道文件Pipeline,负责在爬虫文件中获取的item文件,并进行后续的筛选、存储;
S106:配置爬虫文件settings,设置robots协议,启动下载延迟、中间件和管道文件。
3.根据权利要求1所述的一种基于DPI解析与决策树模型的用户画像识别方法,其特征在于,步骤S2中对获取的互联网数据进行深度报文检测得到解析后的互联网数据具体步骤如下:
S201:确认识别目标,将互联网数据内容分类映射到内容分类体系,形成数字内容库;
S202:抓包提取字段以及XDR话单特征提取,扫描字符特征http、user_agent、referrer、uri、host、cookies,对应符合特征更新app_id、srv_app_id;
S203:扫描ac特征项的规则的其它ip、port、content_length、sdl规则项,更新符合特征的app_id、srv_app_id;
S204:扫描没有ac特征项的规则的其它ip、port、content_length、sdl规则项,更新符合特征的app_id、srv_app_id;
S205:结合S1爬取的互联网络数据内容进行规则匹配;
S206:输出深度检测的解析结果。
4.根据权利要求1所述的一种基于DPI解析与决策树模型的用户画像识别方法,其特征在于,步骤S3数据预处理的具体过程为:
S301:去掉重复值;
S302:根据特征概率分别对分类变量和连续变量缺失值处理;
S303:分别对分类变量和连续变量进行编码转换为输入向量。
5.根据权利要求1所述的一种基于DPI解析与决策树模型的用户画像识别方法,其特征在于,构建决策树模型,将预处理后的数据作为模型的输入,输出预测类别具体步骤为:
S401:划分训练集和测试集,输入特征向量,给定阈值ε,初始化模型;
S402:选择目标特征作为根节点,选择数据集D中样本的某一类特征样本作为子节点;
S403:计算基尼系数,计算公式:其中pi表示第i种分类的样本率,N表示样本集D中样本总数,Ni表示第i个分类的样本数量,当基尼系数小于阈值,返回决策树,当前节点停止递归;
S404:根据基尼系数对子节点进行决策,选择基尼系数最小的特征作为最优划分,产生叶节点;
S405:递归所有节点的训练步骤S403,S404生成决策树;
S406:采用后剪枝方法对树进行优化,根据损失函数确定是否剪枝,选择交叉验证结果好的子树作为最优决策树;
S407:输出最优决策树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州丰石科技有限公司,未经广州丰石科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110434413.0/1.html,转载请声明来源钻瓜专利网。