[发明专利]机器学习模型中特征值的确定方法、装置及电子设备有效
申请号: | 201911349227.6 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111163072B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 李文学;史忠伟 | 申请(专利权)人: | 五八有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06N20/00;G06F21/55 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 300450 天津市滨海新区经济技术开*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 学习 模型 特征值 确定 方法 装置 电子设备 | ||
本申请提供了一种机器学习模型中特征值的确定方法、装置、电子设备及存储介质。所述方法包括:先从离线行为数据集合中选取包含目标特征字段的样本数据集合,然后根据当前时间戳信息和每条样本数据对应的时间戳信息,从样本数据集合中确定符合预设取值时间段的目标样本数据集合,再根据用户当前时刻访问服务器产生的在线行为数据,以及目标样本数据集合,确定机器学习模型的特征值。相比于现有技术中采用笛卡尔积方法计算特征值的方式而言,本申请选取的目标样本数据集合的数据量远远小于笛卡尔积方法对应的数据量。进而,一方面能够降低特征值计算的难度,另一方面能够缩短特征及计算所耗费的时间,提高特征值的计算效率。
技术领域
本申请涉及服务器安全技术领域,特别涉及一种机器学习模型中特征值的确定方法、装置、电子设备及存储介质。
背景技术
随着互联网的飞速发展,针对互联网应用的攻击行为也愈加泛滥,服务器提供的应用程序被恶意用户恶意访问,已经成为影响服务器运行安全的重要问题。
目前,通常基于机器学习模型来进行恶意用户的识别,而该机器学习模型是根据用户的历史访问行为的特征值以及用户恶意与否来训练得到的。其中,历史访问行为可以包括IP地址、登录设备、是否查阅帖子和是否回复帖子等行为,相应地,历史访问行为的特征值可以包括“IP地址更换频率”、“登录设备更换频率”、“查阅帖子的数量”和“回复帖子的数量”等。而模型训练的前提是特征值的确定,即如何根据样本数据确定特征值。
现有技术通常采用笛卡尔积的方法计算特征值,即,把样本数据看作是一个集合,包括N条数据记录,那么,采用笛卡尔积的方法就是将每条数据记录自关联后,得到N*N个组合,再分别对每个组合进行计算。但是实际运用过程中,样本数据中包括的数据记录的数量可以达到千万级,采用笛卡尔积的方法计算特征值将直接导致数据量以平方级增长,大大增加了特征值计算的难度,延长了特征值计算所耗费的时间。
基于此,目前亟需一种机器学习模型中特征值的确定方法,用于解决现有技术中采用笛卡尔积方法计算特征值难度高、花费时间长的问题。
发明内容
本申请提供了一种机器学习模型中特征值的确定方法、装置、电子设备及存储介质,可用于解决现有技术中采用笛卡尔积方法计算特征值难度高、花费时间长的技术问题。
第一方面,本申请实施例提供一种机器学习模型中特征值的确定方法,所述方法包括:
获取用户当前时刻访问服务器产生的在线行为数据,所述在线行为数据包括当前时间戳信息和目标特征字段;
从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,所述样本数据集合包括多条样本数据;
根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合;
根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值。
结合第一方面,在第一方面的一种可实现方式中,从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,包括:
根据所述离线行为数据集合中每条离线行为数据对应的用户信息,确定与当前时刻进行访问的用户相匹配的初始样本数据集合;
从所述初始样本数据集合中选取包含所述目标特征字段的样本数据集合。
结合第一方面,在第一方面的一种可实现方式中,根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合,包括:
根据每条样本数据对应的时间戳信息,将所述样本数据按照时间先后顺序进行排序;
根据所述当前时间戳信息以及排序后的样本数据,确定符合所述预设取值时间段的目标样本数据集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五八有限公司,未经五八有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911349227.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度学习的安全帽佩戴检测方法及装置
- 下一篇:地面站资源调度方法