[发明专利]一种使用累计梯度信息的高维流数据稀疏在线分类方法在审
申请号: | 202110483055.2 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113434543A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 高堃;高阳 | 申请(专利权)人: | 南京大学;江苏万维艾斯网络智能产业创新中心有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2458;G06K9/62;G06N20/00 |
代理公司: | 南京泰普专利代理事务所(普通合伙) 32360 | 代理人: | 房小颖 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 累计 梯度 信息 高维流 数据 稀疏 在线 分类 方法 | ||
本发明提供了一种累积梯度信息追踪高维流数据概念漂移的流数据在线分类方法,属于人工智能和信息挖掘的交叉领域。本专利使用累积梯度信息来对高维流数据在线分类方法进行优化解求解,使用不变的学习步长以获得好的追踪性能,使用确定的截断误差对模型进行稀疏化操作。本方法可以将高维流数据模型计算时间缩短25%以上,提升高维流数据在线分类效率,提升高维流数据的信息挖掘能力。
技术领域
本发明涉及一种使用累计梯度信息的高维流数据稀疏在线分类方法,特别是涉及人工智能和信息挖掘交叉领域技术领域。
背景技术
当今我们生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和社会。这些技术使得人们可以接触到大量数据。大量数据在给人们带来方便的同时也带来了另一个问题:如何才能不被数据淹没,而是从中及时发现有用的信息。数据挖掘试图从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。在大型数据集中,数据挖掘通过机器学习、人工智能、统计学等交叉方法发现知识。
经历了多年的研究,数据挖掘已发展成为一个庞大的学科,主要包含分类、关联规则、聚类等。近年来出现了一些新的应用,这些应用的典型特点是数据以序列的形式出现,比如传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等。这种数据形式称为数据流。由于数据流的特殊性:短时间内有大量数据连续到达,这些数据具有随时间动态变化的趋势,怎样对这些流数据使用有限存储空间进行快速处理以获取有用信息,为数据挖掘及其应用研究带来了新的机遇和挑战。
数据流上的分类问题具有广泛的应用背景,包括:信用卡欺诈消费行为的监测、传感器网络数据中的异常监测、网络日志分析等。数据流的数据无限、概念漂移等特点使得数据流上的分类模型不同于传统的分类模型,需要能够快速的处理流入的数据,并且及时对模型进行调整已反映新的分类信息
高维流数据面临两个主要挑战:维度诅咒,在高维应用领域中,许多特征对于预测的输出类标无关,却占据了大量的特征数目在这样的领域中,使用定义在所有维度上的超平面进行预测的标准线性分类算法容易过拟合数据;概念漂移:这与输入数据和输出类标之间关系的逐渐变化有关,其中最优的预测模型容易随着时间发生变化。
发明内容
发明目的:一个目的是提出一种使用累计梯度信息的高维流数据稀疏在线分类方法,以解决现有技术存在的上述问题,提升高维流数据分类效率。
技术方案:第一方面,提出了一种使用累计梯度信息的高维流数据稀疏在线分类方法,该方法包括如下步骤:
步骤1、建立流数据分类任务模型:该模型包括流数据维度,各维度类型,传输时间间隔;
步骤2、初始化任务模型,初始化任务参数,接收数据源的流数据,对数据进行反序列化;
步骤3、对数据进行哈希处理,使得数据成为更高维度的数据,得到充分训练;
步骤4、通过梯度下降的方式得到参数的中间解;
步骤5、对中间解进行稀疏化操作,得到稀疏模型参数。
在第一方面的一些可实现方式中,所述步骤1的任务模型,在线分类问题被视为学习算法与其环境之间的一个重复预测游戏;在所述重复预测游戏的第t轮中,环境提供一个新的实例向量,这里假设存在一个常数R使得对于任意的t,都成立,然后学习算法被要求选择一个预测器来预测的类标,一旦算法提交它的预测,的真实类标就被环境揭示,算法因此受到一个损失:
式中,表示正则化参数;该损失衡量了预测类标和真实类标之间的差异;此处任务具体表达为一个至少包含2个维度的数组M和一个时间配置信息,M第一位为数据流的特征维度数目,第二维开始表示数据流每一维特征的数据类型,包括整形、浮点型、字符串类型。
在第一方面的一些可实现方式中,所述步骤2的初始化参数方式为:
k=1,设定允许接受的最小特征值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学;江苏万维艾斯网络智能产业创新中心有限公司,未经南京大学;江苏万维艾斯网络智能产业创新中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110483055.2/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置