[发明专利]一种基于正则化与数据增广的稀疏数据处理方法有效
申请号: | 201910848415.7 | 申请日: | 2019-09-09 |
公开(公告)号: | CN110543918B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 王海;任哲;冯通;秦晨光;蒋阳;高岭;郑杰;杨旭东 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F18/15 | 分类号: | G06F18/15;G06F18/214;G06F18/241;G06N20/00 |
代理公司: | 西安西达专利代理有限责任公司 61202 | 代理人: | 刘华 |
地址: | 710069 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 正则 数据 增广 稀疏 数据处理 方法 | ||
一种基于正则化与数据增广的稀疏数据处理方法,针对不同特征的数据进行处理,对待处理的稀疏数据依据属性信息进行分类,分类后再采用正则化以及数据增广的不同方法进行处理。依据数据集中的属性是否可删减将待处理数据分为两类。对于属性不可删减的一类采用正则化算法对其进行处理,向目标函数增加一个正则化项,以防止最终的结果陷入过拟合的状态。对于属性可删减的一类采用数据增广的算法对其进行处理,首先找到关键位置,以关键位置为基础进行轨迹的翻转、裁剪、局部放大等手段进行数据扩充,这样的手段可以保证数据的可用性不会下降。使数据满足服务需求,拥有良好的泛化性能,为进一步的工作提供数据支持。
技术领域
本发明属于计算机信息安全技术领域,涉及位置信息处理,机器学习正则化算法,具体涉及一种基于正则化与数据增广的稀疏数据处理方法。
背景技术
在信息化大数据时代,数据的处理问题需要耗费极大的物力人力资源。面对庞大的数据,涌现出一大批解决问题的方法,近年来机器学习的方法展现出了强大的能力。机器学习的方法能够从庞大的数据集中挖掘出有效信息,并针对有效信息进行相应处理。但是在实际工作中,不可避免会出现一些数据稀疏的情况,例如,在位置信息的采集过程中,某一时段可能会出现设备故障,信号缺失等一系列问题导致最终采集到的数据不足以支撑学习的要求。在这样的情况下,采集到的数据量大大减少,不足以支撑机器学习的运行条件或运行结果缺乏可扩展性。这样的情况导致不能达到使用机器学习进行数据处理的目的,故这样的情况我们需要尽量避免。虽然我们希望尽量避免这种情况的发生,但是一旦出现这种问题,需要使用有效方法来解决这些问题。
正则化方法是在训练数据不够多产生过拟合时,向原始模型引入额外信息,以便防止过拟合和提高模型泛化(泛化指的是一个假设模型能够应用到新样本的能力)性能的一类方法的统称。在实际的深度学习场景中我们总是会发现,最好的拟合模型是一个适当正则化的大型模型。其中,通过向目标函数添加一个参数范数惩罚Ω(θ)项来降低模型的容量,是一类常用的正则化算法。通常情况下,深度学习中只对网络权重θ添加约束,对偏置项不加约束。主要原因是偏置项一般需要较少的数据就能精确的拟合,不对其正则化也不会引起太大的方差。
另外当训练机器学习模型的时候,实际上是在调整它的参数,使得可以跟一个特定的输入符合。通过数据增广可以提升数据集中的相关数据,能防止网络学习到不相关的特征,更多的学到与数据有关的性能,显著的提升整体的性能。数据增广有两种手段:离线增广与在线增广。离线增广适合相对小一些的数据集,原始数据集的数量跟采用的增广方法成正比。在线增广适合大一些的数据集,承担不起像前者那样的成倍增广,一些机器学习框架也支持被GPU加速过的在线增广。
发明内容
为了克服上述现有技术的不足,本发明的目的是提供一种基于正则化与数据增广的稀疏数据处理方法,针对在实际情况中可能出现的数据稀疏问题,如果直接采用机器学习的方法进行处理,则极容易陷入过拟合的问题。过拟合的问题会导致数据处理的结果不易泛化,会妨碍接下来工作的顺利进行。本发明通过对数据采用正则化的算法和者数据增广的方法对原始数据进行处理,以避免这种情况的发生。
为了实现上述目的,本发明采用的技术方案是:
一种基于正则化与数据增广的稀疏数据处理方法,包括以下步骤:
1)针对实验所需的具体的数据集如轨迹数据集,在这样的数据集中由于数据采集条件的限制,会产生不符合处理要求的样本,找出需要进行处理的稀疏数据;
2)对步骤1)的稀疏数据,查询稀疏数据的基本属性,并根据基本属性进行分类,分类标准为基本属性中是否存在可删减属性,所述的可删减属性包括社交账号、身高、体重;
3)将步骤2)中分类好的数据采用下述a、b两种方法进行处理:
a、若数据集基本属性无法进行删减,对其使用机器学习中正则化算法;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910848415.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置