[发明专利]一种基于正则化与数据增广的稀疏数据处理方法有效
申请号: | 201910848415.7 | 申请日: | 2019-09-09 |
公开(公告)号: | CN110543918B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 王海;任哲;冯通;秦晨光;蒋阳;高岭;郑杰;杨旭东 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F18/15 | 分类号: | G06F18/15;G06F18/214;G06F18/241;G06N20/00 |
代理公司: | 西安西达专利代理有限责任公司 61202 | 代理人: | 刘华 |
地址: | 710069 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于正则化与数据增广的稀疏数据处理方法,针对不同特征的数据进行处理,对待处理的稀疏数据依据属性信息进行分类,分类后再采用正则化以及数据增广的不同方法进行处理。依据数据集中的属性是否可删减将待处理数据分为两类。对于属性不可删减的一类采用正则化算法对其进行处理,向目标函数增加一个正则化项,以防止最终的结果陷入过拟合的状态。对于属性可删减的一类采用数据增广的算法对其进行处理,首先找到关键位置,以关键位置为基础进行轨迹的翻转、裁剪、局部放大等手段进行数据扩充,这样的手段可以保证数据的可用性不会下降。使数据满足服务需求,拥有良好的泛化性能,为进一步的工作提供数据支持。 | ||
搜索关键词: | 一种 基于 正则 数据 增广 稀疏 数据处理 方法 | ||
【主权项】:
1.一种基于正则化与数据增广的稀疏数据处理方法,其特征在于,包括以下步骤:/n1)针对实验所需的具体的数据集如轨迹数据集,在这样的数据集中由于数据采集条件的限制,会产生不符合处理要求的样本,找出需要进行处理的稀疏数据;/n2)对步骤1)的稀疏数据,查询稀疏数据的基本属性,并根据基本属性进行分类,分类标准为基本属性中是否存在可删减属性,所述的可删减属性包括社交账号、身高、体重;/n3)将步骤2)中分类好的数据采用下述a、b两种方法进行处理:/na、若数据集基本属性无法进行删减,对其使用机器学习中的正则化算法,即通过加入正则项来防止数据过拟合;/n①由于存在大量基本属性,需要在数据处理过程即代价函数计算过程中加入正则化项 此时,代价函数如下:/n /n其中C0为原始代价函数;n为数据集中样本数量;λ是正则项系数,用来权衡正则项与C0项的比重;/n②做出上述更改后,ω的更新方式如下:/n /n其中, 是求偏导;ω权重,通过调节w来防止过拟合;η更新w时进行梯度下降值;/nb、若基本属性能够进行删减,删减后属性个数n小于数据样本个数m,对其使用数据增广的方法来扩大数据量,对删减属性后的新数据进行进一步的处理,处理的方法采用对截取路径进行数据翻转,数据裁剪,数据局部放大手段来进行数据集的扩充;/n①找出整段轨迹中的驻留点,即用户在此处有停留,在此处将驻留点看作整段轨迹的关键点,对相邻驻留点之间的位置进行补充;/n②对关键点以及关键点附近的位置点进行放大使之成为一条完整轨迹;/n③对整段轨迹进行裁剪,将一整段轨迹进行裁剪,使其成为多条小段轨迹;/n经过上述处理,输出数据结果为新的数据集,该数据集中样本数量较原数据集增加。/n4)对步骤3)的b步骤中输出的新数据集数据再使用相应的机器学习算法如深度学习算法进行处理。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910848415.7/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置