[发明专利]基于偏标记学习的用户所在商铺定位大数据预测方法有效
申请号: | 201910313789.9 | 申请日: | 2019-04-18 |
公开(公告)号: | CN110060102B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 王进;闵子剑;孙开伟;许景益;邓欣;刘彬 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06N7/00;G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明请求保护一种基于偏标记学习的用户所在商铺定位大数据预测方法,包括:101对用户的购物状态数据进行预处理操作;102根据每个样本所对应的候选商铺集合构建偏标记数据集;103对偏标记数据集进行特征提取操作;104根据特征空间构建相似度图;105根据相似度图进行概率传播;106通过传播所收敛的概率,从偏标记数据集的候选商铺集合中预测出用户未来有行为互动的商铺。本发明主要是通过对用户历史数据进行预处理,提取特征,转换偏标记数据集,建立偏标记学习模型,根据用户的位置行为的偏标记数据集,从每个用户所对应的候选商铺集合中预测出用户未来有行为互动的商铺,使得用户能够获得更为精准的个性化推送服务,提高用户的购物体验。 | ||
搜索关键词: | 基于 标记 学习 用户 所在 定位 数据 预测 方法 | ||
【主权项】:
1.一种基于偏标记学习的用户所在商铺定位大数据预测方法,其特征在于,包括以下步骤:101.对用户的位置行为数据进行包括异常样本清洗、缺失Wi‑Fi信息填充在内的预处理操作;102.根据每个样本所对应的候选商铺集合,数据集中的每个样本为某一个用户对应的一种购物状态,每个用户的不同购物状态对应于不同的候选商铺集合,每个样本的候选商铺集合根据一定的规则获取,对于每个样本,此规则可以概括为三个步骤:1、根据距离找到离此用户当前购物状态最近的10个商铺;2、根据优化一个创新的凸二次规划问题,来求解这10个店铺对于此用户当前购物状态的重要性;3、根据重要性,选择重要性大于阈值0.4的商铺作为候选商铺集合,构建偏标记数据集;103.对偏标记数据集进行特征提取操作,提取Wi‑Fi距离强度特征向量的特征组成特征空间,该特征向量类似于ONE‑HOT特征向量,特征向量的每一维代表为数据集出现的每一种Wi‑Fi在该用户当前购物状态下的距离强度值;104.根据特征空间构建相似度图,具体包括:对于数据集中的每一个样本xi,重复性地做相同的操作:1、将xi当作相似度图的一个结点;2、将xi看作中心点,根据xi与数据集中的其他样本之间Wi‑Fi距离强度特征向量的欧氏距离,为xi选取欧氏距离最小的10个样本,然后根据xi与选取的这10个样本,xi可以看作是这10个样本的中心样本点,在相似图中将其在图中所对应的结点用边连接起来;105.根据相似度图进行概率传播;对于数据集中的每一个样本xi,重复性地做相同的操作:1、初始化:根据似然函数(公式(6))计算最优参数,从而计算出xi所对应的候选商铺集合中的每个候选商铺可能互动的概率,将此概率分布作为xi所对应的候选商铺集合中的每个候选商铺的初始化概率分布;2、对于概率传播算法的第t次迭代:根据基于相似图的公式获得第t次迭代的xi所对应的候选商铺的概率分布,实现第t次迭代的概率传播,计算这个公式的过程就是一次概率传播的过程,此传播过程只能实现相似图中每条边所对应的两个结点之间的传播,由于在传播的过程中可能会导致不在xi所对应的候选商铺集合的商铺的互动概率不为0,因此要对所有商铺相对于xi的互动概率进行消歧归一化,a、对于非候选商铺集合的商铺的互动概率置为0;b、对于候选商铺集合的商铺的互动概率进行最大最小归一化。106.通过步骤105概率传播所收敛的概率,从偏标记数据集的候选商铺集合中预测出用户未来有行为互动的商铺。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910313789.9/,转载请声明来源钻瓜专利网。