[发明专利]外卖场景下店铺embedding特征提取的方法有效
申请号: | 201711230471.1 | 申请日: | 2017-11-30 |
公开(公告)号: | CN108009847B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 赵纪伟;杨清海;鲁焕;秦猛 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06K9/62 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪;李霞 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 外卖 场景 店铺 embedding 特征 提取 方法 | ||
1.一种外卖场景下店铺embedding特征提取的方法,其特征在于,所述方法包括以下步骤:
步骤一:提取每个用户消费的行为序列;
步骤二:用户消费行为序列按店铺平均消费价格、店铺类别划分;
步骤三:对于划分后的消费行为序列,提取出训练样本;
步骤四:构建基于负抽样的skip-gram模型,并利用tensorflow框架训练;
步骤五:提取店铺的embedding特征向量;
其中,所述步骤一包括:应用hive提取用户一段时间内的用户所有下单店铺及其ID ,并将user_id—shop_id数据写入表格user_shop,利用 hive构建店铺字典shop_dict,其组织形式为{shop_id:index},其中index为店铺在字典中的顺序;
所述步骤二包括:将原始的user_shop表中的shop_id用字典中shop_idx索引代替;按照店铺的平均客单价、店铺一级类别进行分组去重,获得构建训练样本所需要的doc,其数据组织形式为:{user_id,array shop_id_1,shop_id_2,...,shop_id_m};对context内只有一家店铺的数据进行过滤,最终获得的数据组织形式为:arrayshop_id_1,shop_id_2,...,shop_id_m, 并将其存入HIVE表,用于后续训练样本的构建;
所述步骤三包括:训练样本的构建,利用python进行数据转换,并利用HIVE进行处理;对于每一个context,分别应用 get_train_samples函数构建训练样本,返回trains的RDD;最终获取的RDD写入到HIVE表中,用于接下来训练样本的导出;
所述步骤四包括:构建用于训练的tensorflow图,是整体的训练函数,包括训练数据的获取以及batch的生成;所述构建基于负抽样的skip-gram模型用于使用context的中间店铺来预测其他店铺;
所述步骤五包括:将数据利用t-sne进行可视化,获取店铺的embedding向量的直观感知,将embedding向量映射到2维,对各店铺的距离进行图形化展示。
2.如权利要求1所述的外卖场景下店铺embedding特征提取的方法,其特征在于,所述提取每个用户消费的行为序列具体包括:从数据库中,提取用户一定时间内的用户所有下单店铺及其ID,按照用户ID将数据分组,构建每个用户ID的下单店铺集合,存储到数据库中。
3.如权利要求1所述的外卖场景下店铺embedding特征提取的方法,其特征在于,所述用户消费行为序列按店铺平均消费价格、店铺类别划分具体包括:将提取出的用户下单店铺序列按店铺的平均消费价格划分为多个等级,同时将不同价格区间的店铺划分为子集合。
4.如权利要求1所述的外卖场景下店铺embedding特征提取的方法,其特征在于,所述提取店铺的embedding特征向量具体包括:用tensorflow训练好的向量保存到本地,并在实际操作中提取需要的店铺embedding特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711230471.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种特殊改进结构的纺织面料清洗机
- 下一篇:一种自动喂食鱼缸