[发明专利]一种基于时空轨迹和社会网络的用户属性预测系统有效
申请号: | 201611141121.3 | 申请日: | 2016-12-12 |
公开(公告)号: | CN106600053B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 王平辉;孙飞扬;王迪;管晓宏;陶敬;张岩;曹鹏飞;贾鹏;胡小雨;曹宇;兰林 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06F16/9537;G06K9/62 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 轨迹 社会 网络 用户 属性 预测 系统 | ||
技术领域
本发明属于数据挖掘技术领域,特别涉及一种基于时空轨迹和社会网络的用户属性预测系统。
背景技术
随着互联网技术的应用与发展,互联网用户越来越多。互联网具有虚拟性,用户在互联网上的资料并不一定是其真实属性,为了提高互联网的安全性,需要确保用户身份的真实性。
移动通信技术的发展和智能移动设备(如智能手机、平板电脑)的快速普及,使移动设备与用户之间的联系越来越密切,而许多移动设备和APP能够记录用户的行动。于是利用用户行为对用户属性做出推断这一问题吸引了很多研究人员的关注。
这里主要关注移动设备记录下的用户地理位置信息。例如,许多用户喜欢在微信、微博等社交平台上发布自己的消息;使用移动设备上的购物或团购APP;使用地图和导航功能;为了能够随时使用这些功能,大多数用户会长时间开启GPS、WIFI或4G通讯。开发上述APP的第三方供应商以及网络运营商能够获取到用户的使用记录,再通过一些方法分析出这些记录产生的时间和地点。例如,如果一个用户用手机发布了一条微博,APP可以通过4G基站信息和手机内置的GPS功能获取当前的地理位置;网络运营商可以通过多个基站对用户的地理位置进行定位。将一个用户的每一条时间地点记录组成一个序列,就得到了一个用户的时空轨迹。时空轨迹反映了用户的行动模式。
目前已经有一些方法通过分析用户的时空轨迹来推断用户属性,但是这些方法都是基于地理位置的语义信息来做的。例如,一个微博用户在几个不同地点发布了微博消息,为了判断这名用户的属性(如性别、职业),传统方法需要知道微博发布地点的信息(如商场、公司、饭店或游乐园)。显然,地点的语义信息并不是总能明确获取的,例如一栋高层建筑的不同楼层可能有不同的功能。这对传统方法的效果有很大的影响。此外,由于每个用户在同一个地点出现的目的都是不同的,只凭时空轨迹来推断用户属性必然存在瓶颈,需要加入新的特征来突破。
社会网络是由用户的好友关系建立起来的网络图,图中每个节点代表一个用户,每条边代表一对好友关系。有研究统计发现,社会网络中的好友具有“同质性”,即一对好友具有一项或几项相同属性的概率很高。但若仅使用社会网络来推断用户属性,首先需要知道社会网络中大多数节点的属性,但由于隐私问题,这在实际应用中是难以获取的。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于时空轨迹和社会网络的用户属性预测系统,与传统方法相比,本发明的一项优势在于输入的时空轨迹不需要具有详细语义信息的地理位置数据,因此适用于多种不同类型的数据集;本发明的另一项优势在于输入的社会网络不需要具有用户的身份信息,因此适用于不同的社会网络。
为了实现上述目的,本发明采用的技术方案是:
基于时空轨迹和社会网络的用户属性预测系统,包括:
数据处理子系统,包括时空轨迹处理模块和社会网络处理模块。
时空轨迹处理模块用于将所有用户的时空轨迹处理成容易进行后续操作的三阶张量形式。
具体地,时空轨迹处理模块中,所需的原始的时空轨迹记录包括用户标识,地理位置标示和时间标识,时空轨迹处理模块建立一个元素全为零的三阶张量,其中行数=用户标识数、列数=地理位置标识数、管数=时间段标识数,即三阶张量的每一行代表一个用户,每一列代表一个地点,每一管代表一个时间段。
所述社会网络处理模块用于将所有用户之间的社交关系处理成容易进行后续操作的邻接矩阵形式。所需的数据为用户的社会网络信息用户间必定存在某种关系(如好友,关注,点赞等),对这些信息进行提取,建立一个反映用户间社交关系的邻接矩阵。
具体地,邻接矩阵的行数和列数都等于用户数,用户ui和用户uj的关系反映在矩阵的第i行j列中。
特征提取子系统,降低用户时空轨迹的维度,从用户的时空轨迹数据中提取出有价值的特征,使提取出的特征适用于现有的分类算法。
具体地,本发明提出了一种非负张量分解(NTF)算法来提取有价值的特征,对时空轨迹张量进行分解,用社会网络信息进行约束,得到三个二阶矩阵,分别代表了每个用户、每个地理位置和每个时间段的隐含特征。其中本发明最关心用户隐含特征矩阵,它能反映每个用户的特征,用于分类器的训练和预测,同时特征的维度可以根据需要自行设定,满足高效、准确的要求。
分类预测子系统,利用用户的隐含特征训练多种分类器,使用已知属性的用户隐含特征训练多种分类器对用户,用目标用户的隐含特征进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611141121.3/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理