[发明专利]基于用户访问数据的用户画像形成方法有效

申请号：	201610935388.3	申请日：	2016-11-01
公开（公告）号：	CN106599022B	公开（公告）日：	2019-12-10
发明（设计）人：	聂琳;林倞;王青;罗思伟	申请（专利权）人：	中山大学
主分类号：	G06F16/953	分类号：	G06F16/953;G06F16/951;G06F16/9535;G06F16/35;G06F17/27
代理公司：	44102 广州粤高专利商标代理有限公司	代理人：	林丽明
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供的方法利用爬虫工具、提取算法、中文分词方法对网页中的内容进行获取和自动处理，其智能化、自动化程度较高，很好地解决了现有技术的缺陷。且本发明提供的方法利用机器学习方法，学习出用户的特征，以表现出用户的生活、购物等行为偏好。
搜索关键词：	基于用户访问数据画像形成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于用户访问数据的用户画像形成方法，其特征在于：包括以下步骤：/nS1.对用户的访问数据进行过滤，将访问数据中无关的请求链接过滤掉，得到相关的访问链接；/nS2.使用爬虫工具抓取相关的访问链接对应的网页，然后使用提取算法将所抓取网页中的文本信息提取出来；/nS3.使用中文分词方法对提取出来的文本信息进行分词处理，其中每个网页的文本信息经过分词处理后得到的词汇列表存储在一个文档中；/nS4.对网络上公开的语料库进行分词处理，然后基于分词处理后的语料库使用词向量技术训练出词向量Word2Vec，得到中文词语的分布式表达；/nS5.创建Doc2Vec模型，利用词向量Word2Vec对Doc2Vec模型进行初始化，然后将每个文档中的词汇列表分别输入至Doc2Vec模型中，文档中的词汇列表对Doc2Vec模型进行训练，Doc2Vec模型的输出为该文档对应的网页的分布式表达；/nS6.对于每个标签，训练一个用于判断分布式表达中是否带有此标签的判断分类器；/nS7.将步骤S5中的每个网页的分布式表达分别输入至各个标签的判断分类器中，若标签的判断分类器的输出为肯定，则说明用户的网页访问带有该标签的属性；若标签的判断分类器的输出为否定，则说明用户的网页访问不带有该标签的属性。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610935388.3/，转载请声明来源钻瓜专利网。

上一篇：一种应用程序中垃圾文件数量的标识方法及终端
下一篇：一种图片显示的优化方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于用户访问数据的用户画像形成方法有效

专利文献下载