[发明专利]基于大数据的用户信息处理方法在审

申请号：	201610003689.2	申请日：	2016-01-04
公开（公告）号：	CN105677828A	公开（公告）日：	2016-06-15
发明（设计）人：	董政;吴文杰;陈露;李学生	申请（专利权）人：	成都陌云科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京天奇智新知识产权代理有限公司 11340	代理人：	郭霞
地址：	610041 四川省成都市高***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于数据用户信息处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于大数据的用户信息处理方法，其特征在于，包括：

对网站日志数据进行处理后，提取交易业务，通过聚类得到推荐候选集合；

通过用户的当前会话获取当前行为特征，将行为特征与聚类后的集合进行计算，确定推荐列表。

2.根据权利要求1所述的方法，其特征在于，在经过数据过滤后，将网站日志转化成一系列的交易业务文本页面集，将文本页面集用特征词集进行表示，即提取页面文本中代表主题含义的关键词组成的特征词集，该提取特征词集的过程包括提取特征词条、计算特征词条的权值以及选择特征词条；

其中，用于聚类的交易业务是推荐候选集合，该集合中的每一个交易业务均由一系列页面组成，代表用户的兴趣特征和浏览的商品；当前用户会话被进行特征化后与该候选集合进行相似性计算，计算后得到最大相似的交易业务集后，将其包含的页面推荐至当前用户。

3.根据权利要求2所述的方法，其特征在于，所述提取特征词条之前，通过以下过程完成分词：

定义标注集合，建立语料词库，将被标注好的语料以及人工设置的特征模板作为机器学习工具的输入，机器学习的结果输出特征集，该特征集用于对未被标记的文本进行标记，最后用得到的标记对该文本进行分割；

设C＝{c₁,c₂…c_n}为待分词的中文句，c_i表示句中的第i个中文字；L＝{l₁,l₂…l_n}为在句C上的语料识别结果的标记序列，l_i表示中文字c_i在语料中的位置标记，SW＝{sw₁,sw₂…sw_m}为句C的语料串序列，该字词串序列上的识别结果为R＝{r₁,r₂…r_m}，r_i代表语料sw_i在词中出现的位置标记，L’和R’分别表示在中文句C上最大可能的语料分割和词的分割，则将分词任务转换为求解如下最大概率：

<L’，R’>＝argmaxP(L,R|C)＝argmaxP(R|SW)P(L|C)

其中P(R|SW)和P(L|C)都是在一个观测序列上有关序列标记的概率值，定义其概率分布为

m和n分别是句C中语料和字的个数，Z_R(SW)和Z_L(C)是正则化因数，λ_k和μ_k分别是第1层和第2层条件随机场的参数，f_k和g_k对应第1层和第2层条件随机场的特征函数；这样将中文分词问题转换为两层的条件随机场的序列标注问题；第1层用来学习基于字的语料的标注，第2层用来学习基于语料的词的标注。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都陌云科技有限公司，未经成都陌云科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610003689.2/1.html，转载请声明来源钻瓜专利网。

上一篇：基于用户需求的用户档案创建、个性化搜索排名方法和系统
下一篇：一种问答整理的方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于大数据的用户信息处理方法在审

专利文献下载