[发明专利]一种基于深度学习的访客搜索行为特征提取方法在审
申请号: | 201710281437.0 | 申请日: | 2017-04-26 |
公开(公告)号: | CN108804429A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 林正春;梁文庆 | 申请(专利权)人: | 广东原昇信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 李伟波;韩德凯 |
地址: | 510635 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 矩阵 访客 行为特征提取 搜索关键词 特征数据 记录 关联 关键词搜索结果 关键词搜索 归一化处理 历史记录 逻辑关系 顺序建立 特征集合 效果评估 一次搜索 准确度 点击率 浏览 学习 访问 | ||
本发明公开了一种基于深度学习的访客搜索行为特征提取方法,包括以下步骤:A、记录访客搜索访问的历史记录,并根据搜索关键词的先后顺序建立搜索记录矩阵T,在搜索记录矩阵T中每个搜索关键词均关联有与前一次搜索关键词的逻辑关系、本次关键词搜索结果的浏览时间、本次搜索使用的关键词的点击率、本次关键词搜索的效果评估系数;B、对搜索记录矩阵T中与搜索关键词关联的各数据进行归一化处理,得到矩阵T′;C、对矩阵T′中的特征数据进行提取;D、对提取的特征数据进行关联组合,形成不同访客搜索行为的特征集合。本发明能够解决现有技术的不足,提高了访客搜索行为特征提取的准确度。
技术领域
本发明涉及互联网数据分析技术领域,尤其是一种基于深度学习的访客搜索行为特征提取方法。
背景技术
在通常的网络搜索技术中,用户搜索行为是指用户通过搜索获取自己感兴趣的内容的行为。通过对用户搜索行为的分析,可以提高搜索结果对于不同用户的针对性,实现搜索结果的精确投放。现有的搜索行为分析方法,仅仅是对搜索行为的简单记录和分类存储对比,由于直接从数据库中获取的数据中夹杂着大量的干扰数据,这就导致现有的分析方法对于搜索行为的真实意图判断偏差较大,导致搜索结果投放的优化效果一般。
发明内容
本发明要解决的技术问题是提供一种基于深度学习的访客搜索行为特征提取方法,能够解决现有技术的不足,提高了访客搜索行为特征提取的准确度。
为解决上述技术问题,本发明所采取的技术方案如下。
一种基于深度学习的访客搜索行为特征提取方法,包括以下步骤:
A、记录访客搜索访问的历史记录,并根据搜索关键词的先后顺序建立搜索记录矩阵T,在搜索记录矩阵T中每个搜索关键词均关联有与前一次搜索关键词的逻辑关系、本次关键词搜索结果的浏览时间、本次搜索使用的关键词的点击率、本次关键词搜索的效果评估系数;
B、对搜索记录矩阵T中与搜索关键词关联的各数据进行归一化处理,得到矩阵T′;
C、对矩阵T′中的特征数据进行提取;
D、对提取的特征数据进行关联组合,形成不同访客搜索行为的特征集合。
作为优选,步骤A中,将搜索结束前浏览时间小于设定阈值的搜索关键词删除。
作为优选,步骤B中,对数据进行归一化的方法为,
其中,vj为归一化之前的数据,v′j为归一化之后的数据,为归一化之前的数据平均值,Ej为归一化函数,xi为同一类数据不同数据值之间的偏差值,yi为同一关键词下不同类数据之间的关联度,k1为比例系数,
Ej=∫1vj(1+k2)r,
其中,l为包含vj的检索路径,作为积分路径,r为vj的权重因子,k2为比例系数。
作为优选,步骤B中,对归一化之后的数据进行模糊化处理;
Δτ=|v′j-t|,
其中,t为模糊化参考值,h为判断阈值,是数据平均值,v″j是模糊化的数据值。
作为优选,步骤C中,建立迭代函数f,对步骤B处理后的搜索记录矩阵T′进行迭代处理,直至搜索记录矩阵T′的任意两个特征向量之间的欧氏距离小于阈值,提取其特征向量中的各元素值作为特征数据,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东原昇信息科技有限公司,未经广东原昇信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710281437.0/2.html,转载请声明来源钻瓜专利网。