[发明专利]基于用户搜索日志的兴趣实体获得方法及装置有效
申请号: | 201310298364.8 | 申请日: | 2013-07-16 |
公开(公告)号: | CN103399879A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 戴岱;李大任 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 搜索 日志 兴趣 实体 获得 方法 装置 | ||
【技术领域】
本发明涉及数据挖掘技术,尤其涉及一种基于用户搜索日志的兴趣实体获得方法及装置。
【背景技术】
随着互联网信息技术的发展,用户对获取信息的准确性要求越来越高。为了满足用户的需求,大量内容推荐技术被应用于互联网领域。在进行内容推荐前,首先可以根据用户搜索的历史信息获取用户关注或者感兴趣的实体即兴趣实体,然后利用这些兴趣实体,向用户推荐相应或类似的信息和服务。现有技术中,通过在指定用户的用户搜索日志所划分的会话(Session)段中,直接匹配完整的兴趣实体的名称。其中,Session段是一个逻辑意义,它代表一个用户在某段时间内的一个行为意图,从用户的浏览行为来看,Session段具体可以规约成在语义上具有相同关联的连续搜索行为。
然而,在一些情况下,例如,Session段中所包含的词(term)的顺序与兴趣实体中所包含的term的顺序不一致,等情况,使得直接匹配完整的兴趣实体的名称无法获得对应的兴趣实体,从而导致了兴趣实体的召回率的降低。
【发明内容】
本发明的多个方面提供一种基于用户搜索日志的兴趣实体获得方法及装置,用以提高兴趣实体的召回率。
本发明的一方面,提供一种基于用户搜索日志的兴趣实体获得方法,包括:
获得待匹配的Session段,所述Session段中包括客户端的至少一个用户搜索日志;
对每个所述用户搜索日志的query和title进行切词处理,以获得每个所述用户搜索日志的第一term;
根据预先设置的实体库,匹配出与每个所述用户搜索日志的第一term相关的候选实体;
利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,对所述候选实体进行过滤,以获得兴趣实体。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据预先设置的实体库,匹配出与每个所述用户搜索日志的第一term相关的候选实体,包括:
根据预先设置的实体库,建立实体的倒排索引;
根据所述倒排索引,获得与每个所述用户搜索日志的第一term相关的实体;
根据所述实体的term重要性权值覆盖率,对所述实体进行排序;
选择所述term重要性权值覆盖率最高的指定数量的所述实体,以作为所述候选实体。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,对所述候选实体进行过滤,以获得兴趣实体,包括下列中的至少一项:
利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,作为输入,运行GBDT模型,以获得每个所述候选实体的预测label;若所述候选实体的预测label大于或等于预先设置的label阈值,保留所述候选实体,以作为所述兴趣实体,若所述候选实体的预测label小于预先设置的label阈值,过滤掉所述候选实体;
根据所述候选实体的预测label、所述候选实体的名称长度、所述候选实体完整匹配的次数、所述候选实体的预设属性是否匹配到所述Session段、以及所述候选实体的所有属性匹配到所述Session段中的个数中的至少一项,获得所述候选实体的排序分数;若所述候选实体的排序分数小于预先设置的第一分数阈值,过滤掉所述候选实体;若所述候选实体的排序分数大于或等于预先设置的第一分数阈值,且小于预先设置的第二分数阈值,若所述候选实体的排序分数大于或等于所述预测label,保留所述候选实体,以作为所述兴趣实体,若所述候选实体的排序分数小于所述预测label,过滤掉所述候选实体;若所述候选实体的排序分数大于或等于预先设置的第二阈值分数,保留所述候选实体,以作为所述兴趣实体;其中,所述第二分数阈值大于所述第一分数阈值;以及
根据所述候选实体的名称,确定存在名称包含关系的候选实体,保留包含其他候选实体的名称的候选实体,以作为兴趣实体。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述Session段的特征包括下列中的至少一个:
所述Session段所包含的所有第一term的长度之和。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述候选实体的特征包括下列中的至少一个:
所述候选实体的名称长度之和;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310298364.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:加密中控机
- 下一篇:一种高速信号采集系统