[发明专利]一种信息检索方法及相关系统和装置有效
申请号: | 201110363304.0 | 申请日: | 2011-11-16 |
公开(公告)号: | CN103116582A | 公开(公告)日: | 2013-05-22 |
发明(设计)人: | 刘凯鹏 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 检索 方法 相关 系统 装置 | ||
技术领域
本申请涉及互联网领域,尤其涉及一种信息检索方法及相关系统和装置。
背景技术
在互联网领域中,对于电子商务、搜索引擎等类型的网站来说,信息搜索引擎系统能够根据用户输入的检索词,判断用户的查询意图,并在特定位置上向用户展现需要投放的相关信息。准确预估信息在给定的检索词上的点击率,对用户体验、信息投放方的收益、以及网站的盈利都有重要影响。
用户可能会在一次搜索会话中点击某些信息,信息搜索引擎系统会记录各次信息展示结果以及用户点击情况。用户一般会根据信息相关性进行点击,因此历史点击数据反映了用户对信息展示结果的相关性的隐性评价。由于历史点击数据的数量巨大,且获取成本较低,因此对于改进信息展示结果具有重要的应用价值。
用户的点击行为会受到信息展示位置的影响。有研究表明,尽管相关性较差,但是在信息展示结果中,靠前位置展示的信息相比靠后位置展示的信息,一般能够获得更多的用户点击。上述影响可以称为位置偏置(Position Bias)。位置偏置的存在,增大了利用点击数据准确获得信息相关性的难度。
近年来,业界提出了各种点击模型,以消除位置偏置对基于历史点击数据进行信息相关性分析的影响。点击模型是基于历史点击数据统计用户对信息展示结果的点击行为的概率模型。这些点击模型都基于一个最基本的前提假设:查看假设(Examination Hypothesis),即如果用户查看了某一位置上的信息,那么其点击该信息的概率为一个仅依赖于检索词和该信息的定值。根据这一假设,靠后位置展示的信息,其点击率较小是由于其被用户查看的概率较小。代表性的点击模型包括查看模型(Examination Model)、用户浏览模型(User Browsing Model,UBM)和贝叶斯浏览模型(Baysian Browsing Model,BBM)。查看模型(Examination Model)假设用户查看某一位置上的信息的概率依赖于该位置;UBM进而假设用户查看某一位置上的信息的概率不仅依赖于该位置,还依赖于同一信息展示结果中前一次的点击位置。由于相关性和查看事件的耦合,使得在UBM中信息相关性的后验分布不可解,只能采用迭代算法(例如坐标下降法)估计UBM参数,获得信息相关性的后验分布。BBM在UBM中引入信息相关性的先验分布,利用查看、点击和相关性之间特定的条件独立性推导出信息相关性的后验分布的封闭公式,使得BBM训练可以只遍历一遍训练数据,大大提高了训练效率。
在点击模型中另一常用的假设是瀑布浏览前提假设(Cascade Hypothesis),即用户按照由前到后顺序查看信息展示结果,其点击某一位置上的信息的概率依赖于同一展示展示结果中排在该信息之前的其他信息。代表性的点击模型包括点击链模型(Click Chain Model,CCM)和动态贝叶斯模型(Dynamic Bayesian Model,DBN)。在CCM中,假设某个信息展示位置上的信息被用户查看了,则该信息被用户点击的概率为其相关性,而用户继续查看下一条信息的概率为某一特定概率;如果该信息未被用户点击,则用户继续查看下一条信息的概率为另一依赖于其相关性的特定概率。在DBN中,将信息相关性区分为其对用户的吸引度和用户对其的满意度。用户是否点击信息依赖于其对用户的吸引度,而用户是否继续查看下一条信息依赖于用户对其的满意度。
现有的各种点击模型存在如下技术问题:
基于瀑布浏览前提假设(Cascade Hypothesis)的点击模型,例如CCM、DBN等,假设用户按照由前到后顺序查看信息展示结果。但是实际情况下,用户往往采用跳跃式的浏览方式,使得瀑布浏览前提假设的适用性减弱,进而影响点击模型的有效性。
不基于瀑布浏览前提假设(Cascade Hypothesis)的点击模型,例如UBM,BBM等,假设用户查看某一位置上信息的概率仅与同一信息展示结果中前一次的点击位置相关。该假设虽然可以刻画用户采用跳跃式的浏览方式,但是无法刻画用户按照由前到后顺序查看的浏览方式。
可见,现有的各种点击模型均无法准确刻画用户的浏览方式,使得点击模型的有效性受到影响,从而导致信息展示结果的准确率和召回率较低。准确率(Precision Rate)是指检索出的相关信息数与检索出的信息总数的比率,旨在衡量信息搜索引擎系统的查准率;召回率(Recall Rate)是指检索出的相关信息数与信息库中所有的相关信息数的比率,旨在衡量信息搜索引擎系统的查全率。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110363304.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置