[发明专利]基于偏好的智能检索方法及系统有效
申请号: | 201310549069.5 | 申请日: | 2013-11-08 |
公开(公告)号: | CN103593425A | 公开(公告)日: | 2014-02-19 |
发明(设计)人: | 李鹏;周育忠;王庆红;龚婷;陈传夫;王平;冉从敬;吴江 | 申请(专利权)人: | 南方电网科学研究院有限责任公司;武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京万慧达知识产权代理有限公司 11111 | 代理人: | 张金芝;杨颖 |
地址: | 510062 广东省广州市越秀区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 偏好 智能 检索 方法 系统 | ||
技术领域
本发明涉及数据检索领域,尤其是涉及一种基于偏好的智能检索方法及系统。
背景技术
随着社会信息化程度的不断提高以及IT设备的高速发展,信息的存储量呈指数上升趋势;而与此同时人们对信息的获取要求越来越高,如何利用检索技术快速找到所需的有用信息越来越困难。传统的搜索引擎基于关键词进行检索,但即便是采用多个关键词进行组合检索,面对海量的网络信息,所获得结果的数量仍然是难以计数的,要从这些结果中找到最需要的信息对用户来说也是项艰巨的工作。因此,当前数据检索最关键的问题就是如何从检索结果中找到用户最需要的信息。
现有技术中,搜索引擎或数据检索系统会基于部分统计信息对检索结果进行排序,以争取把相关度较高的结果优先提供给用户。类似的统计信息主要有关键词出现频率、匹配度和点击率等,这些信息是对数据本身的确定内容进行统计,虽然处理量较大但内容明确较易实现。此外,还有部分较先进的系统进行了更进一步的优化,比如基于各种文本语义的统计特征将数据分类或对关键词进行扩展等,力求使靠前的检索结果与进行检索的关键词的相关度尽可能地高。但是上述方式主要基于用户单次提交的查询请求中的描述信息(关键词、时间、检索范围等要求的组合)和数据的文本信息,而由于上述两种信息可用内容有限,加上数据本身的信息无法体现用户间的差异,即便采用现有技术的方式进行优化,检索结果也难以全面地体现不同用户的需求差异,这导致现有方式的检索效率、精确度和用户满意度很难达到理想的状态。
发明内容
针对现有技术中存在的上述缺陷,本发明所要解决的技术问题是如何针对不同用户的差异优化检索。
为解决上述技术问题,一方面,本发明提供了一种基于偏好的智能检索方法,该方法包括步骤:
S1,基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;
S2,利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;
S3,利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;
S4,利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。
优选地,所述步骤S1中,所述建立用户主题偏好模型包括步骤:
根据所述主题分类建立主题向量空间;
根据所述用户特征确定用户的预定义主题偏好向量;
根据所述操作日志确定用户的历史主题偏好向量;
将所述预定义主题偏好向量和所述历史主题偏好向量进行加权,得到所述用户主题偏好模型。
优选地,所述步骤S2中,所述进行扩展查询包括步骤:
计算所述用户检索输入中的检索词对应数据集合中各词项的概率分布;
计算所述用户主题偏好模型的向量空间中各主题词对应数据集合中各词项的概率分布;
衡量上述两种概率分布的相互差异,选择概率分布差异较小的主题词,将其以一定权重加入检索向量中。
优选地,所述步骤S3中,所述个性化检索排序包括步骤:
通过计算所述初次检索结果中各结果与所述用户主题偏好模型的向量相似度,评判所述各结果在用户偏好的主题上的得分;
计算所述各结果的质量评分;
根据所述向量相似度、所述在用户偏好的主题上的得分及所述质量评分的加权得到所述各结果的终排序得分,按照所述终排序得分对所述初次检索结果中的各结果进行排序。
优选地,所述步骤S4中,所述二次反馈检索包括步骤:
利用所述相关反馈确定所述初次检索结果中的相关结果的向量集合;
利用所述伪相关反馈确定所述初次检索结果中的不相关结果的向量集合;
将所述用户主题偏好模型、所述相关结果的向量集合、所述不相关结果的向量集合与原始查询向量结合进行反馈查询。
另一方面,本发明还同时提供了一种基于偏好的智能检索系统,该系统包括:
用户主题偏好识别模块,用于基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;
查询扩展模块,利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;
检索排序模块,利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;
反馈检索模块,利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网科学研究院有限责任公司;武汉大学,未经南方电网科学研究院有限责任公司;武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310549069.5/2.html,转载请声明来源钻瓜专利网。