[发明专利]基于偏好的智能检索方法及系统有效

申请号：	201310549069.5	申请日：	2013-11-08
公开（公告）号：	CN103593425A	公开（公告）日：	2014-02-19
发明（设计）人：	李鹏;周育忠;王庆红;龚婷;陈传夫;王平;冉从敬;吴江	申请（专利权）人：	南方电网科学研究院有限责任公司;武汉大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京万慧达知识产权代理有限公司 11111	代理人：	张金芝;杨颖
地址：	510062 广东省广州市越秀区***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于偏好智能检索方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据检索领域，尤其是涉及一种基于偏好的智能检索方法及系统。

背景技术

随着社会信息化程度的不断提高以及IT设备的高速发展，信息的存储量呈指数上升趋势；而与此同时人们对信息的获取要求越来越高，如何利用检索技术快速找到所需的有用信息越来越困难。传统的搜索引擎基于关键词进行检索，但即便是采用多个关键词进行组合检索，面对海量的网络信息，所获得结果的数量仍然是难以计数的，要从这些结果中找到最需要的信息对用户来说也是项艰巨的工作。因此，当前数据检索最关键的问题就是如何从检索结果中找到用户最需要的信息。

现有技术中，搜索引擎或数据检索系统会基于部分统计信息对检索结果进行排序，以争取把相关度较高的结果优先提供给用户。类似的统计信息主要有关键词出现频率、匹配度和点击率等，这些信息是对数据本身的确定内容进行统计，虽然处理量较大但内容明确较易实现。此外，还有部分较先进的系统进行了更进一步的优化，比如基于各种文本语义的统计特征将数据分类或对关键词进行扩展等，力求使靠前的检索结果与进行检索的关键词的相关度尽可能地高。但是上述方式主要基于用户单次提交的查询请求中的描述信息(关键词、时间、检索范围等要求的组合)和数据的文本信息，而由于上述两种信息可用内容有限，加上数据本身的信息无法体现用户间的差异，即便采用现有技术的方式进行优化，检索结果也难以全面地体现不同用户的需求差异，这导致现有方式的检索效率、精确度和用户满意度很难达到理想的状态。

发明内容

针对现有技术中存在的上述缺陷，本发明所要解决的技术问题是如何针对不同用户的差异优化检索。

为解决上述技术问题，一方面，本发明提供了一种基于偏好的智能检索方法，该方法包括步骤：

S1，基于数据主题分类、用户特征及操作日志，建立用户主题偏好模型；

S2，利用用户主题偏好模型及用户检索输入，进行查询扩展获得初次检索结果；

S3，利用用户主题偏好模型和数据在各个主题上的分布情况，进行数据的主题偏好打分，对初次检索结果进行基于主题偏好的个性化检索排序；

S4，利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。

优选地，所述步骤S1中，所述建立用户主题偏好模型包括步骤：

根据所述主题分类建立主题向量空间；

根据所述用户特征确定用户的预定义主题偏好向量；

根据所述操作日志确定用户的历史主题偏好向量；

将所述预定义主题偏好向量和所述历史主题偏好向量进行加权，得到所述用户主题偏好模型。