[发明专利]文本检索方法、用于文本检索的倒排表生成方法以及系统在审
申请号: | 201710681027.5 | 申请日: | 2017-08-10 |
公开(公告)号: | CN109388690A | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 王朝阳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/338 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁;窦晓慧 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 倒排表 检索 文本检索 预处理结果 排序依据 身份标识 记录 申请 检索系统 预处理 关联 查询参数 查询请求 分值计算 检索装置 接收查询 文档标识 查询 归并 条目 运算 文本 输出 | ||
本申请提供一种检索方法,包括:接收查询请求;对所述查询请求提供的查询文本以及查询参数进行检索导向预处理,获得预处理结果;根据所述检索导向预处理结果进行倒排表查询以及归并运算,获得预定数量的召回文档;所述倒排表的每个记录对其关联的文档采用分数化文档身份标识作为文档标识,每个记录根据该记录关联的文档的分数化文档身份标识作为在相应的关键词条目中的排序依据;对所获得的所述召回文档进行优先级分值计算;以所述优先级分值为排序依据输出召回文档。本申请同时提供一种检索装置,一种检索系统,以及用于检索的倒排表生成方法。本申请提供的用于文本检索的方法,采用了特殊的倒排表,能够优先检索出重要程度高的文献。
技术领域
本申请涉及检索技术,具体涉及一种文本检索方法,本申请同时提供一种文本检索装置。本申请同时提供一种用于文本检索的倒排表生成方法,使用该方法生成的倒排表被用于前述文本检索方法中;本申请同时提供一种用于文本检索的倒排表生成装置。本申请同时提供一种文本检索系统。本申请同时提供一种电子设备,用于运行所述文本检索方法;本申同时提供另外一种电子设备,用于运行所述用于文本检索的倒排表生成方法。
背景技术
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
使用搜索引擎进行文本检索,已经成为人们随时可能使用的功能。随着使用搜索引擎的次数日益频繁,每次获得所需搜索结果产生的时间损耗累计,构成了很大的社会时间成本。因此,减少使用搜索引擎进行文本检索的耗时能够有效提升整个社会的效率。
使用搜索引擎进行文本检索过程中,时间消耗主要反映在两个方面,即搜索引擎获得搜索页面的时间消耗,以及发出检索请求的搜索引擎使用者获得所需信息的时间消耗。
所述搜索引擎获得搜索页面的时间消耗,即所述搜索引擎根据检索请求包含的文本信息以及相关参数,检索获得相关检索结果(即召回文档),并将其以页面形式展现出来所耗费的时间。在这个过程中,搜索引擎首先需要在数据库中检索,获得召回文档;还需要进一步进行文档排序,以确定召回文档的优先级顺序;文档排序的步骤在召回文档多于一个显示页面时特别重要。在现有技术中,文档排序所消耗的时间和实时计算资源占整个搜索过程的主要部分。
所述发出检索请求的搜索引擎使用者获得所需信息的时间消耗,是指搜索引擎使用者从搜索引擎最终提供的检索结果页面中,获得自己实际需要的检索结果的时间消耗。这个过程中的耗时与召回文档的排序相关。如果排序合理,就会减少搜索引擎使用者最终获取所需文档的时间;如果排序不合理,则会造成搜索引擎使用者过多的时间耗费。
例如,在召回文档需要通过多个展示页面展示的情况下,搜索引擎将搜索引擎使用者所需要的文档展示在第一个页面和第二个页面,则搜索引擎使用者的最终搜索耗时会有显著差别;在召回文档数量很大而需要分为多个页面展示,如果搜索引擎使用者所需要的检索结果的页面恰好位于更后面的位置时,则使用者耗时更长,搜索体验显著下降,甚至会由于搜索引擎使用者的耐心不够,最终放弃获得检索结果。
现有技术中,为了更有效提供展示页面,以便使引擎使用者能够在展示页面上更快的获得所需要的检索结果,均会设置较高的召回文档数量上限,并在将召回文档展示前都会对召回文档进行优先级排序,以便不遗漏重要的文档,并将更重要的召回文档优先提供给搜索引擎的使用者。
但是,上述解决方式存在严重缺陷。最主要的缺陷是,当搜索内容比较热门,召回文档的数量很大时,进行排序运算所消耗的运算成本和时间成本极高;并且,召回文档量增加会造成排序运算的运算量的显著增加,这就使得在召回文档过多的情况下,展示页面生成速度明显降低,影响使用者的使用体验。
由于存在上述问题,获得一种能够以更快速度对召回文档排序,并且排序结果符合使用者要求的文本检索方案,成为提高搜索引擎工作效率的关键。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710681027.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:词库生成方法和装置
- 下一篇:用于生成对话代理的方法和系统