[发明专利]信息检索方法、装置、设备及计算机可读介质有效
申请号: | 201810635964.1 | 申请日: | 2018-06-20 |
公开(公告)号: | CN110633407B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 范淼;余金星;窦泽皓;孙明明;李平;王海峰 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 张臻贤;王珺 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 检索 方法 装置 设备 计算机 可读 介质 | ||
本发明提出一种信息检索方法,包括:通过搜索引擎检索与查询请求相关的网页;从检索到的网页中提取与所述查询请求相关的文本并拼接得到拼接文本;在所述拼接文本中截取文本片段;将所截取的文本片段发送至搜索引擎,以使得搜索引擎在信息检索结果中显示所截取的文本片段。本发明实施例给搜索引擎在用户体验和交互方面带来极大的优势,能够满足用户对智能问答这一功能的需求。通过本发明实施例,能够直接为用户展示与检索请求相关性较强的简短文本,节省用户的信息筛选时间。
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于机器阅读的信息检索方法及装置、设备和计算机可读介质。
背景技术
当前搜索引擎的核心是信息检索技术。早期的检索是基于目录的手工检索;而目前的检索则是基于计算机的数据库检索,包括音乐检索、购物检索、视频检索、图片检索等。
搜索引擎现有的信息检索一般分为两步:第一步是信息的储存,把所有能够为用户所用的信息(如各个门类的百科知识,各个领域的时事新闻等)以某种合适的方式组织并储存起来;第二步是狭义的检索,根据用户输入的关键词或者关键特征从储存的所有信息中检索出最满足用户要求的一些条目。
随着用户需求的多样性和逐渐个性化的发展趋势,如今的搜索引擎面临着一个非常大的交互革新的机会:在很多情况下,用户并不是想要全面具体地了解某件事物的各个方面,而是希望搜索引擎能够准确地反馈查询意图,不求相关资料丰富与否,只求反馈的资料尽量简洁、精准。例如,在百度搜索引擎中我们搜索“今天百度的股票怎么样”,我们希望搜索引擎能够反馈百度这支股票的涨跌情况,或者收盘价、换手率情况等。只要查询的反馈足够精准,一句话甚至一个数字即可满足用户的需求。目前搜索引擎得到搜索结果为关于股票的讨论、百度股价的网页、新闻等链接和部分与查询意图无关的摘要。
再比如,在搜索引擎中搜索“XX公司在2016年赚了多少钱”,我们想要的只是一个准确的数字,然而搜到的前几条结果都是对XX公司的介绍、官网和有关Tesla的新闻报道,并没有一条准确地回应了我们的查询。
在信息检索方面,现有的主流方法包括:基于布尔检索模型的直接检索方法,基于概率或向量空间模型的相似度方法与朴素贝叶斯算法,基于网页链接的重要性分析法。
(1)基于布尔检索模型的直接检索方法,根据用户的需求来构造一个布尔条件,布尔条件由and、if、not来组成。例如如果想要从所有的文本中挑选所有带有词条“自动驾驶”,但不带有“撞车”两个字的文本,输入一个布尔条件:“自动驾驶”and(not“撞车”)即可。
(2)基于概率或向量空间模型的相似度方法与朴素贝叶斯算法,通过建立向量模型或概率模型,计算用户输入的查询与数据库中所有文本的相似度或关联概率,然后将它们按照从高到低的顺序进行排序,呈现在用户的面前。
(3)基于网页链接的重要性分析法,尤其是著名的PageRank算法可以计算出每一个网页的相对重要性,作为检索结果排序的重要指标,大幅度提高了搜索引擎的用户体验。
上述信息检索技术的优缺点如下:
(1)基于布尔检索模型的直接检索方法,具备容易操作的优点,但是其检索结果文档是没有任何办法进行排序的,只有匹配与不匹配之分,而且其检索结果往往过多或者过少。
(2)基于概率或向量空间模型的相似度方法与朴素贝叶斯算法,以词频作为核心的参考因素,并没有考虑到词之间和字之间的顺序,也并没有完整地理解任何文本的真实含义,仅仅是比对不同字、不同词出现的频率,因此经常出现检索结果的不准确。
(3)基于网页链接的重要性分析法,由于最重要的网页往往是一些官网,或者政府的网站,而在大多数情况下,这些网页并不是我们所需要的,因此可能无法满足用户需求。
发明内容
本发明实施例提供一种信息检索方法、装置、设备及计算机可读介质,以解决或缓解现有技术中的一个或多个技术问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810635964.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置