[发明专利]一种检索方法及装置在审
申请号: | 201510632775.5 | 申请日: | 2015-09-29 |
公开(公告)号: | CN105243120A | 公开(公告)日: | 2016-01-13 |
发明(设计)人: | 王波;张志明;李羽;李浩 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆;胡彬 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检索 方法 装置 | ||
技术领域
本发明实施例涉及信息检索技术,尤其涉及一种检索方法及装置。
背景技术
随着社会的快速发展,科学技术的不断进步,如何快速而准确地检索到用户需要的信息成为了互联网信息时代所面临的重要问题。
目前,用户检索信息的方式有很多种,大致可以分为以下两类:一类是直接返回相关页面,另一类是直接给出相关答案。返回相关页面几乎能满足所有的用户需求,但是相对直接给出答案来说,存在交互不直接、结果可信度较低等问题。直接给出答案的技术是基于结构化数据的,然而大部分的信息、知识数据存在自然文本(即为非结构化数据)中,导致直接给出相关答案的方式适应范围有限,很难覆盖长尾需求。综上,目前缺乏兼具高可信度及适应范围宽的检索信息方式。
发明内容
本发明提供一种检索方法及装置,以提供一种兼具高可信度及适应范围宽的检索信息方式。
第一方面,本发明实施例提供了一种检索方法,所述方法包括:
对用户的查询语句进行语义分析;
通过检索非结构化数据语料库,获得语义分析结果匹配的语料片段;
对匹配的语料片段进行分词和过滤处理,并采用抽取器对过滤后的语料片段进行抽取,以获得所述查询语句的答案。
第二方面,本发明实施例还提供了一种检索装置,所述装置包括:
语义分析模块,用于对用户的查询语句进行语义分析;
语料片段获取模块,用于通过检索非结构化数据语料库,获得语义分析结果匹配的语料片段;
答案获取模块,用于对匹配的语料片段进行分词和过滤处理,并采用抽取器对过滤后的语料片段进行抽取,以获得所述查询语句的答案。
本发明实施例提供的技术方案,通过检索非结构化数据语料库,获得与查询语句的语义分析结果匹配的语料片段,对匹配的语料片段进行分词和过滤处理,并采用抽取器对过滤后的语料片段进行抽取,以获得所述查询语句的答案,提供了一种兼具高可信度及适应范围宽的检索信息方式。
附图说明
图1是本发明实施例一中的一种检索方法的流程图;
图2是本发明实施例二中的一种检索方法的流程图;
图3是本发明实施例二中的非规范查询语句答案示意图;
图4是本发明实施例二中的规范查询语句答案示意图;
图5是本发明实施例三中的一种检索方法的流程图;
图6是本发明实施例四中的一种检索方法的流程图;
图7是本发明实施例五中的一种检索装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一中的一种检索方法的流程图。本实施例可适用于用户需要进行精准检索的情况。该方法可以由检索装置来执行,其中该装置可以由软件和/或硬件实现。参考图1,本实施例提供的检索方法具体可以包括如下:
S101、对用户的查询语句进行语义分析。
其中,所述语义分析即通过分析所述查询语句的句子主干或关键词,并结合语境确定用户所要查询的内容。例如,用户输入的查询语句为“刘德华的妻子”,系统通过语义分析得到用户想要查询的是香港影星刘德华的妻子朱丽倩这一人物的相关信息;用户输入的查询词语是“明天的天气”,系统首先确定用户需要得到的是天气信息,然后通过语境得到明天对应的日期,以及用户想要查询的是哪个地点的天气。
S102、通过检索非结构化数据语料库,获得语义分析结果匹配的语料片段。
其中,相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集、超文本标记语言(HyperTextMarkupLanguage,HTML)、各类报表、图像和音频/视频信息等。非结构化数据语料库指的是集合了非结构化数据的语料库。
S103、对匹配的语料片段进行分词和过滤处理,并采用抽取器对过滤后的语料片段进行抽取,以获得所述查询语句的答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510632775.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于签到数据的用户行为轨迹聚类方法
- 下一篇:一种管线式比例混合器