[发明专利]一种搜索方法及系统有效
申请号: | 201210164223.2 | 申请日: | 2012-05-24 |
公开(公告)号: | CN103425697B | 公开(公告)日: | 2017-09-26 |
发明(设计)人: | 陆平;吉锋;胡磊;刘丽霞;程龚;瞿裕忠 | 申请(专利权)人: | 中兴通讯股份有限公司;南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司11262 | 代理人: | 李健,龙洪 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 方法 系统 | ||
技术领域
本发明涉及信息检索领域,尤其涉及一种关键词查询向结构化查询的搜索方法及系统。
背景技术
目前,Web(网页)搜索主要基于传统的信息检索技术实现,其本质是将被搜索的网页内容表示为一组关键词,将用户输入的查询也视作一组关键词,继而返回那些内容中的关键词能够覆盖全部查询关键词的网页。该技术路线在实施效果上的主要问题是精度较低。例如,对于用户输入的查询“南京鱼”,其内在需求可能是搜索“位于南京市的、提供与鱼有关菜肴的餐厅”;然而,基于上述技术的搜索系统返回的网页可能是一家“位于上海市南京西路的、店名中包含鱼的餐厅”的主页。造成这一问题的原因包括两方面:数据本身的表示方式不利于计算机理解其含义;简单的字面匹配难以正确理解查询的含义。
针对数据表示上的缺陷,包括关系型数据、RDF(Resource Description Framework,资源描述框架)数据等在内的其它数据表示方式均具有较强的结构化特征——数据分为不同的字段,较之文本更能将信息表示为计算机易理解的形式,并且均已得到广泛应用。然而,面向这些数据的查询方式也相应较为复杂,需要掌握SQL(Structured Query Language,结构化查询语言)、SPARQL(Simple Protocol and RDF Query Language,简单协议和RDF查询语言)等结构化查询语言,普通Web用户难以具备相关技能;相反地,用户已经习惯了目前Web搜索采用的关键词查询。因此,在用户能够输入的关键词查询和系统能够处理的结构化查询之间存在鸿沟。
为此,要求搜索系统能够将关键词查询转换为分字段的结构化查询(以下简称分字段查询),但现有技术手段的自动化程度较低。例如,现有技术中,提供了一套可配制的框架,人工基于该框架来制定关键词到数据字段的映射规则,以及制定对查询的分析策略配置文件,在此基础上实现查询转换的自动化。明显地,该方法预先需要大量的人工参与,而人工制定的规则和策略是极为有限的,使得基于该方法实现的搜索系统的召回率难免较低,更难以在开放领域的Web上广泛应用。
发明内容
本发明要解决的技术问题是提供一种搜索方法及系统,以实现完全自动化并具有较高的准确率的搜索数据。
为了解决上述技术问题,本发明提供了一种搜索方法,包括:
接收到查询的关键词集合后,根据预存的所有数据项分别计算每个关键词映射到每个数据字段的条件概率;
根据所述关键词集合和所述所有的数据项查找出所有可行的查询转换;
根据包括每条所述可行的查询转换中的所有关键词映射到对应数据字段的条件概率的预定规则,对所述可行的查询转换进行排序;
按照排序后的查询转换搜索对应的数据项。
进一步地,上述方法还具有下面特点:所述根据包括每条所述可行的查询转换中的所有关键词映射到对应数据字段的条件概率的预定规则,对所述可行的查询转换进行排序,包括:
对于每条所述可行的查询转换,对所有关键词映射到对应数据字段的条件概率进行求和;
按照求出的和的大小顺序对对应的查询转换进行排序。
进一步地,上述方法还具有下面特点:所述根据包括每条所述可行的查询转换中的所有关键词映射到对应数据字段的条件概率的预定规则,对所述可行的查询转换进行排序,包括:
统计用户做出的所有历史选择中的所述每个关键词映射到所有数据字段的次数;
计算每个关键词被历史选中的映射到每条所述查询转换中对应的数据字段的次数,与该关键词被历史选中的映射到所有数据字段的次数的总和的比例;
对于每条所述查询转换,将所有关键词映射到对应数据字段的条件概率与每个关键词对应的所述比例乘于一权重系数的积进行求和;
按照求出的和的大小顺序对对应的查询转换进行排序。
进一步地,上述方法还具有下面特点:
所述权重系数α为lg(M+1),其中,M是历史上用户做出选择的总次数。
进一步地,上述方法还具有下面特点:
所述按照求出的和的大小顺序对对应的查询转换进行排序之后,还包括:
步骤1、从所述排序中取出排序第一的查询转换,放入一重排序列;
步骤2、分别计算所述排序中剩余的每个查询转换与所述重排序列中的每个查询转换的相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司;南京大学,未经中兴通讯股份有限公司;南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210164223.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种确定无源光纤网络分支故障点的方法及系统
- 下一篇:一种电极定位装置