[发明专利]一种关键字检索的实现方法及装置有效
申请号: | 201611196440.4 | 申请日: | 2016-12-22 |
公开(公告)号: | CN108228657B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 唐达鼎;郭瑞瑞;李立 | 申请(专利权)人: | 沈阳美行科技股份有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/2453 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 110000 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键字 检索 实现 方法 装置 | ||
本发明公开了一种关键字检索的实现方法及装置,获取用户输入文本,分析所述输入文本的拆分路径;查找索引信息判定所述拆分路径的有效性;匹配有效拆分路径对应的关键字的索引信息,确定检索结果。采用上述方法,对输入本文的全部拆分方式进行判断,有效地避免了由于分词工具不一致带来的检索不出关键字的现象,提高了检索的准确度;而且还可以对拆分路径的有效性进行判断,简化关键字对应的索引信息的匹配步骤,节省检索时间,提高了检索效率。
技术领域
本发明涉及一种关键字检索的实现方法及装置。
背景技术
随着信息技术的飞速发展,检索逐渐发展为一种必不可少的技术,目前应用比较广泛的检索方式为关键字检索,其中,关键字是指用户在使用检索引擎时,输入的所要查找的信息内容。
关键字检索的实现方案主要包括两部分,索引数据的制作和基于索引数据的检索算法实现。现有技术中,在制作索引数据时需要对文本进行分词,将文本拆分为多个关键字,以每个关键字作为主键,构造关键字对应的要素ID;在检索算法实现时,也需要使用分词工具对用户输入的文本进行分词,获得多个关键字,再通过查找索引数据,获得每个关键字对应的要素ID列表,从而得到检索结果。但当检索算法使用的分词工具,与制作倒排索引数据使用的分词工具不一致时,对相同的文本进行分词会得到不同的拆分结果,导致检索失败。例如,对于“东北大药房”文本,如果在制作索引数据时,使用的分词工具(A)的拆分结果是:“东北”、“大药房”两个关键字;而检索算法使用的分词工具(B)的拆分结果可能为“东北”、“大”、“药房”三个关键字;则在索引数据中查找时,则可能查找不到“大药房”的关键字,从而导致检索失败,无法为用户提供最终的检索结果。在实际项目中,检索软件和索引数据可能是由不同的公司提供,通常是独立发布的,这就无法保证数据的制作与算法软件使用相同的分词工具,因此经常会发生由于分词不一致带来的检索结果不合适的现象。
发明内容
鉴于现有技术中存在的技术缺陷和技术弊端,本发明实施例提供克服上述问题或者至少部分地解决上述问题的一种关键字检索的实现方法及装置。
作为本发明实施例的一个方面,本发明提供一种关键字检索的实现方法,所述方法包括:
获取用户输入文本,分析所述输入文本的拆分路径;
查找索引信息判定所述拆分路径的有效性;
匹配有效拆分路径对应的关键字的索引信息,确定检索结果。
在一个实施例中,分析所述输入文本的拆分路径,包括:
创建表示起点的根节点;
拆分所述输入文本的关键字,确定根节点对应的全部子节点;
依次循环拆分所述子节点对应的子节点,确定全部拆分路径。
在一个实施例中,查找索引信息确定所述拆分路径的有效性,包括:
在索引信息中分别查找各个拆分路径对应的关键字;
当索引信息中包括所述关键字时,判定所述关键字对应的子节点为有效节点;
当所述拆分路径中的关键字均为有效节点时,判定所述拆分路径为有效路径。
在一个实施例中,在索引信息中分别查找各个拆分路径中对应的关键字,包括:
在索引信息中分别查找以所述关键字为前缀的索引关键字。
在一个实施例中,所述索引信息设置于本地数据库和/或服务器;
所述索引信息的生成方法,包括:
预设文本要素的标识信息;
采用分词工具将文本要素划分为若干索引词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳美行科技股份有限公司,未经沈阳美行科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611196440.4/2.html,转载请声明来源钻瓜专利网。