[发明专利]一种同义词检索方法和装置在审
申请号: | 202210355598.0 | 申请日: | 2022-04-06 |
公开(公告)号: | CN114691834A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 于楠;蔡玉柱;闫学森;杜波;李舒嫒 | 申请(专利权)人: | 中国农业银行股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/2453;G06F40/284;G06F40/237 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王云晓 |
地址: | 100005 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同义词 检索 方法 装置 | ||
本申请提供了同义词检索方法和装置,方法包括:获取来自第一应用系统的查询语句;从同义词缓存维护的若干应用系统分别对应的同义词列表中,确定第一应用系统对应的同义词列表,作为目标同义词列表;从目标同义词列表中获取检索词对应的同义词和同义词权重,并根据检索词、检索词对应的同义词和同义词权重,生成新的查询语句;基于新的查询语句和第一应用系统对应的索引信息,对第一应用系统上的信息进行检索。本申请在同义词缓存中维护同义词列表,从而在建立索引时仅需针对分词器词库中包含的每个词建立索引信息即可,节省了索引信息占用的磁盘空间,并且基于同义词权重能够区分原词与同义词的重要程度,且提高了检索结果的召回率。
技术领域
本申请涉及检索领域,特别是涉及一种同义词检索方法和装置。
背景技术
随着互联网快速发展,信息检索的业务场景越来越丰富,其中,同义词检索在信息检索中的作用日趋重要。
现有的同义词检索方法,将目标文档中原词与同义词同时在全文检索引擎中建立索引,即原词和同义词的索引均指向文档的同一位置,从而在用户搜索原词或同义词时均能匹配到原词所在文档。
现有的同义词检索方法可以很大程度上提高检索结果的召回率,提升了用户体验,但是,将目标文档中原词与同义词同时在全文检索引擎中建立索引的方式需要额外保存大量同义词的索引,使得磁盘空间的消耗与包含同义词文档数成正比,浪费大量的磁盘空间,且,现有的同义词检索方法在基于同义词和原词进行检索时,原词和同义词权重相同,导致无法区分原词与同义词的重要程度。
发明内容
有鉴于此,本申请提供了一种同义词检索方法和装置,用于解决现有技术存在的同义词的索引浪费磁盘空间以及原词和同义词权重相同导致的无法区分原词与同义词的重要程度的问题,其技术方案如下:
一种同义词检索方法,包括:
获取来自第一应用系统的查询语句,其中,查询语句中包括检索词;
从同义词缓存维护的若干应用系统分别对应的同义词列表中,确定第一应用系统对应的同义词列表,作为目标同义词列表,其中,同义词列表维护有目标词、目标词对应的同义词和同义词权重三者的对应关系,目标词为应用系统上的原词或原词的同义词;
从目标同义词列表中获取检索词对应的同义词和同义词权重,并根据检索词、检索词对应的同义词和同义词权重,生成新的查询语句;
基于新的查询语句和第一应用系统对应的索引信息,对第一应用系统上的信息进行检索,其中,第一应用系统对应的索引信息包括针对分词器词库中第一应用系统对应的每个词建立的索引信息。
可选的,还包括:对同义词缓存维护的同义词列表进行更新;
对同义词缓存维护的同义词列表进行更新,包括:
监听是否存在同义词新增任务,其中,同义词新增任务中包含新增词和系统指示信息,新增词是指为第二应用系统上的原词新增的同义词,第二应用系统为同义词新增任务中包含的系统指示信息所指示的应用系统;
若存在同义词新增任务,则基于新增词,以及,新增词对应的同义词权重,对同义词缓存中第二应用系统对应的同义词列表进行更新。
可选的,还包括:对若干应用系统分别对应的索引信息进行更新;
对若干应用系统分别对应的索引信息进行更新,包括:
若存在同义词新增任务,则基于分词器词库判断新增词是否为未登陆词;
若是,则基于新增词更新分词器词库,得到更新后的分词器词库;
根据更新后的分词器词库和第二应用系统对应的原索引库中的索引进行索引重建,得到第二应用系统对应的重建后的新索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业银行股份有限公司,未经中国农业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210355598.0/2.html,转载请声明来源钻瓜专利网。