[发明专利]用于模糊搜索的优化方法、优化装置及存储介质在审
| 申请号: | 202211534101.8 | 申请日: | 2022-12-01 |
| 公开(公告)号: | CN116226221A | 公开(公告)日: | 2023-06-06 |
| 发明(设计)人: | 周阳;廖登;周志忠;童兴;张泽群 | 申请(专利权)人: | 中联重科股份有限公司;中科云谷科技有限公司 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/903;G06F40/289 |
| 代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 陈姝婧 |
| 地址: | 410013 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 模糊 搜索 优化 方法 装置 存储 介质 | ||
本申请公开了一种用于模糊搜索的优化方法、优化装置及存储介质。该优化方法包括:分别获取输入的查询字符串和知识库存储的多个文档字符串;将查询字符串进行分词以得到多个查询子字符串;将多个文档字符串的任意文档字符串进行分词以得到任意文档字符串的多个文档子字符串;对于任意文档子字符串,判断查询字符串是否存在与任意文档子字符串无模糊相似度的目标查询子字符串;在查询字符串存在与任意文档子字符串无模糊相似度的目标查询子字符串的情况下,将目标查询子字符串替换为空,并且将目标查询子字符串与任意文档子字符串的编辑距离确定为预设值。本申请减少了模糊搜索返回错误结果的情况,并且可以提高模糊搜索的效率。
技术领域
本申请涉及计算机技术领域,具体地涉及一种用于模糊搜索的优化方法、优化装置及存储介质。
背景技术
搜索引擎技术已成为信息资源获取的重要手段之一。而搜索可以被简单划分为“模糊搜索”与“精准搜索”。模糊搜索是指搜索系统自动按照用户输入关键词的同义词或字符串的相似度进行模糊检索,从而得出较多的检索结果。现有技术中的模糊搜索技术一般包括查询、编辑距离计算、排序和输出结果这几步。例如,先按照段落中字符串的长度对查询串依次进行划分,得到查询串子串集合,当段落内的字符串与查询串中的字符串相匹配时,则该字符串对应索引的原字符串的匹配度加上该字符串的长度,当该字符串的匹配度大于预设上界值时,且该位置列表没有重复的元素时,则将该字符串添加到结果集合中,否则,则对该字符串进行编辑距离验证;当该字符串的匹配度小于预设下界值时,则直接过滤掉该字符串;当该字符串的匹配度在预设下界值与预设上界值时,则对该字符串进行编辑距离验证。现有技术中是直接通过查询相关子串计算编辑距离,缺乏语义信息,可能会存在虽然字符相同但是意思完全不同的字符串,因此,在返回结果的同时带来了大量不准确的结果,从而导致编辑距离的计算任务量较大,模糊搜索的效率较低。
发明内容
本申请实施例的目的是提供一种用于模糊搜索的优化方法、优化装置及存储介质,用以解决现有技术中模糊搜索可能带来大量不准确结果导致效率较低的问题。
为了实现上述目的,本申请第一方面提供一种用于模糊搜索的优化方法,该优化方法包括:
分别获取输入的查询字符串和知识库存储的多个文档字符串;
将查询字符串进行分词以得到多个查询子字符串;
将多个文档字符串的任意文档字符串进行分词以得到任意文档字符串的多个文档子字符串;
对于任意文档子字符串,判断查询字符串是否存在与任意文档子字符串无模糊相似度的目标查询子字符串;
在查询字符串存在与任意文档子字符串无模糊相似度的目标查询子字符串的情况下,将目标查询子字符串替换为空,并且将目标查询子字符串与任意文档子字符串的编辑距离确定为预设值。
在本申请实施例中,多个查询子字符串和任意文档字符串的多个文档子字符串均包括分词数组和词性数组,词性数组和分词数组一一对应。
在本申请实施例中,判断查询字符串是否存在与任意文档子字符串无模糊相似度的目标查询子字符串包括以下中至少一者:
根据多个查询子字符串与任意文档字符串的多个文档子字符串的分词数组和词性数组,判断查询字符串是否存在与任意文档子字符串的字符匹配但词性不同的查询子字符串;在查询字符串存在与任意文档子字符串的字符匹配但词性不同的查询子字符串的情况下,判定查询字符串存在与任意文档子字符串无模糊相似度的目标查询子字符串;或者
获取查询字符串与任意文档字符串的实体集;根据分词数组、词性数组和实体集判断查询字符串是否存在与任意文档子字符串的字符匹配、词性相同但实体类型不同的查询子字符串;在查询字符串存在与任意文档子字符串的字符匹配、词性相同但实体类型不同的查询子字符串的情况下,判定查询字符串存在与任意文档子字符串无模糊相似度的目标查询子字符串;或者
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中联重科股份有限公司;中科云谷科技有限公司,未经中联重科股份有限公司;中科云谷科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211534101.8/2.html,转载请声明来源钻瓜专利网。





