[发明专利]用于模糊搜索的优化方法、优化装置及存储介质在审
| 申请号: | 202211534101.8 | 申请日: | 2022-12-01 |
| 公开(公告)号: | CN116226221A | 公开(公告)日: | 2023-06-06 |
| 发明(设计)人: | 周阳;廖登;周志忠;童兴;张泽群 | 申请(专利权)人: | 中联重科股份有限公司;中科云谷科技有限公司 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/903;G06F40/289 |
| 代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 陈姝婧 |
| 地址: | 410013 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 模糊 搜索 优化 方法 装置 存储 介质 | ||
1.一种用于模糊搜索的优化方法,其特征在于,所述优化方法包括:
分别获取输入的查询字符串和知识库存储的多个文档字符串;
将所述查询字符串进行分词以得到多个查询子字符串;
将所述多个文档字符串的任意文档字符串进行分词以得到所述任意文档字符串的多个文档子字符串;
对于任意文档子字符串,判断所述查询字符串是否存在与所述任意文档子字符串无模糊相似度的目标查询子字符串;
在所述查询字符串存在与所述任意文档子字符串无模糊相似度的目标查询子字符串的情况下,将所述目标查询子字符串替换为空,并且将所述目标查询子字符串与所述任意文档子字符串的编辑距离确定为预设值。
2.根据权利要求1所述的优化方法,其特征在于,所述多个查询子字符串和所述任意文档字符串的多个文档子字符串均包括分词数组和词性数组,所述词性数组和所述分词数组一一对应。
3.根据权利要求2所述的优化方法,其特征在于,所述判断所述查询字符串是否存在与所述任意文档子字符串无模糊相似度的目标查询子字符串包括以下中至少一者:
根据所述多个查询子字符串与所述任意文档字符串的多个文档子字符串的分词数组和词性数组,判断所述查询字符串是否存在与所述任意文档子字符串的字符匹配但词性不同的查询子字符串;在所述查询字符串存在与所述任意文档子字符串的字符匹配但词性不同的查询子字符串的情况下,判定所述查询字符串存在与所述任意文档子字符串无模糊相似度的目标查询子字符串;或者
获取所述查询字符串与所述任意文档字符串的实体集;根据所述分词数组、所述词性数组和所述实体集判断所述查询字符串是否存在与所述任意文档子字符串的字符匹配、词性相同但实体类型不同的查询子字符串;在所述查询字符串存在与所述任意文档子字符串的字符匹配、词性相同但实体类型不同的查询子字符串的情况下,判定所述查询字符串存在与所述任意文档子字符串无模糊相似度的目标查询子字符串;或者
获取所述查询字符串与所述任意文档字符串的实体集以及所述知识库的同义词表;根据所述分词数组、所述词性数组、所述实体集和所述同义词表判断所述查询字符串是否存在与所述任意文档子字符串的字符匹配、词性相同、实体类型相同但非同义词的查询子字符串;在所述查询字符串存在与所述任意文档子字符串的字符匹配、词性相同、实体类型相同但非同义词的查询子字符串的情况下,判定所述查询字符串存在与所述任意文档子字符串无模糊相似度的目标查询子字符串。
4.根据权利要求3所述的优化方法,其特征在于,所述根据所述多个查询子字符串与所述任意文档字符串的多个文档子字符串的分词数组和词性数组,判断所述查询字符串是否存在与所述任意文档子字符串的字符匹配但词性不同的查询子字符串包括:
根据所述多个查询子字符串与所述任意文档字符串的多个文档子字符串的分词数组,判断所述查询字符串是否存在与所述任意文档子字符串有交集的字符;
在所述查询字符串存在与所述任意文档子字符串有交集的字符的情况下,获取相似查询子字符串和相似文档子字符串;
根据所述多个查询子字符串与所述任意文档字符串的多个文档子字符串的词性数组,判断所述相似查询子字符串和所述相似文档子字符串是否词性相同;
在所述相似查询子字符串和所述相似文档子字符串词性不同的情况下,判定所述查询字符串存在与所述任意文档子字符串的字符匹配但词性不同的查询子字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中联重科股份有限公司;中科云谷科技有限公司,未经中联重科股份有限公司;中科云谷科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211534101.8/1.html,转载请声明来源钻瓜专利网。





