[发明专利]一种基于模糊搜索多选项的智能提取方法及系统在审
申请号: | 202111052353.2 | 申请日: | 2021-09-08 |
公开(公告)号: | CN113849538A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 佘俊;赵增涛;余少锋;廖崇阳;罗勇 | 申请(专利权)人: | 南方电网调峰调频发电有限公司信息通信分公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/22 |
代理公司: | 成都鱼爪智云知识产权代理有限公司 51308 | 代理人: | 张丽 |
地址: | 511492 广东省广州市番禺区东环街番禺大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模糊 搜索 选项 智能 提取 方法 系统 | ||
本发明提出了一种基于模糊搜索多选项的智能提取方法及系统,涉及知识管理领域。一种基于模糊搜索多选项的智能提取方法包括:接收提取请求,提取请求包括对数据集合中关键词字符串的数据提取;通过对提取的数据进行数据预处理,关键词向量生成,位置敏感哈希映射完成对索引树的构建;将关键词向量进行词义拓展构造词义模糊集,并插入构建的索引树中;确定构建的索引树中多个提取对象的对应关系,查询与模糊搜索多选项对应的提取对象。其能够解决现有多选项模糊搜索方法中存在的应用范围较窄的技术问题。此外本发明还提出了一种基于模糊搜索多选项的智能提取系统。
技术领域
本发明涉及知识管理领域,具体而言,涉及一种基于模糊搜索多选项的智能提取方法及系统。
背景技术
目前,业内常用的现有技术是这样的:随着人们在云端存储数据的不断普及,人们把越来越多的数据存储到云端的同时,其数据的安全性与可靠性就受到了前所未有的关注程度。虽然利用加密技术将文件加密存储于云端可有效的保证数据的保密性,但是通过这种方式用户的数据丧失了许多的可操作性,例如,对密文文件进行关键字检索。为了能够提供密文搜索方法,大量的可搜索加密方式应运而生。对加密数据进行高效多关键字模糊搜索是云存储数据外包的理想目标,目前已经提出了各种方案来处理密文搜索这个问题,福州大学提出了云存储安全中基于通配符的可搜索加密方法,支持至多两个通配符的关键词模糊匹配密文检索,但不支持多关键词搜索和同义词的模糊匹配;电子科技大学提出了一种云存储中基于KCB树和布隆过滤器的高效密文检索方法,实现了关键词的高效检索并降低了加密索引在服务器上的存储开销,但这种方法没有实现关键词的模糊匹配,不支持关键词的同义词扩展搜索。大多数现有技术着重于多关键字精确匹配或单关键字模糊搜索,在已实现的多关键字模糊搜索技术中,还只支持基于词形的模糊匹配,对于拼写错误的搜索有效,但不能解决同义词的模糊检索。
可搜索加密技术是一种密码学原语,它可以在保护数据隐私的情况下完成密文数据的搜索。但是,传统的可搜索加密方案支持精确的关键词搜索,当搜索的关键词出现偏差时,这些方案将失去作用,所以模糊关键词搜索很大程度上增强了方案的可用性。现在的模糊搜索方案分为单关键词模糊搜索方案和多关键词模糊搜索方案,单关键词模糊搜索方案仅能完成用户输入单关键词的查询请求,当用户输入多个关键词时,方案搜索的精确度将会大幅度降低,并且搜索结果会耗费巨大的存储开销,导致单关键词模糊搜索方案实用性较低。而现存的多关键词模糊搜索方案搜索原理是:当用户想要搜索包含多个关键词的明文文件时,用户计算多个关键词的陷门集合,云服务器根据用户提交的陷门集合在云端搜索密文文件,倘若密文文件与陷门集合匹配,则表明搜索成功,返回该密文文件,用户通过密钥解密密文文件,得到明文文件;这些方案可以完成用户输入多关键词的查询请求,但是实现步骤复杂,搜索效率低下,或者仅能完成简单的模糊多关键词查询请求,应用范围较窄,且需要存储关键词陷门集合,导致开销较大。
发明内容
本发明的目的在于提供一种基于模糊搜索多选项的智能提取方法,其能够解决现有多选项模糊搜索方法中存在的应用范围较窄的技术问题。
本发明的另一目的在于提供一种基于模糊搜索多选项的智能提取系统,其能够运行一种基于模糊搜索多选项的智能提取方法。
本发明的实施例是这样实现的:
第一方面,本申请实施例提供一种基于模糊搜索多选项的智能提取方法,其包括接收提取请求,提取请求包括对数据集合中关键词字符串的数据提取;通过对提取的数据进行数据预处理,关键词向量生成,位置敏感哈希映射完成对索引树的构建;将关键词向量进行词义拓展构造词义模糊集,并插入构建的索引树中;确定构建的索引树中多个提取对象的对应关系,查询与模糊搜索多选项对应的提取对象。
在本发明的一些实施例中,上述接收提取请求,提取请求包括对数据集合中关键词字符串的数据提取包括:计算关键词字符串的熵,并判断关键词字符串的熵是否大于预设的熵阈值,当关键词字符串的熵大于熵阈值时,确定关键词字符串为模糊性数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网调峰调频发电有限公司信息通信分公司,未经南方电网调峰调频发电有限公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111052353.2/2.html,转载请声明来源钻瓜专利网。