[发明专利]一种基于哈希计算的快速检索方法及系统在审
申请号: | 201611225451.0 | 申请日: | 2016-12-27 |
公开(公告)号: | CN106777240A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 张瑜;高宁;胡钦太;黄昌勤 | 申请(专利权)人: | 广州创显科教股份有限公司;华南师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州嘉权专利商标事务所有限公司44205 | 代理人: | 谭英强 |
地址: | 511493 广东省广州市番禺区东环*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 计算 快速 检索 方法 系统 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于哈希计算的快速检索方法及系统。
背景技术
现在是信息爆炸性增长的时代,待搜索的数据变得越来越多。但是位置敏感哈希为了获得更高的搜索质量和更好的搜索效率需要消耗大量的哈希表,也就是说,内存使用量非常大。这在很大程度上影响了位置敏感哈希在海量数据情景下的可扩展性,因为在单机环境下,内存难以提供足够的空间来加载海量数据所生成的哈希表。
此外,传统的位置敏感哈希在搜索时是要搜索所有冲突表中的候选结果的,当数据量非常大的时候,详细比较的代价也会非常大,这也会降低传统位置敏感哈希的搜索效率。
综上所述,传统的位置敏感哈希可扩展性不太好,而且由于冲突表中的候选结果较多,浪费了很多时间在详细比较阶段,搜索的效率还可以进一步提高。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能有效提高检索效率的一种基于哈希计算的快速检索方法及系统。
本发明所采取的技术方案是:
一种基于哈希计算的快速检索方法,包括:
索引建立步骤:将数据库中的教育大数据根据存储位置和教育大数据中的文本数据生成索引数据;
数据检索步骤:将需要检索的文本数据进行关键值计算,进而根据关键值在数据库中进行查找,得出对应的教育大数据内容。
作为所述的一种基于哈希计算的快速检索方法的进一步改进,所述索引建立步骤包括:
将数据库中的教育大数据的存储位置进行哈希计算,得出一级索引数据;
根据教育大数据的文本数据通过关键值算法进行计算,得出关键值,即二级索引数据。
作为所述的一种基于哈希计算的快速检索方法的进一步改进,所述数据检索步骤包括:
将需要检索的文本数据通过关键值算法进行计算,得出检索的关键值;
根据检索的关键值和索引数据,在数据库中进行查找,得出对应的教育大数据内容。
作为所述的一种基于哈希计算的快速检索方法的进一步改进,所述数据检索步骤还包括:
根据预设的检索相似度阈值,在数据库中进行查找满足检索的关键值和索引数据之间相似度大于预设的检索相似度阈值的结果,得出类似的教育大数据内容。
作为所述的一种基于哈希计算的快速检索方法的进一步改进,所述关键值算法具体包括:
将文本数据进行特征词进行提取,并根据每个特种词的重要性进行权重值设置;
将特征词进行哈希计算,得到每个特征词的哈希值;
根据每个特征词的哈希值和与其对应的权重值,形成得到每个特征词的加权值;
将每个特征词的加权值进行合并累加计算,得到加权序列;
将加权序列进行降维计算,得到对应的关键值。
本发明所采用的另一技术方案是:
一种基于多级索引的快速检索系统,包括:
索引建立单元,用于将数据库中的教育大数据根据存储位置和教育大数据中的文本数据生成索引数据;
数据检索单元,用于将需要检索的文本数据进行关键值计算,进而根据关键值在数据库中进行查找,得出对应的教育大数据内容。
作为所述的一种基于哈希计算的快速检索系统的进一步改进,所述索引建立单元包括:
一级索引数据计算单元,用于将数据库中的教育大数据的存储位置进行哈希计算,得出一级索引数据;
二级索引数据计算单元,用于根据教育大数据的文本数据通过关键值算法进行计算,得出关键值,即二级索引数据。
作为所述的一种基于哈希计算的快速检索系统的进一步改进,所述数据检索单元包括:
检索关键值计算单元,用于将需要检索的文本数据通过关键值算法进行计算,得出检索的关键值;
数据查找单元,用于根据检索的关键值和索引数据,在数据库中进行查找,得出对应的教育大数据内容。
作为所述的一种基于哈希计算的快速检索系统的进一步改进,所述数据检索单元还包括:
类似结果查找单元,用于根据预设的检索相似度阈值,在数据库中进行查找满足检索的关键值和索引数据之间相似度大于预设的检索相似度阈值的结果,得出类似的教育大数据内容。
作为所述的一种基于哈希计算的快速检索系统的进一步改进,所述关键值算法具体包括:
将文本数据进行特征词进行提取,并根据每个特种词的重要性进行权重值设置;
将特征词进行哈希计算,得到每个特征词的哈希值;
根据每个特征词的哈希值和与其对应的权重值,形成得到每个特征词的加权值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州创显科教股份有限公司;华南师范大学,未经广州创显科教股份有限公司;华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611225451.0/2.html,转载请声明来源钻瓜专利网。