[发明专利]海量信息搜索系统在审
申请号: | 202210076008.0 | 申请日: | 2022-01-23 |
公开(公告)号: | CN114428816A | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 唐长春 | 申请(专利权)人: | 唐长春 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/2458;G06F16/2457;G06F16/27;G06F40/289;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 343621 江西省吉安*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量 信息 搜索 系统 | ||
本发明属于信息搜索技术领域,具体涉及海量信息搜索系统。所述系统包括:信息录入单元、链云构建单元、数据库、搜索指令输入单元、关键词模糊转换单元和搜索单元;所述信息经由信息录入单元录入后,存储在数据库中,链云构建单元将这些信息中相似的信息构建关联数据链云,然后在搜索指令输入单元中输入搜索指令后,关键词模糊转换单元将搜索指令进行关键词转后,进行搜索,以实现海量数据的精确检索。本发明通过在信息录入时,对信息进行关联,以构建关联数据链云,在进行检索时,则通过对搜索指令进行提取和转换,再在关联数据链云中进行搜索,提升了搜索的效率和准确率。
技术领域
本发明属于信息搜索技术领域,具体涉及海量信息搜索系统。
背景技术
数据搜索即把数据库中存储的数据根据用户的需求提取出来。数据搜索的结果会生成一个数据表,既可以放回数据库,也可以作为进一步处理的对象。
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。在大数据的应用中,大数据的搜索是核心,如何在巨量的数据中找到想要的结果,考验着大数据应用中的硬件和软件。
专利号为CN201310166729.1A的专利公开了一种基于Hadoop的海量人脸识别搜索引擎设计方法,属于云计算和模式识别领域。以Hadoop云计算框架为基础,由内层、中间层和外层三层构成。内层用于存放海量的人脸图像及身份信息与提供分布式计算资源,中间层用于搜索引擎的索引表的建立与维护,外层用于接收任务与分配任务。为了在保证精度的同时提高人脸图像在数据库中的搜索速度,本方法采用在中间层使用K均值聚类算法建立人脸特征向量聚类索引表与聚类名单表相结合的方法。
其以Hadoop云计算为基础,使用三层架构的方式来对数据进行分层搜索,使用K均值聚类来进行索引表和名单表的结合,以此实现海量图像数据的搜索,但其无法针对所有数据类型进行搜索,无法适用于多种数据类型,且在搜索依然使用传统的特征向量的索引搜索方式,准确率依然较低。
发明内容
有鉴于此,本发明的主要目的在于提供海量信息搜索系统,通过在信息录入时,对信息进行关联,以构建关联数据链云,在进行检索时,则通过对搜索指令进行提取和转换,再在关联数据链云中进行搜索,提升了搜索的效率和准确率。
为达到上述目的,本发明的技术方案是这样实现的:
海量信息搜索系统,所述系统包括:信息录入单元,配置用于采集需要录入的信息,对录入的信息进行关键词提取,以得到录入的信息的至少一个关键词,将关键词作为录入的信息的附加信息与录入的信息共同组成元数据;数据库,配置用于存储元数据;链云构建单元,配置用于对数据库中的元数据进行基于关键词的分组,将关键词相同或关键词的差别在设定范围内的元数据筛选出来,同时,将筛选出的元数据进行数据相似性比对,得到筛选出的元数据中,每个元数据与其他元数据的相似度,将这些筛选出来进行关联,以构建关联数据链云,将所有的构建的关联数据链云组成搜索云,具体包括:将每个元数据与其相似度在设定阈值以上的元数据进行关联;搜索指令输入单元,配置用于输入搜索指令,并提取输入的搜索指令的指令关键词,判断所述提取的指令关键词是否包含于所述信息录入单元提取的关键词集合中,若包含于,则将提取的指令关键词作为搜索数据;若不包含于,则将提取的指令关键词进行保存作为待处理指令关键词;所述关键词集合定义为信息录入单元提取到的所有的彼此互不相同的关键词组成的集合;关键词模糊转换单元,配置用于将搜索指令输入单元中的待处理指令关键词进行关键词转换,以得到待处理指令关键词在关键词集合中最接近的关键词,作为搜索数据;搜索单元,配置用于基于搜索指令进行元数据的匹配搜索,得到若干个元数据,判断搜索到的元数据中的关键词是否存在与搜索数据相同的,若存在,则找到关键词相同的元数据,在搜索云找到该元数据所在的关联数据链云中,再在关联数据链云中筛选得到包含该元数据的相似度相加值最大的包含元数据最多的数据链,所述数据链的结构为开环结构,将筛选得到的数据链作为搜索结果呈现给用户,完成本次数据搜索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于唐长春,未经唐长春许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210076008.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:清理方法及移动设备
- 下一篇:一种超时任务处理方法、系统、存储介质及设备
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置