[发明专利]海量信息搜索系统在审
申请号: | 202210076008.0 | 申请日: | 2022-01-23 |
公开(公告)号: | CN114428816A | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 唐长春 | 申请(专利权)人: | 唐长春 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/2458;G06F16/2457;G06F16/27;G06F40/289;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 343621 江西省吉安*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量 信息 搜索 系统 | ||
1.海量信息搜索系统,其特征在于,所述系统包括:信息录入单元,配置用于采集需要录入的信息,对录入的信息进行关键词提取,以得到录入的信息的至少一个关键词,将关键词作为录入的信息的附加信息与录入的信息共同组成元数据;数据库,配置用于存储元数据;链云构建单元,配置用于对数据库中的元数据进行基于关键词的分组,将关键词相同或关键词的差别在设定范围内的元数据筛选出来,同时,将筛选出的元数据进行数据相似性比对,得到筛选出的元数据中,每个元数据与其他元数据的相似度,将这些筛选出来进行关联,以构建关联数据链云,将所有的构建的关联数据链云组成搜索云,具体包括:将每个元数据与其相似度在设定阈值以上的元数据进行关联;搜索指令输入单元,配置用于输入搜索指令,并提取输入的搜索指令的指令关键词,判断所述提取的指令关键词是否包含于所述信息录入单元提取的关键词集合中,若包含于,则将提取的指令关键词作为搜索数据;若不包含于,则将提取的指令关键词进行保存作为待处理指令关键词;所述关键词集合定义为信息录入单元提取到的所有的彼此互不相同的关键词组成的集合;关键词模糊转换单元,配置用于将搜索指令输入单元中的待处理指令关键词进行关键词转换,以得到待处理指令关键词在关键词集合中最接近的关键词,作为搜索数据;搜索单元,配置用于基于搜索指令进行元数据的匹配搜索,得到若干个元数据,判断搜索到的元数据中的关键词是否存在与搜索数据相同的,若存在,则找到关键词相同的元数据,在搜索云找到该元数据所在的关联数据链云中,再在关联数据链云中筛选得到包含该元数据的相似度相加值最大的包含元数据最多的数据链,所述数据链的结构为开环结构,将筛选得到的数据链作为搜索结果呈现给用户,完成本次数据搜索。
2.如权利要求1所述的系统,其特征在于,所述信息录入单元包括:采集部分,配置用于采集需要录入的信息;提取部分,配置用于对录入的信息进行关键词提取,以得到录入的信息的至少一个关键词;组合部分,配置用于将关键词作为录入的信息的附加信息与录入的信息共同组成元数据;其中所述采集部分包括主动采集部分和被动采集部分;所述主动采集部分,配置用于以设定的周期,在设定的数据源进行数据采集;所述被动采集部分,配置用于供用户主动录入数据,完成数据采集。
3.如权利要求2所述的系统,其特征在于,所述提取部分对录入的信息进行关键词提取,以得到录入的信息的至少一个关键词的方法执行以下步骤:利用分词器对文本进行分词得到单词;计算任意两个所述单词之间的词性相似度,将词性相似度超过设定的判定阈值的两个单词中随机舍弃一个单词,保留另外一个单词,直到所有单词彼此之间的词性相似度均低于设定的判定阈值,此时保留下的所有单词作为提取到的关键词,完成本次关键词提取。
4.如权利要求3所述的系统,其特征在于,所述计算任意两个所述单词之间的词性相似度的方法执行以下步骤:使用如下所述的相似度计算公式计算两个单词之间的相似度:;其中,为计算得到的两个单词之间的相似度的二进制值,将其转换为10进制后,得到词性相似度;为两个单词中,其中一个的对应的二进制值,为另外一个对应的二进制为值;为两个单词中,其中一个正向移动位后的二进制值,为另外一个逆向移动位后的二进制值。
5.如权利要求4所述的系统,其特征在于,所述链云构建单元包括:分组部分,配置用于对数据库中的元数据进行基于关键词的分组,将关键词相同或关键词的差别在设定范围内的元数据筛选出来;相似度比对部分,配置用于将筛选出的元数据进行数据相似性比对,得到筛选出的元数据中,每个元数据与其他元数据的相似度,将这些筛选出来进行关联,以构建关联数据链云,将所有的构建的关联数据链云组成搜索云,具体包括:确定元数据之间的一维数据相似度,所述一维数据相似度包括元数据在所述元数据的一维属性上的相似度,其中所述一维属性包括以下至少一项:元数据的数据类别,元数据的字符数量和元数据的时间属性;确定元数据之间的二维数据相似度,所述二维数据相似度包括元数据在具有不同数据类别的元数据之间二维转移上的相似度;以及根据所述一维数据相似度和所述二维数据相似度确定元数据之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于唐长春,未经唐长春许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210076008.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:清理方法及移动设备
- 下一篇:一种超时任务处理方法、系统、存储介质及设备
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置