[发明专利]一种文献去重存储方法、系统、设备及存储介质有效
| 申请号: | 202310347073.7 | 申请日: | 2023-04-04 |
| 公开(公告)号: | CN116126997B | 公开(公告)日: | 2023-06-13 |
| 发明(设计)人: | 刘欣毅;梁海阔 | 申请(专利权)人: | 北京洞悉网络有限公司 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/194;G16H70/40;G06F16/38 |
| 代理公司: | 北京华清迪源知识产权代理有限公司 11577 | 代理人: | 丁彦峰 |
| 地址: | 100000 北京市西城区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文献 存储 方法 系统 设备 介质 | ||
1.一种文献去重存储方法,其特征在于,所述方法包括:
对用户检索到的药品相关文献数据进行采集,得到第一文献数据;
利用所述第一文献数据的标题信息、作者信息以及文献来源库标识,生成去重指纹信息;
利用所述去重指纹信息作为第一查重条件,判断文献存储总数据库中是否存在命中所述第一查重条件的第二文献数据;
若所述文献存储总数据库中不存在所述第二文献数据,则将所述第一文献数据存储至文献存储总数据库中与所述第一查重条件相符的对应位上;
利用所述第一文献数据的标题信息和作者信息作为第二查重条件,从所述文献存储总数据库中筛选出命中所述第二查重条件的第三文献数据;
判断所述第三文献数据中是否存在未命中所述第一查重条件的第四文献数据;
若所述第三文献数据中存在所述第四文献数据,则利用所述第四文献数据、用户ID和检索目标药品ID作为第三查重条件,判断关系型数据库中是否存在命中所述第三查重条件的第五文献数据;
若所述关系型数据库中存在所述第五文献数据,则将所述第一文献数据在所述关系型数据库中对应用户ID及检索目标药品ID下进行存储并标记。
2.根据权利要求1所述的一种文献去重存储方法,其特征在于,对用户检索到的药品相关文献数据进行采集,得到第一文献数据,包括:
利用当前目标检索任务对应的用户ID、检索目标药品ID、检索规则信息,生成第一检索任务标识;
将所述第一检索任务标识与用户选定的文献来源库标识绑定,生成第二检索任务标识;
基于所述第二检索任务标识对用户检索到的药品相关文献数据分页进行阶段性采集,得到第一文献数据。
3.根据权利要求2所述的一种文献去重存储方法,其特征在于,所述方法还包括:
若所述文献存储总数据库中存在所述第二文献数据,则利用所述第一文献数据的相关信息对文献存储总数据库中存储的第二文献数据对应信息进行更新。
4.根据权利要求3所述的一种文献去重存储方法,其特征在于,在将所述第一文献数据在所述关系型数据库中对应用户ID及检索目标药品ID下进行存储并标记之后,所述方法还包括:
利用所述去重指纹信息、用户ID和检索目标药品ID作为第四查重条件,判断所述关系型数据库中是否存在命中所述第四查重条件的第六文献数据;
若所述关系型数据库中不存在所述第六文献数据,则将所述第一文献数据以及对应的第二检索任务标识存储至所述关系型数据库并在两者之间建立关联关系;
判断是否存在下一阶段文献检索数据;
若存在下一阶段文献检索数据,则针对下一阶段文献检索数据,重新生成去重指纹信息,进行循环处理;
若不存在下一阶段文献检索数据,则结束循环处理。
5.根据权利要求4所述的一种文献去重存储方法,其特征在于,所述方法还包括:
若所述第三文献数据中不存在所述第四文献数据,或者所述关系型数据库中不存在所述第五文献数据,则直接循环至利用所述去重指纹信息、用户ID和检索目标药品ID作为第四查重条件,判断所述关系型数据库中是否存在命中所述第四查重条件的第六文献数据。
6.根据权利要求5所述的一种文献去重存储方法,其特征在于,所述方法还包括:
若所述关系型数据库中存在所述第六文献数据,则判断当前已采集到的所有第一文献数据是否均在所述关系型数据库中对应用户ID及检索目标药品ID下已存储;
若当前已采集到的所有第一文献数据均已存储在所述关系型数据库中对应用户ID及检索目标药品ID下,则将当前记录重复的参数增加1作为更新值;
判断所述更新值是否达到预设阈值;
若所述更新值达到预设阈值,则结束循环处理。
7.根据权利要求6所述的一种文献去重存储方法,其特征在于,所述方法还包括:
若当前已采集到的所有第一文献数据未均已存储在所述关系型数据库中对应用户ID及检索目标药品ID下,或者所述更新值未达到预设阈值,则循环至判断是否存在下一阶段文献检索数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京洞悉网络有限公司,未经北京洞悉网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310347073.7/1.html,转载请声明来源钻瓜专利网。





