[发明专利]一种文献去重存储方法、系统、设备及存储介质有效
申请号: | 202310347073.7 | 申请日: | 2023-04-04 |
公开(公告)号: | CN116126997B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 刘欣毅;梁海阔 | 申请(专利权)人: | 北京洞悉网络有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/194;G16H70/40;G06F16/38 |
代理公司: | 北京华清迪源知识产权代理有限公司 11577 | 代理人: | 丁彦峰 |
地址: | 100000 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文献 存储 方法 系统 设备 介质 | ||
本发明实施例公开了一种文献去重存储方法、系统、设备及存储介质,首先利用标题信息、作者信息以及文献来源库标识生成去重指纹信息,作为第一查重条件在文献存储总数据库中进行去重存储。在利用第一查重条件查重存储的基础上,将第一查重条件、第二查重条件和第三查重条件相结合,在同一用户相同药品检索需求下,实现了对不同文献来源库检索到的同一文献数据进行查重识别并标记,基于标记可以只用于统计作用,不在用户的文献查看页显示,防止用户浏览相同文献。一方面,利用多个查重条件进行多级联合查重,提高了查重准确度。另一方面,实现了多文献来源库查询去重,有效解决了去重不完全的问题,利于用户使用,提高了资源利用率。
技术领域
本发明涉及文献去重存储技术领域,具体涉及一种文献去重存储方法、系统、设备及存储介质。
背景技术
随着药物警戒系统的完善,文献查找逐步成为一个企业建立警戒系统不可或缺的一部分,随着客户的需求增加,文献查找数量的增多和对于文献质量、文献去重的要求提高,文献查找去重存储系统成为重要的一个环节,也就需要为用户提供更加完善的去重存储策略,更好的文献查询阅读体验。
在现有的文献去重存储策略中,存在以下问题:直接使用作者、标题等字段进行简单去重,准确度不高;没有进行多文献来源库查询去重,去重不完全,用户阅读体验差。
发明内容
为此,本发明实施例提供一种文献去重存储方法、系统、设备及存储介质,以解决现有文献去重存储策略中存在的去重准确度不高、去重不完全等的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面,提出一种文献去重存储方法,所述方法包括:
对用户检索到的药品相关文献数据进行采集,得到第一文献数据;
利用所述第一文献数据的标题信息、作者信息以及文献来源库标识,生成去重指纹信息;
利用所述去重指纹信息作为第一查重条件,判断文献存储总数据库中是否存在命中所述第一查重条件的第二文献数据;
若所述文献存储总数据库中不存在所述第二文献数据,则将所述第一文献数据存储至文献存储总数据库中与所述第一查重条件相符的对应位上;
利用所述第一文献数据的标题信息和作者信息作为第二查重条件,从所述文献存储总数据库中筛选出命中所述第二查重条件的第三文献数据;
判断所述第三文献数据中是否存在未命中所述第一查重条件的第四文献数据;
若所述第三文献数据中存在所述第四文献数据,则利用所述第四文献数据、所述用户ID和所述检索目标药品ID作为第三查重条件,判断关系型数据库中是否存在命中所述第三查重条件的第五文献数据;
若所述关系型数据库中存在所述第五文献数据,则将所述第一文献数据在所述关系型数据库中对应用户ID及检索目标药品ID下进行存储并标记。
进一步地,对用户检索到的药品相关文献数据进行采集,得到第一文献数据,包括:
利用当前目标检索任务对应的用户ID、检索目标药品ID、检索规则信息,生成第一检索任务标识;
将所述第一检索任务标识与用户选定的文献来源库标识绑定,生成第二检索任务标识;
基于所述第二检索任务标识对用户检索到的药品相关文献数据分页进行阶段性采集,得到第一文献数据。
进一步地,所述方法还包括:
若所述文献存储总数据库中存在所述第二文献数据,则利用所述第一文献数据的相关信息对文献存储总数据库中存储的第二文献数据对应信息进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京洞悉网络有限公司,未经北京洞悉网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310347073.7/2.html,转载请声明来源钻瓜专利网。