[发明专利]文献搜索方法、装置及电子设备有效
申请号: | 202011433146.7 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112463950B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 吴嘉澍;王洋;须成忠 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06N7/01;G06N20/00 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 魏毅宏 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文献 搜索 方法 装置 电子设备 | ||
本发明适用文献搜索技术领域,提供了一种文献搜索方法及装置、电子设备,该方法包括:获取各学者所有文献中的词条,根据词条层级关系对所有文献进行词条扩展;针对每一学者,根据各词条在学者所著文献中的出现状况、词条扩展情况,对词条进行不同权重的赋分,构建学者‑词条矩阵;采用机器学习算法对学者‑词条矩阵进行训练生成搜索模型;将搜索关键词在搜索模型中进行运算而输出文献搜索结果。由于在词条扩展时,扩展分数根据该学者其他文献的扩展情况对学者所有文献进行全局考量,并且扩展分数还会根据其与原词条在词条层级关系中的层级差距远近被赋予不同分数,实现文献的合理扩展,有效解决了搜索关键词不显式出现时的搜索质量问题。
技术领域
本发明属于文献搜索技术领域,尤其涉及一种文献搜索方法、装置及电子设备。
背景技术
随着大数据时代数据量的激增,为了满足人们的信息需求,如何高效地从海量信息中搜索出与自身需求相关的信息变得愈发重要。作为信息检索应用技术之一,针对学者的文献搜索可以让用户通过输入感兴趣的关键词,即可从一个机构、一所学校或是更广范围的学者中检索出与关键词相关的学者,且结果根据相关程度做降序排列。为实现这一功能,检索系统中往往存储有各个学者所发表的学术文献,如论文、期刊文章等,从而使得系统可以根据各个学者的文献在搜索时产生搜索结果及其排序。
然而,针对学者的搜索系统会面临一个问题,如用户在搜索“计算机科学”时,从事“自然语言处理”的学者虽与计算机科学高度相关,但却不会被搜索到,或是搜索排序很低。导致这一现象的原因是绝大多数的学者并不会在每篇“自然语言处理”文献中都提及像“计算机科学”这种更高层级领域的概念及关键词,也就是说,用户所键入的搜索关键词“计算机科学”并没有显式的出现在学者所著的文献之中,从而导致搜索结果的质量降低。
发明内容
本发明的目的在于提供一种文献搜索方法、装置及电子设备,旨在解决现有技术中对搜索关键词不显式出现时的搜索质量不高的技术问题。
第一方面,本发明提供了一种文献搜索方法,应用于电子设备,包括:
获取各学者所有文献中的词条;
根据词条层级关系对所有文献进行词条扩展;
针对每一学者,根据各词条在所述学者所著文献中的出现状况、词条扩展情况,对词条进行不同权重的赋分,构建学者-词条矩阵;
采用机器学习算法对所述学者-词条矩阵进行训练,生成搜索模型;
将搜索关键词在所述搜索模型中进行匹配运算,按照匹配程度输出文献搜索结果。
进一步的,所述获取各学者所有文献中的词条的步骤包括:
获取各学者的所有文献;
对各文献进行预操作处理,获取各文献中的词条。
进一步的,所述词条层级关系为学术词汇层级关系,所述根据词条层级关系对所有文献进行词条扩展的步骤包括:
针对文献中的各词条,在所述学术词汇层级关系中查找对应的学术词汇;
按照所述学术词汇层级关系,将所述学术词汇进行向上层级的词条扩展。
进一步的,所述针对每一学者,根据各词条在所述学者所著文献中的出现状况、词条扩展情况,对词条进行不同权重的赋分,构建学者-词条矩阵的步骤包括:
针对每一学者,根据各词条在所述学者所著文献中的出现状况、及词条扩展情况,对词条进行不同权重的赋分;
按照各文献及文献中词条的分数,形成文献-词条矩阵;
将所述文献-词条矩阵转换为学者-词条矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011433146.7/2.html,转载请声明来源钻瓜专利网。