[发明专利]论文作者消歧的方法、装置和计算机设备在审

专利信息
申请号: 202011407501.3 申请日: 2020-12-04
公开(公告)号: CN112528089A 公开(公告)日: 2021-03-19
发明(设计)人: 马文佳 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F16/901 分类号: G06F16/901;G06F16/906;G06F16/9038
代理公司: 深圳市明日今典知识产权代理事务所(普通合伙) 44343 代理人: 王杰辉;熊成龙
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 论文 作者 方法 装置 计算机 设备
【说明书】:

本申请涉及大数据领域,揭示了论文作者消歧的方法,包括:获取数据库中所有论文对应的无向图;判断是否接收到对所述无向图进行节点合并的粗糙化指令;若是,则根据粗糙化类型以及粗糙化后的目标节点数量,对所述无向图进行粗糙化,得到粗糙化后的无向图;判断待消歧作者的论文是否属于所述粗糙化后的无向图中的同一团;若是,则判定待消歧作者的论文属于同一个作者,否者不属于同一个作者。通过粗糙化使无向图的骨架结构根据选择的粗糙化类型进行有针对性的浓缩、凸显,使无向图中每个论文对应的节点,均有一个唯一的、确定的、不同的特征信息,使被消歧论文在无向图中的关联关系更明确,提高论文作者消歧精准度,提高论文群的分类精准度。

技术领域

本申请涉及大数据领域,特别是涉及到论文作者消歧的方法、装置和计算机设备。

背景技术

作者人名消歧一直是工业界与学术界的热点研究方向,也是难点。具不完全统计,在如Pubmed这样的医学数据库中现有论文数量三千万篇,而涉及作者竟有上亿之多,而同名作者如Zhang Wei论文数量有上百万篇。多年来,为解决此问题,人们想出了很多办法,最有效且直观的就是为每位作者注册唯一学术ID,这个想法很好,不过执行起来很困难,也有一些通用的产品,比如ORCID,ResearchID等,因其需要每位作者单独注册并及时更新,即要求作者自己上传论文,维护信息等等。使得作者使用的热情不高,导致很难推行,也因此数据库很难完整,达不到可用水平。而人名消歧研究进展缓慢,比如pubmed官方的消歧工作基本上是基于规则的,如比较重要的一条是:如果同名作者下面的两篇论文有一个共同协作者,那么即认为是两篇论文属于同一作者,经过验证,此方法能解决部分问题,但会引入很多噪声。目前算法基本上是基于文献对(pair)再加上基本的如k-means聚类方法,消歧效果不精准,不尽人意。

发明内容

本申请的主要目的为提供论文作者消歧的方法,旨在解决现有论文消歧效果不精准的技术问题。

本申请提出一种论文作者消歧的方法,包括:

获取数据库中所有论文对应的无向图,其中,所述无向图中的节点与论文一一对应;

判断是否接收到对所述无向图进行节点合并的粗糙化指令,其中,所述粗糙化指令携带粗糙化类型以及粗糙化后的目标节点数量;

若是,则根据所述粗糙化类型以及粗糙化后的目标节点数量,对所述无向图进行粗糙化,得到粗糙化后的无向图;

判断待消歧作者的论文是否属于所述粗糙化后的无向图中的同一团;

若是,则判定待消歧作者的论文属于同一个作者,否者不属于同一个作者。

优选地,所述根据所述粗糙化类型以及粗糙化后的目标节点数量,对所述无向图进行粗糙化,得到粗糙化后的无向图的步骤,包括:

根据所述粗糙化类型确定节点排序因素;

根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序;

根据粗糙化后的目标节点数量确定所述第一排序中保留的第一节点;

将所述无向图内与所述第一节点关联的第二节点,合并至所述第一节点,得到粗糙化后的无向图。

优选地,所述粗糙化类型包括根据一种边种类进行粗糙化,所述边种类包括论文作者对应的机构边,所述节点排序因素包括各节点对应的机构边的权重和,所述根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序的步骤,包括:

获取与指定节点相连的所有机构边,其中,所述指定节点为所述无向图内所有节点中的任一个;

分别计算各所述机构边分别对应的权重;

根据各所述机构边分别对应的权重,计算所述指定节点对应机构边的权重和;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011407501.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top