[发明专利]一种融合学术影响力的学者人名消除歧义的方法有效

专利信息
申请号: 201810067134.3 申请日: 2018-01-24
公开(公告)号: CN108304380B 公开(公告)日: 2020-09-22
发明(设计)人: 邓辉舫;李超然 申请(专利权)人: 华南理工大学
主分类号: G06F40/295 分类号: G06F40/295
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 冯炳辉
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 学术 影响力 学者 人名 消除 歧义 方法
【说明书】:

发明公开了一种融合学术影响力的学者人名消除歧义的方法,该方法是将消歧数据子集和源数据集依据其合著及引用关系构建社交网络,根据网络关系计算消歧数据子集中各个节点的影响力;在消歧数据子集内部根据节点关系分别构建学者与学者,学者与文献,文献与文献,三个网络关系,使用基于排序的损失函数,并结合节点影响力相似度在多个网络中联合学习学者节点间的相似度;基于节点相似度和节点影响力构造聚类函数,从而实现较好的消歧效果。本发明在保护个人隐私的同时克服学术数据中的信息缺失问题,充分利用社交网络特征,融合节点影响力与节点相似度,有效提升学者人名消歧效果。

技术领域

本发明涉及实体消歧的技术领域,尤其是指一种融合学术影响力的学者人名消除歧义的方法。

背景技术

如今绝大多数学术资料均以电子资源形式存储于网络数据库中,科研活动越来越依赖于文献系统,通过文献系统可以获取学者信息和研究文献。学者人名歧义包括:(1)相同学者名在不同文献中记录形式不同;(2)不同学者在文献中名字相同。由于可能存在大量同名学者,且在科技文献中存在简写形式,维护这些数据的文献服务器可能会将多个学者的文献错误聚合,其信息的准确性将直接影响人们学术活动的有效性,因此文献资源面临着严峻的学者人名消歧问题。高效准确的学者名称消歧有助于正确组织文献及学者信息,方便用户获取所需资源,在实际应用中有重要意义。

学者人名消歧属于实体消歧领域的一个分支,现有工作包含基于监督学习的消歧方法和无监督式的消歧方法,目标是建立文献与现实中实体的对应关系。基于监督学习的方法是指,根据人工标注的数据,主要包括学者名字、文献标题、出版地点、研究领域、电子邮件等属性信息,生成分类模型,用其判断相同学者名字是否属于同一个学者实体。但数字文献信息繁多且存在信息缺失、信息错误的问题,需要大量数据标注和清洗,成本较高。无监督名称消歧方法是将记录划分为几个群组,使得每个群组包含来自唯一实体的记录。其方法是利用属性计算记录间的相似度,根据相似度进行聚类。但由于属性相似度约束往往较弱,且难以客观判定区分实体的相似度阈值,消歧准确率往往较低。另一方面,学者数据挖掘涉及学者个人隐私,如何在保护学者隐私的前提下进行人名消歧也是这一领域的一个重要问题。

学者的学术影响力是衡量科研主体的工作质量和重要性的重要指标,现有的学者影响力评估方法大多基于学者相关文献的引用次数,通过学者间合著关系及文献间引用关系构成网络进行学术影响力评估。常用的方式是采用搜索引擎中PageRank方法,对文献及学者重要性进行排序,同时考虑节点间相似度对学术影响力传播的影响进行学术影响力评估。学者的学术影响力是学者之间很有区分度的一个特征,然而现有的学者人名消歧方法多是从学者单个节点角度出发,根据单个节点的特征,而没有从网络全局出发考虑学者的学术影响力。

发明内容

本发明的目的在于克服现有技术的不足,提出了一种融合学术影响力的学者人名消除歧义的方法,在保护个人隐私的同时克服学术数据中的信息缺失问题,充分利用社交网络特征,融合节点学术影响力与节点相似度,有效提升学者人名消歧效果。

为实现上述目的,本发明所提供的技术方案为:一种融合学术影响力的学者人名消除歧义的方法,该方法是以实现将待消歧人名与学者实体准确对应为目标,通过融合学者学术影响力,改进相似度计算模型,提出增强的学术影响力计算模型,而后通过改进网络结构、模型聚类函数和模型组合,以达到更高的消歧准确率;其包括以下步骤:

步骤S1、将学者数据集合U按名字分组得到n个名字组A,根据文献将每个名字组划分为m个学者实体节点a;

步骤S2、根据步骤S1划分结果,对每个组A,分别在组内学者实体节点与U中名字组节点间通过合作关系建立合作关系网络G;

步骤S3、对于每个组A,结合节点相似度和自身重要性,在合作网络G上计算A中各个学者实体节点a基于特征集F的学术影响力

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810067134.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top