[发明专利]一种面向学术论文同名消歧的可视化分析方法在审
申请号: | 202110921609.2 | 申请日: | 2021-08-12 |
公开(公告)号: | CN113780001A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 张勇;张鹏宇;胡永利;尹宝才 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35;G06F16/33;G06F16/16;G06N3/02 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 学术论文 同名 可视化 分析 方法 | ||
1.一种面向学术论文同名消歧的可视化分析方法,其特征在于包括以下步骤:
步骤1:获取原始数据并将数据导入可视化系统
(1)获取数据;将论文数据从数据库导出为CSV格式的文件,并作为本系统的输入;
(2)导入CSV文件;使用者在进行搜索和消歧之前,需要按照系统指定的格式要求导入CSV文件;点击导入CSV按钮,并选择准备好的CSV文件上传即可;上传文件应包含论文名、发文年份、发文期刊、发文关键词和论文作者;
步骤2:利用查询模块搜索待消歧论文作者
此部分包含了需要查询的两部分内容,以论文作者作为节点的查询和时间范围的查询;在姓名框中输入论文作者的姓名后,在时间栏中选择希望查询的时间;选择完成后点击搜索按钮即可;在确定查询作者和查询时间后,系统会在已上传数据集中搜索被查询的作者姓名,而包含被查询姓名的所有论文都会被从上传的总数据集中检索出来,被检索的论文形成一个小型的待消歧数据集;对于论文作者进行同名消歧和其它模块中的可视化渲染都依据这个待消歧数据集;
步骤3:利用关联程度模块寻找可疑节点
可视化系统将待消歧数据集中所有论文作者看作一个团队,这个团队中的人数是不确定的,规模可能从数人到数十人;因为使用者对团队中的每名成员均详细调查会耗费大量时间和精力;所以系统引入关联程度模块来帮助使用者快速确定这个团队中最有可能被算法错误的分配到这个团队中的论文作者;
在关联程度模块中,可以直观地看到每名作者与团队中其他作者之间的关联程度和此作者的发文数量;图中纵坐标代表不同作者,每名作者都被赋予了一种独有的颜色,同一个作者在不同模块均使用同一颜色标识,以增加相同作者在不同模块之间的识别度,保证使用者更快速准确地区分不同作者;
圆圈的颜色为作者独有的颜色,圆圈在横坐标的位置代表此作者与整个团队的关联程度得分;关联程度得分情况由每名作者和团队中其他作者的合作发文数和度中心性综合得出,公式如下:
其中,GL(v)为节点v的关联程度得分,得分越高,则此节点在团队中重要性越高;H(v)为节点v与团队中其他教师合作发表论文的篇数,Z(v)为节点v发表论文的总篇数;n为图中节点的数量;N(v)为节点v的度,即所有与节点v直接相连的节点数量;关联程度得分经过归一化之后的取值范围为(0,1),当得分小于0.2,则此节点可能为错误节点,需要使用者将此节点作为此步骤的输出和下一步骤的输入,对此节点进行重点了解;
步骤4:利用图神经网络进行节点分类
考虑到需要消歧的作者虽然拥有相同的姓名,但通常研究方向却不同;故本方法利用相同姓名的作者研究方向不同作为系统消歧的切入点;分别对论文作者以及论文进行分类;
(1)论文分类
利用论文的关键词和发表期刊信息来对论文进行分类,并将论文分类结果展示在作者发文方向中,以此来辅助使用者确定论文作者的研究方向;
(2)论文作者分类
利用作者曾经的发文关键词作为作者的特征来对作者进行分类,并将分类结果展示在合作关系图中,以此来帮助使用者在同一张图中快速直观地区分不同研究方向的作者以及作者之间的关系;
步骤5:利用合作关系模块确定节点间错误合作关系并修改
合作关系模块着重展现了团队中不同作者之间的合作关系,而探索不同作者之间的合作关系也是本方法进行消歧的主要方法;系统默认进入合作关系模块中的普通模式,此时看到模块中包含了网络关系图和发文期刊图;
(1)网络关系图与发文期刊图
网络关系图中的每个节点代表了一名作者,作者节点的颜色与之前提到过的关联程度模块相同;两名作者曾经合作发表过同一篇论文,两个节点之间就会产生连线;
分类算法将多个作者判断为同一研究方向,系统就会用同一颜色的色块将同一研究方向的节点包裹起来,达到更直观的效果;
右侧的发文期刊图,采用基于桑基图的呈现方式来展示论文作者的发文期刊;展示的信息分为两列,左列为团队中包含的所有论文作者姓名,且作者姓名颜色与关系图中同一作者颜色一致,便于使用者直观地了解作者发文情况;右列为论文作者的发文期刊;作者在某个期刊发表过文章,那么左列作者名和右列期刊名之间就会产生连线;
(2)关系图与期刊图的交叉分析
当使用者点击合作关系图中某一节点时,节点会被高亮显示;与此同时,发文期刊图中会自动隐去其他作者所发表的期刊,只显示被点击作者发表期刊情况;此时图中显示的是正确情况,即被点击作者属于此团队的情况;当使用者点击了有可能被错误划分为此团队的作者时,会看到可疑节点与其他节点不同,仅在少数期刊上发表过文章,则此作者并不属于团队内,只是由于人工或算法对论文分配错误导致;要验证猜想,则将鼠标移动到可疑作者发表期刊上;由于同一团队中作者通常都会在一个或几个期刊中发表论文,故看到同一期刊中同时有多位团队中作者发表过文章,则代表此时数据分配正确;
(3)关联关系的修改
使用者需要进一步了解团队中作者之间的关系,点击合作关系图的全屏模式;全屏模式分为左侧的关联论文、中间的关系图和右侧的强联系三部分;当使用者通过基础信息模块中论文原始信息发现两个作者合作发表过同一篇论文时,便点击两节点之间的线段,被点击的线段会高亮强调,同时右侧强联系框中会出现两人已添加强联系的显示;被添加强联系的作者会被认定为一定有合作关系,此结果会被反馈到分类算法中,用来提升算法准确度;使用者同时点击两个节点,在两个节点高亮显示的同时,左侧也会同时显示出被点击的作者因为哪些论文而产生的联系;使用者通过此功能判断节点之间的联系是否正确;当使用者确定可疑节点为错误节点时,通过在错误节点上点击鼠标右键,在弹出窗口中点击添加或删除节点,便可对错误数据做出修改;
步骤6:使用基础信息模块验证修改是否正确
基础信息模块帮助使用者在使用关联程度和合作关系模块时,了解作者或期刊的详细信息;此模块包含了论文原始数据标签页、作者信息标签页和期刊信息标签页;
论文数据标签页:系统会默认进入论文数据标签页,此标签页中包含了待消歧数据集中所有的论文数据,包括论文名、发文年份、发文期刊、发文作者和发文关键词信息;为使用者提供了最原始的论文数据供参考;
作者信息标签页:当使用者在合作关系图中点击了某个节点时,基础信息模块会自动显示被点击节点的相关信息;包括作者的发文数量、发文年份、发文关键词和发文方向;其中发文方向是通过分类算法对作者发表的论文进行分类得到的结果;此标签页帮助使用者了解不同作者的研究方向,以便于更好地进行同名消歧;
期刊信息标签页:此标签页中包含了待消歧数据集中发文期刊的详细信息,包括期刊名、影响因子和期刊方向信息;使用者通过点击发文期刊图中的右侧期刊名来进行切换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110921609.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种清凉爆破清新感的凉感剂
- 下一篇:一种多层复合封面纸及其生产方法