[发明专利]一种科研人员相似社区的构建方法及装置有效
| 申请号: | 202010339353.X | 申请日: | 2020-04-26 |
| 公开(公告)号: | CN111428152B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 郑新章;王锐;王永胜;刘亚丽;冯伟华;贾楠;王迪;宗国浩;王峙 | 申请(专利权)人: | 中国烟草总公司郑州烟草研究院 |
| 主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/36;G06F16/335;G06F16/332;G06F16/215 |
| 代理公司: | 郑州睿信知识产权代理有限公司 41119 | 代理人: | 崔旭东 |
| 地址: | 450001 *** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 科研人员 相似 社区 构建 方法 装置 | ||
本发明涉及一种科研人员相似社区的构建方法及装置,属于数据处理技术领域。包括如下步骤:获取共被引数据,共被引数据包括科研文献、科研文献之间的引用关系以及对应科研文献的作者;建立作者影响力模型,计算作者影响力;对共被引数据进行筛选,筛选包括:从共被引数据中删除作者影响力低于影响力设定值的作者;根据筛选后的共被引数据,生成作者共被引关系网络,作者共被引关系网络包括:每个作者分别和其他作者之间的共被引次数,共被引次数指对应两个作者的论文同时被另一篇论文引用的次数;采用社区发现算法,基于作者共被引关系网络及科研人员影响力,生成科研人员相似社区。本发明降低了数据处理量,提高了图谱的构建效率和信息准确度。
技术领域
本发明涉及一种科研人员相似社区的构建方法及装置,属于数据处理技术领域。
背景技术
科技知识图谱相似社区指的是由研究兴趣相似的若干科研人员组成的群体,是通过构建科研人员研究兴趣相似性网络,识别相似科研人员的社区结构以及社区间的关系,并以可视化网络图谱方式展示。可视化网络图谱中的节点代表科研人员、边表示节点间的相似关系,展示基于研究兴趣相似性聚成的一个个学术群体。科技知识图谱中相似社区网络同现实生活中社交网络具有相似的特性和社区结构,即人员归属于不同社区,整个网络由若干个社区构成,每个社区内的节点之间联系相对紧密,社区之间的联系相对稀疏。网络中每个节点的大小、连线的粗细具有实际意义,以揭示网络节点的影响力、节点之间科研人员研究方向的密切程度。社区发现方法就是从复杂网络关系中发现具有模块结构特性的群体,结合领域知识数据,实现领域内人员社群结构的探查。
社区发现算法最早应用于社交网络领域,用来发现或找出兴趣、爱好相同的社交团体。在科学技术领域,各个领域经过多年发展,众多科研人员产出了大量有价值的科研成果,科研成果同时也从各个方向和角度体现出了不同科技人员之间的关联关系,例如反应了科研人员之间的合作性的科研项目合作关系,以及反应了一定研究方向上的共通性的科研论文引用与被引用关系,此外还有共被引关系,共被引关系基于作者相似度的共被引分析理论,指的是两位作者的文献同时被第三位作者的文献引用时,则称这两位作者之间存在一种共被引关系。两位作者的共被引频次越高,则两位作者的学术关系越密切。两位作者的文献经常在一起被引用,说明他们在学术研究的主题、概念、理论、方法上是相关的。因此基于大量作者间的共被引关系数据进行社区发现,能够反映出相同研究兴趣、方向的科研人员社区团体,为潜在合作伙伴的推荐以及对应科研领域研究前沿信息的探究起到了辅助决策作用。
但是由于一个科研领域涉及的科研人员数量众多,多年来科研文献发表量巨大,相互之间共被引关系纷繁复杂。同时,技术密集发展的今天,在科研活动中,任何一个领域或方向的开发及研究都不可能是孤立的,某个领域内的某个课题的探索和研究都离不开其他领域的技术支持,这也导致了今天大量交叉学科的产生和技术分支越来越细分和精确。在这个背景下,各个领域各个研发方向都会出现其他领域辅助技术或支撑技术的身影,这就导致某个技术领域,例如烟草技术领域中,所产出的论文里面除了引用了本领域活跃技术人员所产出的论文,还引用了大量交叉技术领域或其他领域的论文,造成共被引关系及相关数据复杂且庞大。采用传统社交网络的社区发现算法会出现社区发现计算量大、计算效率低,占用较大硬件资源,不便于实时或者频繁及时的更新数据,造成信息滞后,难以保持信息图谱的准确性。同时共被引数据中每个科研人员(作者)都是相似社区中的最小单元,也是最终信息图谱上的节点,节点数量大也直接导致了图谱信息冗杂,可读性差,难以提取出直接有效的信息;另外相似社区图谱是为了发现有相似研究方向和相似科研兴趣的科研人员团体,而大量交叉技术领域或其他领域论文的引用数据的存在,会导致基于共被引数据发现的社区出现偏差,即社区内的科研人员的研究方向和科研兴趣的相似性有所降低,且各个社区的科研兴趣或科研方向的判断也要参考社区中作为节点的科研人员本身的研究方向,因此大量其他领域科研人员的存在会影响社区学术或科研方向的判断,导致社区反映的学术与科研方向和涉及的相关课题出现偏差甚至错误,导致最终传达出错误的技术情报,极大的影响了用户体验。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国烟草总公司郑州烟草研究院,未经中国烟草总公司郑州烟草研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010339353.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电极极片和二次电池
- 下一篇:一种再生塑料颗粒制备加工工艺





