[发明专利]基于论文作者信息提取和关系权值模型的学术关系网构造方法在审
申请号: | 201410395729.3 | 申请日: | 2014-08-13 |
公开(公告)号: | CN104156437A | 公开(公告)日: | 2014-11-19 |
发明(设计)人: | 袁伟;邓攀;闫碧莹;李玉成 | 申请(专利权)人: | 中科嘉速(北京)并行软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 论文 作者 信息 提取 关系 模型 学术 关系网 构造 方法 | ||
技术领域
本发明属于计算机应用技术领域,涉及基于关系权值模型的学术关系网构造方法,特别涉及一种基于论文作者信息提取来获取关系权值的学术关系网构造方法。
背景技术
1967年美国社会心理学家米尔格伦(Stanley Milgram)提出了一个“六度分离”(六度区隔)理论(Six Degrees of Separation)。该理论认为在人际交往的脉络中,任意两个陌生人都可以通过“亲友的亲友”建立联系,这中间最多只要通过五个朋友就能达到目的。
基于“六度分离”理论,2008年6月28日微软悄然推出一款能够直观显示被搜索者人脉关系的“人立方”关系搜索引擎。作为一款新型社会化搜索引擎,“人立方”关系搜索引擎能从超过十亿的中文网页中自动地抽取出人名、地名、机构名以及中文短语,并自动计算出它们之间存在关系的可能性。用户只要随便输入一个人物,“人立方”搜索将给出该人物的关系、网页、资讯、简介等众多内容。
然而对于只关注特定学术领域的作者来说,通过现有人际关系网络的搜索方法得到的人际关系结果中,关系传递路径可能包含非学术领域的人员,结果路径中公众影响力巨大的名人比例较大,对于获取实际的本学术领域内的人际关系和人员信息的帮助甚小。
针对学术领域的人际圈搜索万方数据库已经有所尝试,但是目前万方学术圈搜索只支持对于直接人际关系的搜索,尚未通过间接人际关系来建立学术关系网。
发明内容
本发明针对现有人际关系搜索方法对特定学术领域的搜索结果不理想的问题,提供了一种基于论文作者信息提取和关系权值模型的学术关系网构造方法。
基于论文作者信息提取和关系权值模型的学术关系网构建方法,包括如下步骤:
步骤1、提取作者库中所有作者信息,构建初始的作者关系矩阵;
所述的作者关系矩阵的第i行第j列的元素值为第i个作者和第j个作者的关系值,用0表示作者与自己的关系,-1表示两位作者之间的关系不可达;初始的作者关系矩阵中,对角线上元素值为0,其余位置元素值为-1;
步骤2、建立作者关系权值模型,根据每篇论文的作者信息更新作者关系矩阵;
步骤3、基于步骤2得到的作者关系矩阵确定两两作者间最优关系传递路径,根据最优关系传递路径构建作者关系圈;
所述的两两作者间最优关系传递路径需满足以下几个条件:
1)两者之间经过的路径绝对值长度最短;
2)在所有最短路径中关系值和最大;
3)经过的最短路径小于6。
步骤4、定期更新作者关系矩阵和作者关系圈。由于学术论文库是动态的、不断更新的,该方法对学术论文库进行定期扫描以更新作者关系矩阵和作者关系圈,保证该方法建立的作者关系矩阵和学术关系网能反映最新学术界关系情况。
步骤2所述的作者关系权值模型定义如下:
对于一篇论文P,包括通讯作者在内共有N个作者,对于其中任意两个作者A,B,设作者A是论文P的第m作者,作者B是论文P的第n作者,论文P为作者A与B的关系值贡献的参考值
其中,为了捕获从通讯作者以及作者次序反映出的作者关系远近信息,设置c,d,e,S,x等参数,具体说明如下:
c表示第一作者和通讯作者的关系加强值,c的取值根据长期实验的经验值决定;
x表示作者机构决定的作者关系的权重,x的取值根据长期实验的经验值决定;
S表示由作者次序反映作者关系远近信息的分界值,S的取值根据长期实验的经验值决定;
d表示第一作者和作者次序在S+1位之前的非通讯作者的关系加强值,d的取值根据长期实验的经验值决定;
e表示第一作者和作者次序在S位之后的非通讯作者的关系在第一作者与作者次序在S+1位之前的作者间关系加权值d基础上的削弱值,e的取值根据长期实验的经验值决定;
所得到的参考值Relation<P,<A,B>>四舍五入到整数。
步骤2所述的更新作者关系矩阵,具体是:设k篇论文为作者A和B的关系值贡献的参考值分别为r1,r2,…,rk,则作者A和B的关系值用得到的关系值更新作者关系矩阵中表示A和B关系值的元素值。
步骤c还包括下列步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科嘉速(北京)并行软件有限公司,未经中科嘉速(北京)并行软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410395729.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页文本摘要生成方法和装置
- 下一篇:事务日志的管理方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置