[发明专利]基于学科知识图谱集中抽取专家的方法有效
申请号: | 202010474948.6 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111666420B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 林欣;王辰奕;高桢;孙琪力 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F16/35;G06F40/289 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 学科 知识 图谱 集中 抽取 专家 方法 | ||
1.一种基于学科知识图谱集中抽取专家的方法,其特征在于,该方法包括以下具体步骤:
步骤1:对针对某次评审活动进行的专家抽取任务,获取本次所有待评审项目组及其各类领域、中英文关键词信息;
步骤2:对所有项目组分别计算与所有专家间的匹配度,获得对每个项目组匹配程度高的专家备选集合;
步骤3:为本次抽取任务中的所有项目组,在保证专家评审的项目组数量不超过本次抽取任务设置的上限的前提下,集中地从所有专家备选集合中选取专家作为最终抽取结果;
步骤4:若有专家在收到参与评审活动的通知后主动或被动退出评审,则集中地为出现空缺的项目组进行补充,使各项目组最终结果中的专家数量重新满足要求;其中:
所述步骤2具体包括:
步骤A1:使用项目组实例里的中、英文关键词集合,为各个关键词寻找与其关联度最高的学术知识图谱节点并建立映射,为每个项目组实例获得其下所有关键词所对应的所有学术知识图谱节点的集合;
步骤A2:使用专家实例里的中、英文关键词集合,为各个关键词寻找与其关联度最高的学术知识图谱节点并建立映射,为每个专家实例获得其下所有关键词所对应的所有学术知识图谱节点的集合;
步骤A3:使用步骤A1和步骤A2中获得的项目组实例与专家实例的学术知识图谱节点集合,计算项目组实例和每个专家实例两两之间在关键词的匹配度;
步骤A4:使用每个项目组实例里的各项领域信息和每个专家实例里的各项领域信息,计算项目组实例和每个专家实例间在各类领域的匹配度;
步骤A5:将步骤A3中的关键词匹配度和步骤A4中的领域匹配度乘以各自的权重并求和,结果作为项目组实例与专家实例两两之间的学科匹配度;
步骤A6:依据步骤A5获得的学科匹配度,设一个项目组实例的备选集合中最多有k名专家,将所有专家实例中按对每个项目组实例pi的匹配程度排序的前k位,将这k位专家实例组成每个项目组实例pi所对应的专家集合Ei;为每个项目组实例pi都分配k个匹配程度最高的专家实例作为该项目组的备选专家,组成与项目组实例p1~pn一一对应的备选集合E1~En;其中,k=100以内的正整数;
所述为各个关键词寻找与其关联度最高的学术知识图谱节点并建立映射为:建立从关键词到学术知识图谱节点的映射f:keyword→node,通过分析维基百科的词条页面数据实现;具体地说,使用维基百科的词条页面数据,寻找到与一个关键词最相似的一个学术知识图谱节点并将其返回,执行以下步骤:
步骤①:查询本地和网络上的维基数据库,记录下每个图谱节点对应的维基百科词条页面内分别有哪些指向各个维基百科词条的链接,将得到的图谱节点、链接集合二元组缓存成文件;
步骤①在执行过一次以后,仅在新的图谱节点加入时重新执行本步骤;
步骤②:在关键词为中文的情况下,调用谷歌翻译,将关键词翻译为英文,然后执行步骤③;
在关键词为英文时则直接执行步骤③;
步骤③:将关键词或其翻译结果与图谱节点名称的字符串内容进行比对,若某个图谱节点,其节点名称的字符串内容与关键词完全一致,则直接返回该节点作为该关键词的映射结果,否则执行步骤④;
步骤④:查询维基数据库,若关键词在维基数据库中有对应词条页面,且有部分图谱节点的词条页面和关键词的词条页面有共同指向同一个词条页面的超链接,则返回具有共同链接数量最多的图谱节点作为映射结果;若关键词在维基中不存在同名词条,或者所有图谱节点的词条页面和关键词的词条页面都没有共同超链接对象,则执行步骤⑤;
步骤⑤:调用维基百科的api进行访问,得到最多为10个的和关键词最对应的维基百科词条页面,并将这数个页面内的词条超链接合并为一个集合,执行步骤⑥;
步骤⑥:若api搜索到的页面数量不为0,且有部分图谱节点的词条页面和步骤⑤得到的超链接集合有共同链接,则返回和这个链接集合共同词条链接数量最多的图谱节点作为映射结果;若api搜索到的页面数量为0,或者步骤⑤得到中的链接集合仍旧和所有图谱节点的词条页面都没有共同链接,则该关键词映射失败;
步骤A3所述计算项目组实例和每个专家实例两两之间在关键词上的匹配度是:计算项目组实例p与专家实例e的关键词的映射结果在图谱上的路径相似度;在所使用的知识图谱上,节点的分布形式为树形,具有一定的层次性,因此对项目组实例p的学术知识图谱节点集合NP中的每一个节点npi及其计数cpi与专家实例e的学术知识图谱节点集合Ne中的每一个节点nei及其计数cei,根据图谱获得从最上层开始到达节点的所有路径,在双方所有路径对中找到路径上的重合节点最多的一对路径,以该路径对之间的相似度作为这两个节点之间的相似度sim(npi,nei);根据计算得到的所有节点间相似度,实例之间的最终关键词匹配度按照如下方式计算:
步骤A4所述计算项目组实例和每个专家实例间在各类领域上的匹配度是:用项目组实例学科领域与技术领域中的最底层内容与专家实例中的学科领域与技术领域中的最底层内容之间的相似度来计算,按最底层领域内容相同的数量给出领域的匹配度;
所述步骤3具体包括:
步骤a:从备选集合中的所有专家实例中,找出在备选集合中出现的次数大于等于某个下限L的所有专家实例,组成一个集合Es,剩余专家实例则组成另一个集合Et;当选择一名加入最终结果的专家时,对集合Es中的每一个专家实例e,找到所有将此专家实例包含在对应备选集合中且尚未获得足够所需专家的项目组,按照剩余空缺数量从大到小进行排序,并取其中排名靠前且数量不超过本次上限的部分计算匹配度平均排名,选择平均排名最高的专家实例加入用以计算自身平均排名的项目组的最终结果中,并从集合Es中删除;当存在多个专家具有最高平均排名,则从中选出用以计算平均排名的所有项目组的剩余空缺总和最大的专家实例,若有多个专家具有相同剩余空缺总和与最高平均排名,则从中随机选择;在此过程中,当一个专家实例可用以计算平均排名的项目组数量不足下限L,则将该专家实例从集合Es中删除,并加入集合Et;重复所述选择一名专家加入最终结果的过程,直到Es为空或所有项目组都获得了足够的专家;其中,L=2-5的正整数;
步骤b:当选择一名加入最终结果的专家时,对集合Et中的每一个专家实例e,找到所有将此专家实例包含在对应备选集合中且尚未获得足够所需专家的项目组,按照剩余空缺数量从大到小进行排序,并取其中排名靠前且数量不超过本次上限的部分计算匹配度平均排名,选择平均排名最高的专家实例加入用以计算自身平均排名的项目组的最终结果中,并从集合Et中删除;当存在多个专家具有最高平均排名,则从中选出用以计算平均排名的所有项目组的剩余空缺总和最大的专家实例,若有多个专家具有相同剩余空缺总和与最高平均排名,则从中随机选择;在此过程中,当一个专家实例可用以计算平均排名的项目组数量等于0,则将该专家实例从集合Et中删除;重复所述选择一名专家加入最终结果的过程,直到Et为空或所有项目组都获得了足够的专家;
所述步骤4具体包括:
步骤(1):对所有主动或被动退出某些项目组的评审的专家,从所有退出了评审的项目组的备选集合与最终结果中删除;
步骤(2):找出所有存在于任意项目组的最终抽取结果中的专家实例,从中去除在最终抽取结果中出现次数达到上限的专家实例,将剩余专家实例组成集合Ea;当选择一名加入最终结果的专家时,对集合Ea中的每一个专家实例e,找到所有将此专家实例包含在对应备选集合中且没有将该专家实例加入最终结果且尚未获得足够所需专家的项目组,按照剩余空缺数量从大到小进行排序,并取其中排名靠前的项目组计算匹配度平均排名;用于计算平均排名的项目组的数量限定在不会使该专家评审的项目组总数超过本次评审任务所设上限的范围内;在对每个专家完成上述计算后,选择平均排名最高的专家实例加入用以计算自身平均排名的项目组的最终结果中,并从集合Ea中删除;当存在多个专家具有最高平均排名,则从中选出用以计算平均排名的所有项目组的剩余空缺总和最大的专家实例,若有多个专家具有相同剩余空缺总和与最高平均排名,则从中随机选择;在此过程中,当一个专家实例可用以计算平均排名的项目组数量等于0,则将该专家实例从集合Ea中删除;重复所述选择一名专家加入最终结果的过程,直到Ea为空或所有项目组都获得了足够的专家;
步骤(3):从存在于备选集合中而不被任何项目组的最终结果包含的所有专家实例中,找出在备选集合中出现的次数大于等于某个下限L的所有专家实例,组成一个集合Es,剩余专家实例则组成另一个集合Et;当选择一名加入最终结果的专家时,对集合Es中的每一个专家实例e,找到所有将此专家实例包含在对应备选集合中且尚未获得足够所需专家的项目组,按照剩余空缺数量从大到小进行排序,并取其中排名靠前且数量不超过本次上限的部分计算匹配度平均排名,选择平均排名最高的专家实例加入用以计算自身平均排名的项目组的最终结果中,并从集合Es中删除;当存在多个专家具有最高平均排名,则从中选出用以计算平均排名的所有项目组的剩余空缺总和最大的专家实例,若有多个专家具有相同剩余空缺总和与最高平均排名,则从中随机选择; 在此过程中,当一个专家实例可用以计算平均排名的项目组数量不足下限L,则将该专家实例从集合Es中删除,并加入集合Et;重复所述选择一名专家加入最终结果的过程,直到Es为空或所有项目组都获得了足够的专家;其中,L=2-5的正整数;
步骤(4):当选择一名加入最终结果的专家时,对集合Et中的每一个专家实例e,找到所有将此专家实例包含在对应备选集合中且尚未获得足够所需专家的项目组,按照剩余空缺数量从大到小进行排序,并取其中排名靠前且数量不超过本次上限的部分计算匹配度平均排名,选择平均排名最高的专家实例加入用以计算自身平均排名的项目组的最终结果中,并从集合E中删除;当存在多个专家具有最高平均排名,则从中选出用以计算平均排名的所有项目组的剩余空缺总和最大的专家实例,若有多个专家具有相同剩余空缺总和与最高平均排名,则从中随机选择;在此过程中,当一个专家实例可用以计算平均排名的项目组数量等于0,则将该专家实例从集合Et中删除;重复所述选择一名专家加入最终结果的过程,直到Et为空或所有项目组都获得了足够的专家。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010474948.6/1.html,转载请声明来源钻瓜专利网。