[发明专利]机构命名实体归一化方法和系统有效
申请号: | 202011141016.6 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112215006B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 亓杰星;彭金波;傅洛伊;王新兵 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06F16/35 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机构 命名 实体 归一化 方法 系统 | ||
本发明提供了一种机构命名实体归一化方法和系统,该方法包括:对学术机构信息数据进行筛选,去除错误数据后,得到预处理数据;对所述预处理数据进行去噪处理,得到机构命名实体归一化数据;通过构建的目标文本分类模型对机构命名实体归一化数据进行自动判别,输出判别结果,以得到机构命名实体归一化后的标准名称;根据所述标准名称,统计对应机构的论文数据。从而可以对每一个学术机构的论文数据进行统计,使得对学术机构的学术能力进行更加科学、直观地判别。
技术领域
本发明涉及数据处理技术领域,具体地,涉及机构命名实体归一化方法和系统。
背景技术
机构命名实体归一化在学术大数据中的主要目的是将各种机构别名识别和映射到属于现实的机构实体。机构命名实体归一化对于学术机构能力评估,机构合作网络,学者姓名消歧,学者轨迹追踪,人才流动,学术论文管理以及学术排名等至关重要。在学术论文日益增多的今天,机构命名实体归一化也是构建学术网络知识图谱必不可少的一步。
随着现代科学技术的进步,科研论文数量激增。近年来,论文和专利的数量的平均增长率一直保持在15%左右。同时,对机构论文统计又因为翻译方法,拼写方法,拼写错误,制度变化,写作风格等问题而显得极为复杂。所以,提出一种简单有效的大规模学术机构命名实体归一化系统就显得极其关键。
经过对现有技术的检索,解决机构归一化问题的方法总体上可以分为三类:基于规则的方法,基于知识的方法,以及两种方法结合的混合方法。基于规则的方法利用机构命名实体的一些命名规则,利用正则表达式对机构别名进行匹配,提取出其中能够利用的用于识别机构的信息。主要有De Bru和Moed提出的NEMO系统,该系统利用一层层的规则,提取出机构命名实体中的信息,例如地理位置,网址,邮箱,机构名称等等,并通过现有的本地信息来进行映射。基于知识的方法利用预先准备好的带标签数据,通过机器学习算法学习其中的特征,实现一个分类或者聚类模型。申请号:CN202010397847.3的发明专利公开了一种学者人名的消歧方法、装置、存储介质及终端。该方法通过获取待消歧人名的论文数据集;利用词向量模型获取论文数据集的论文关系特征向量和论文语义特征向量;分别计算论文关系特征向量和论文语义特征向量的相似度矩阵,并进行特征融合,以获取特征融合矩阵;基于特征融合矩阵进行聚类,以获取聚类论文集和离群论文集。
但是,现有技术中的方法对作者命名规范有一定的要求,所以不能大范围的适用,准确率不高。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种机构命名实体归一化方法和系统。
第一方面,本发明提供一种机构命名实体归一化方法,包括:
步骤1:对学术机构信息数据进行筛选,去除错误数据后,得到预处理数据;
步骤2:对所述预处理数据进行去噪处理,得到机构命名实体归一化数据;
步骤3:通过构建的目标文本分类模型对机构命名实体归一化数据进行自动判别,输出判别结果,以得到机构命名实体归一化后的标准名称;
步骤4:根据所述标准名称,统计论文数据。
可选地,所述步骤1包括:
步骤1.1:根据论文数据库,确定所有学术机构的命名实体;
步骤1.2:统计所有相同的命名实体对应的机构名称和频次;
步骤1.3:保留出现频次最大的命名实体对应的机构名称,去除其他机构名称,得到所述预处理数据。
可选地,所述步骤2包括:
步骤2.1:利用字典,将所述预处理数据中机构名称出现的拉丁文转化为英语字母;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011141016.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:火星探测器双组元多档推力器配置和布局方法及系统
- 下一篇:一种建筑涂料喷涂器