[发明专利]多方法融合的机构匹配方法、装置、设备和存储介质在审
申请号: | 202111192516.7 | 申请日: | 2021-10-13 |
公开(公告)号: | CN113868312A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 王杨;王茜;张奥琳 | 申请(专利权)人: | 上海市研发公共服务平台管理中心 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/215;G06F16/903;G06F40/216 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李治东 |
地址: | 200052 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多方 融合 机构 匹配 方法 装置 设备 存储 介质 | ||
本申请提供了一种多方法融合的机构匹配方法、装置、设备和存储介质,通过构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化;利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体;对目标机构表中各机构数据配置权重;基于实体标注结果与目标机构表的权重,将预处理后的待匹配机构数据与目标机构表进行直接匹配或模糊匹配,以获取匹配结果。本申请可用于解决机构实体对齐、同名学者消歧等问题,大幅节省了预处理和实体标注过程中人工的成本,可适用于不同数据集的处理需求,可提升模型标注效果以及匹配准确度,实现更高的匹配精确度。
技术领域
本申请涉及训练集数据生成技术领域,特别是涉及一种多方法融合的机构匹配方法、装置、设备和存储介质。
背景技术
随着科技领域大数据的发展,在科研人才、科研机构、科技文献的情报分析中,对不规则机构文本的标准化对齐成为亟需解决的问题。由于数据规模大,人工处理较为困难,传统基于规则的数据清洗不能适应复杂混乱的数据格式,采用机器学习模型的技术成为了新的解决路径。以往方法通常只会使用机器学习模型标注机构实体后进行直接匹配,而在遇到相同含义但拼写不一致等情况时会难以处理。此外,以往方法没有对目标机构库进行清洗和权重设置,在运用相似度模型时会出现二级机构比一级机构优先匹配的情况,因此对目标机构库的标准化数据质量要求较高。
随着大数据技术的发展,综合运用数据预处理、标准化、机器学习模型标注、设置权重等多种方法,能够提高机构名称匹配的准确度,有助于进一步应用于构建知识图谱、数据分析、同名学者消歧等工作。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种多方法融合的机构匹配方法、装置、设备和存储介质,以解决现有技术中存在的至少一个问题。
为实现上述目的及其他相关目的,本申请提供一种多方法融合的机构匹配方法,所述方法包括:构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化;利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体;对目标机构表中各机构数据配置权重;基于实体标注结果与目标机构表的权重,将预处理后的待匹配机构数据与目标机构表进行直接匹配或模糊匹配,以获取匹配结果。
于本申请的一实施例中,所述构建数据预处理配置文件,对待匹配机构数据和目标机构表进行清洗和标准化,包括:构建无效字符、特殊字符、无关信息、及符号规范的匹配模式和处理规则,以作为数据预处理配置文件输入;基于所述数据预处理配置文件利用多种工具结合正则表达式对待匹配机构数据和目标机构表进行清洗和标准化;将预处理后的待匹配机构数据和目标机构表保存到MongoDB数据库中,以供实体标注和机构匹配。
于本申请的一实施例中,所述清洗和标准化包括:未解析的HTML内容转换、符号的统一、清洗位于中间的无效字符、移除首尾的干扰字符、无关信息的清洗、拼写格式统一为标题规范、多个空格压缩为一个、规范控制空格格式、全角字符统一为半角、及对组织机构名称标准化中任意一个或多个。
于本申请的一实施例中,所述利用机器学习模型对预处理后的待匹配机构数据进行实体标注,并结合自定义规则从实体标注结果中抽取机构实体和地区实体,包括:将一预处理后的待匹配机构数据中的多个机构名称进行切分;利用机器学习模型对各机构名称进行实体的标注,并将对应所有机构实体的标注结果保存到MongoDB数据库中;根据自定义规则对所述机器学习模型的标注结果进行处理,以供将未识别的机构名称添加至机构实体中,并保存到MongoDB数据库。
于本申请的一实施例中,所述方法还包括:通过机器学习模型抽取地区实体;将包含有机构名称的地区实体扩充至所述机构实体中;将优化后的机构实体和地区实体分别保存到MongoDB数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海市研发公共服务平台管理中心,未经上海市研发公共服务平台管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111192516.7/2.html,转载请声明来源钻瓜专利网。