[发明专利]标准化数据库和医学文本库的构建方法、装置及电子设备有效
申请号: | 202110398313.7 | 申请日: | 2021-04-14 |
公开(公告)号: | CN112800173B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 汪知滴;王东风;方杰;周月;纪萍 | 申请(专利权)人: | 北京金山云网络技术有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/36;G06F40/284;G06F40/30;G06F40/44;G16H15/00 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 孙翠贤;高莺然 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标准化 数据库 医学 文本 构建 方法 装置 电子设备 | ||
本发明实施例提供了标准化数据库和医学文本库的构建方法、装置及电子设备,涉及人工智能技术领域和医疗领域。该标准化数据库的构建方法包括:基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,并识别每个基础词所属的指定字段;确定每个基础词对应的多个候选标准词;其中,每一基础词对应的多个候选标准词包括该基础词和该基础词的近义词;从每个基础词对应的多个候选标准词中,确定该基础词所属指定字段下的标准词;利用每一指定字段下的各个标准词,构建该指定字段下的标准化数据库。与现有技术相比,应用本发明实施例提供的方案,可以为不同的信息系统的文本数据的标准化处理,提供实现基础。
技术领域
本发明涉及人工智能技术领域和医疗领域,特别是涉及一种标准化数据库和医学文本库的构建方法、装置及电子设备。
背景技术
当前,随着信息技术的不断发展,各行业内部之间的信息交流需求越来越多。但是,现如今,在同一行业内,或者,同一机构内,若干信息系统呈现“信息孤岛”的局面。
针对信息系统所形成的文本数据而言,尽管文本数据在数据字段层面进行了标准化,但是,各个数据字段的数据内容却存在不规范的问题,这无疑会影响各信息系统间的互操作能力以及对于行业规范化和整体效率的提升。
以医疗领域为例,各医疗机构IT系统众多,虽然在医学影像文本数据的数据字段层面进行了标准化统一,但对各个数据字段的数据内容未标准化,从而,无法进行医疗质量的精细化监管分析。例如:对于包含检查部位名称和检查方法名称的医学影像文本数据而言,检查部位名称和检查方法名称是两个标准化的数据字段,但是,不同的医疗机构中,对于同一检查部位的命名可能不同,即检查部位这一数据字段的数据内容并不规范。
基于此,现在亟需构建针对文本数据的标准化数据库,从而为不同的信息系统的文本数据的标准化处理,提供实现基础。
发明内容
本发明实施例的目的在于提供一种标准化数据库的构建方法、装置及电子设备,以为不同的信息系统的文本数据的标准化处理,提供实现基础。另外,本发明实施例还提供了一种医学文本库的构建方法、装置及电子设备,以为不同的信息系统的医学文本数据的标准化处理,提供实现基础。具体技术方案如下:
第一方面,本发明实施例提供了一种标准化数据库的构建方法,所述方法包括:
基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,并识别每个基础词所属的指定字段;其中,每一初始文本数据包含多个指定字段下的数据内容;
确定每个基础词对应的多个候选标准词;其中,每一基础词对应的多个候选标准词包括该基础词和该基础词的近义词;
从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词,作为该基础词所属指定字段下的标准词;
针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库。
第二方面,本发明实施例提供了一种标准化数据库的构建装置,所述装置包括:
数据预处理模块,用于基于对多个初始文本数据进行分词处理所得到的多个分词,确定用于构建标准化数据库的多个基础词,并识别每个基础词所属的指定字段;其中,每一初始文本数据包含多个指定字段下的数据内容;
候选词确定模块,用于确定每个基础词对应的多个候选标准词;其中,每一基础词对应的多个候选标准词包括该基础词和该基础词的近义词;
标准词选取模块,用于从每个基础词对应的多个候选标准词中,确定该基础词对应的标准词,作为该基础词所属指定字段下的标准词;
标准化数据库构建模块,用于针对每一指定字段,利用该指定字段下的各个标准词,构建该指定字段下的标准化数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山云网络技术有限公司,未经北京金山云网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110398313.7/2.html,转载请声明来源钻瓜专利网。