[发明专利]数据处理方法、装置、电子设备及计算机可读介质有效
| 申请号: | 201810589596.1 | 申请日: | 2018-06-08 |
| 公开(公告)号: | CN108920453B | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 季思伟;张子锐;宋海波;李馨龄 | 申请(专利权)人: | 国家食品药品监督管理总局药品评价中心;医渡云(北京)技术有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/253;G06F40/247 |
| 代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 阚梓瑄;王卫忠 |
| 地址: | 100022 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 电子设备 计算机 可读 介质 | ||
本公开涉及一种数据处理方法、装置、电子设备及计算机可读介质。该方法包括:获取待处理数据,所述待处理数据中包括医学词汇;将所述待处理数据进行分词处理,生成词汇集合;将所述词汇集合与标准词汇集合进行比较,确定所述待处理数据的标签;以及根据所述标签对所述待处理数据进行ICH国际医学用语词典编码处理。本公开涉及上文数据处理方法、装置、电子设备及计算机可读介质,能够提高相关医学术语向标准表的对应成功率和准确率,减少人工标注量。
技术领域
本公开涉及医疗信息处理领域,具体而言,涉及一种数据处理方法、装置、电子设备及计算机可读介质。
背景技术
对于药品临床试验及上市后产生的数据而言,将诊断等术语进行统一的编码是非常重要的工作。以上市后不良反应报告为例,不良反应的报告可能来自于政府部门、合作药企、医生或者患者,其中对同一个不良反应可能会出现几个甚至几百个不同的描述,如“2型糖尿病”、“II型糖尿病”和“糖尿病(2型)”实为同义词,但由于医生的书写习惯不同会出现了不同写法,因此需要对这些诊断术语进行统一的编码。
现有技术中,为了解决上述问题,广泛采用的方式是MedDRA(Medical Dictionaryfor Regulatory Activities,ICH国际医学用语词典)编码,用以将这些同义但不同写法的内容进行归类编码。但是MedDRA编码的归一的工作通常需要大量的人工投入,将人工结果回输给计算机后形成较为准确的MedDRA归一扩增词表,这样,计算机才会对一些医学相关术语进行自动归一。基于人工归一结果建立的词表会存在如下问题:归一结果的一致性有待提高,因为每个人对于医学概念的理解不同,就算在有归一标准的前提下也会出现不同的结果;有一些诊断词非常接近如“2型糖尿病”和“II型糖尿病”它们的主题词“糖尿病”是一致的,区别仅仅在于糖尿病类型的不同写法,且这样的写法似乎是可以枚举的,如果人工进行了大量此类数据的标注,就会提高标注的成本和风险。
因此,需要一种新的数据处理方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种数据处理方法、装置、电子设备及计算机可读介质,能够提高相关医学术语向标准表的对应成功率和准确率,减少人工标注量。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种数据处理方法,该方法包括:获取待处理数据,所述待处理数据中包括医学词汇;将所述待处理数据进行分词处理,生成医学词汇集合;将所述词汇集合与标准词汇集合进行比较,确定所述待处理数据的标签,所述标准词汇集合中包括结构化词表;以及根据所述标签对所述待处理数据进行ICH国际医学用语词典编码处理。
在本公开的一种示例性实施例中,还包括:将ICH国际医学用语词典中的标准词进行分词处理,以生成标准词汇集合。
在本公开的一种示例性实施例中,将所述待处理数据进行分词处理,生成词汇集合包括:通过字符串匹配法对所述待处理数据进行分词处理,生成多个分词词汇;以及通过所述多个分词词汇生成所述词汇集合。
在本公开的一种示例性实施例中,所述字符串匹配法中的机器词典包括:ICH国际医学用语词典中的标准词;以及医学专业词汇。
在本公开的一种示例性实施例中,所述词汇集合中包括一个主诊断词与至少一个属性词,其中,所述主诊断词与至少一个属性词构成结构化词表,将所述词汇集合与标准词汇集合进行比较,以确定所述待处理数据的标签包括:将所述词汇集合中的主诊断词和属性词分别与标准词汇集合中的主诊断词和属性词进行比较,以确定所述待处理数据的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家食品药品监督管理总局药品评价中心;医渡云(北京)技术有限公司,未经国家食品药品监督管理总局药品评价中心;医渡云(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810589596.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息处理方法及装置
- 下一篇:一种主题短语抽取方法





