[发明专利]一种基于混合采样策略的中文电子病历命名实体识别方法在审
申请号: | 202211295864.1 | 申请日: | 2022-10-21 |
公开(公告)号: | CN115497590A | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 雷大江;魏琪;姜同远;田宏志;王烨;于洪;王国胤 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F40/295;G06F40/126;G06F40/194;G06K9/62 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王诗思 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 采样 策略 中文 电子 病历 命名 实体 识别 方法 | ||
本发明属于文本处理领域,提供了一种基于混合采样策略的中文电子病历命名实体识别方法,所述方法包括获取有标记实体的源领域数据集和少量标记实体或无标记实体的目标领域数据集;利用源领域数据集训练命名实体识别模型。运用迁移学习将模型应用到目标源领数据集中,得到实体识别结果;运用混合采样策略的主动学习从实体识别结果中选出最有价值的样本,人工标注后加入到训练集中,重复上述过程,直到目标领域实体识别结果达到要求。本发明通过迁移从源领域中学习的知识到目标领域中,缓解了零标记样本冷启动问题,通过选取最有价值的样本减少了人工标注数据量并减少了单位样本的标注成本,同时提高了中文电子病历对于句子级的命名实体识别准确率。
技术领域
本发明属于文本处理领域,具体涉及一种基于混合采样策略的中文电子病历命名实体识别方法。
背景技术
中文临床电子病历(Chinese Electronic Medical Records,CEMRs)作为重要临床数据,以文本或半结构化的形式记录了患者的症状体征、既往史及诊断等信息。因此,结构化地提取病历文本中的信息对于后续临床数据分析尤其重要,其中命名实体识别(NamedEnity Recognition,NER)是关键技术之一。中文临床病历命名实体识别是指利用人工智能、数据挖掘等计算机技术,通过对临床电子病历数据进行训练和学习,构建实体抽取模型。这种模型可以自动地从病历文本中提取患者的表型实体,通常包含症状、疾病诊断、检查、检验指标、解剖部位等医学实体。
由于在某些领域无法获取大量标注数据或者获取大量标注数据所需代价成本较高,如何在少量标注数据的应用场景下更快地提升中文命名实体识别任务的性能,是一个在实际应用场景中备受关注的问题。例如经过标注的中文电子病历资源目前十分稀缺,如何获得有效的、高质量的标注数据成为了急需解决的问题。
主动学习(Active learning)是机器学习的一个子领域,主动学习的思想是通过未标注数据基于某一种筛选策略有选择地选取样本进行人工标注,从而达到减少人工标注工作量,同时最大限度的提升模型表现。现有的广泛使用的主动学习策略大致可分为一下几种:
(1)基于不确定性采样(Uncertainty Sampling)的主动学习策略:是最简单直接也最常用的策略。算法只需要查询最不确定的样本给标注,通常情况下,模型通过学习不确定性强的样本的标签能够迅速提升自己的性能。对于一些能预测概率的模型,例如神经网络,可以直接利用概率来表示不确定性。比如,直接用概率值,概率值排名第一和第二的差值,熵值等等。不确定性采样有以下四种:Least Confidence、Margin of Confidence、Ratio of Confidence、Entropy。
(2)基于多样性采样(Diversity Sampling)的主动学习策略:是从数据的分布考虑的常用策略。算法根据数据分布确保查询的样本能够覆盖整个数据分布以保证标注数据的多样性。多样性采样有如下四种:Model-based Outliers、Cluster-based Sampling、Representative Sampling、Real-world diversity。
迁移学习(Transfer learning)就是把已学训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务是存在相关性的,所以通过迁移学习可以将已经学到的模型参数(也可理解为模型学到的知识)通过某种方式来分享给新模型从而加快并优化模型的学习效率不用像大多数网络那样从零学习。
然而,基于不确定性采样的主动学习策略有一个非常强的假设就是所有样本独立同分布,现实世界中并不总是如此。基于多样性采样的主动学习策略相比于基于不确定性采样的主动学习策略能够更有效的选择具有不同特征的样本,但是却并不能有效识别对于模型来说信息量最丰富的样本。同时主动学习有一个弱点,就是零标记样本冷启动问题。并且传统的主动学习方法无法满足对于句子级准确率有着相当高的要求的中文电子病历命名实体识别这一场景下。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211295864.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种吹尘机构
- 下一篇:一种制备腺苷酸化核酸产物的方法