[发明专利]一种基于短文本分类的电子病历数据质量评价方法在审
申请号: | 202110587641.1 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113360643A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 叶方全;陈逸龙 | 申请(专利权)人: | 重庆南鹏人工智能科技研究院有限公司;广州天鹏计算机科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08;G16H10/60 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 401120 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 分类 电子 病历 数据 质量 评价 方法 | ||
1.一种基于短文本分类的电子病历数据质量评价方法,其特征在于:包括如下步骤:
S1:数据处理:
S1.1:将电子病历数据分类,分成现病史、体格检查、影像学检查、实验室检验,根据不同疾病的诊断依据构建对应的数据集;
S1.2:分别将不同类别的数据拆分成短文本序列,以逗号和句号为分隔符,分割原始数据形成短句样本,根据短句样本及其诊断结果构建短文本数据集;
S1.3:去除包含诊断描述的短句样本,避免直接提示对应的诊断结果;
S2:依据识别:
S2.1:将数据集按4∶1划分为训练集和验证集,所述的训练集用于训练模型,基于预测标签与真实标签的误差,通过交叉熵损失函数来优化模型,交叉熵损失计算如下:
其中,l是标签数量,y是真实标签,是预测标签;
所述的验证集用于验证模型的表现,通过计算精度、召回率、F1分数来证明模型的有效性,精度计算如下:
召回率计算如下:
F1分数计算如下:
其中,TP是预测标签为正的正样本数量,FN是预测标签为负的正样本数量,FP是预测标签为正的负样本数量
S2.2:分别将不同类型的数据作为模型的输入,训练不同的依据识别模型;
S2.3:依次进行以下处理,先将原始文本x输入词嵌入层Embedding,计算得到词向量表示e,计算如下:
ei=Embed(xi)
再将e输入双向长短期记忆网络BiLSTM,计算得到隐藏状态h,计算如下:
it=σ(Wiht-1+Uixt+bi)
ft=σ(Wfht-1+Ufxt+bf)
ot=σ(Woht-1+Uoxt+bo)
at=tanh(Waht-1+Uaxt+ba)
其中,t是时间步,i是输入门,f是遗忘门,o是输出门,c是细胞状态,h是隐藏状态,W、U、B都是模型参数,σ、tanh都是激活函数,最后将隐藏状态输入注意力层Attention,计等得到预测标签计算如下:
si=vtanh(hi)
wi=softmax(si)
其中,w是权重,v是模型参数;
S2.4:模型输出为将短文本识别为不同疾病的诊断依据的概率;
S3:质量评价,所述的质量评价包括纯净数据、高质量数据、低质量数据和噪声数据。
2.根据权利要求1所述的一种基于短文本分类的电子病历数据质量评价方法,其特征在于:所述的步骤S3中的纯净数据是指电子病历中所有短句的预测标签都与真实标签一致,说明样本有充分的诊断依据。
3.根据权利要求1所述的一种基于短文本分类的电子病历数据质量评价方法,其特征在于:所述的步骤S3中的高质量数据是指电子病历中最多的预测标签为真实标签,说明样本有大量的诊断依据以及少量噪声信息。
4.根据权利要求1所述的一种基于短文本分类的电子病历数据质量评价方法,其特征在于:所述的步骤S3中的低质量数据是指电子病历中最多的预测标签不为真实标签,说明样本有少量的诊断依据以及大量噪声信息。
5.根据权利要求1所述的一种基于短文本分类的电子病历数据质量评价方法,其特征在于:所述的步骤S3中的噪声数据是指电子病历中所有短句的预测标签都与真实标签不一致,说明样本包含的完全是噪声信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆南鹏人工智能科技研究院有限公司;广州天鹏计算机科技有限公司,未经重庆南鹏人工智能科技研究院有限公司;广州天鹏计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110587641.1/1.html,转载请声明来源钻瓜专利网。