[发明专利]一种基于知识增强和预训练的慢性病用药推荐方法在审
| 申请号: | 202210268171.7 | 申请日: | 2022-03-17 |
| 公开(公告)号: | CN114649077A | 公开(公告)日: | 2022-06-21 |
| 发明(设计)人: | 林绍福;王梦真;陈建辉 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G16H20/10 | 分类号: | G16H20/10;G16H50/20;G16H50/30 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 知识 增强 训练 慢性病 用药 推荐 方法 | ||
1.一种基于知识增强和预训练的慢性病用药推荐方法,其特征在于步骤如下:
步骤(1)获取诊断数据集、症状数据集和药物数据集,对数据进行预处理,将数据存储为单次就诊和多次就诊的PKL数据,并分别保存诊断编码ICD-10、国家药物编码和症状分词的词典文件;
步骤(2)根据诊断编码ICD-10和国家药物编码的编码规则进行树构造,通过图注意力网络GAT融合本体知识获得各个编码的本体嵌入表示,并对症状分词进行词典嵌入表示;
步骤(3)将诊断编码ICD-10、国家药品编码本体嵌入和症状分词词典嵌入输入到预训练模型中,定义了随机遮蔽任务、自预测任务和双向预测任务,使得嵌入表示充分融合;
步骤(4)将多次就诊记录中的诊断编码嵌入、症状编码嵌入和药物编码嵌入的平均值及最后一次诊断编码和症状编码的就诊嵌入进行连接,输入到预测模型中,预测推荐的药物编码。
2.根据权利要求1所述的一种基于知识增强和预训练的慢性病用药推荐方法,其特征在于,所述步骤(1)中,对诊断数据集、症状数据集和药物数据集进行数据预处理步骤包括:
(1)在入院信息表和用药汇总表中分别抽取到病人ID、住院ID、诊断编码ICD-10和主诉症状以及国家药物编码;
(2)分别将两张表抽取后的数据进行重复行的删除、采用临近值进行空缺值的补全;
(3)将从入院信息表抽取到的数据按照“病人ID”进行分组汇总,将“病人ID”相同,有多次不同的“住院ID”值的数据归为多次就诊数据,否则为单次就诊数据,获得多次就诊数据和单次就诊数据;
(4)对多次就诊数据和单次就诊数据的“主诉症状”字段进行分词,去除停用词、标点符号等内容,将分词之间用“,”隔开;
(5)将处理后的单次就诊数据和多次就诊数据与用药汇总表进行内连接,获得单次就诊的数据集和多次就诊的数据集,最终形成single_final.pkl和multi_final.pkl两个文件;
(6)将single_final.pkl和multi_final.pkl两个文件中的诊断编码ICD-10、主诉症状分词和药物编码每个编码分别构造诊断编码词典、主诉分词词典和药物编码词典,并分为多次就诊的词典数据和既包括多次就诊也包括单次就诊的词典数据;
(7)将多次就诊数据集multi_final.pkl中的“病人ID”按4:1:1随机划分训练集、验证集和测试集。
3.根据权利要求1所述的一种基于知识增强和预训练的慢性病用药推荐方法,其特征在于,所述步骤(2)中,对诊断编码ICD-10和国家药物编码进行树构造和本体嵌入过程包括:
(1)针对筛选出的慢性病的诊断编码ICD-10构造符合编码规则的编码树:将ICD-10编码分为4层,最底层为完整的ICD-10编码;
(2)将数据集中出现的国家药物编码也按照其编码规则进行树结构的构造,由于药品编码前两位为国别码、第三位为类别码、第4位-第8位为企业标识码、第9位-第13位为产品标识码、第14位为校验码,因此按照此规则将国家药品编码分为5层;
(3)使用图注意力网络整合诊断编码ICD-10和国家药品编码的编码树,从而实现编码的本体嵌入;
(4)将“主诉症状”分词进行词典嵌入构造。
4.根据权利要求1所述的一种基于知识增强和预训练的慢性病用药推荐方法,其特征在于,所述步骤(3)中,使用大量单次就诊数据进行预训练,从每个EMR记录的本体嵌入和字典嵌入中产生每条记录的就诊嵌入,以[CLS]作为每条就诊嵌入序列的初始标记,且为了获得相同的输入长度,每条就诊嵌入可能需要填充以对齐输入向量;在此步骤中,定义了如下两种预训练任务:
(1)随机遮蔽和自预测任务:在随机遮蔽任务中,随机遮蔽一些嵌入,将诊断编码、药物编码、症状分词80%替换成[MASK]、10%不变、10%随机替换;在自预测任务中,结合随机遮蔽后的序列,定义诊断编码预测诊断编码、药物编码预测药物编码和症状分词预测症状分词的任务,构造相应的损失函数,使模型具有自预测能力;
(2)双向预测任务:该任务主要是诊断编码、药物编码、症状分词三者之间进行相互预测,构造相关损失函数,学习诊断编码、药物编码和症状分词之间的关系,具有双向预测能力。
5.根据权利要求1所述的一种基于知识增强和预训练的慢性病用药推荐的方法,其特征在于,所述步骤(4)中,使用MLP模块进行最终药物推荐过程如下:
(1)将多次就诊的EMR数据转化为就诊嵌入,获取多次就诊数据中的前几次诊断嵌入、药物嵌入和症状嵌入的平均值,并将其与最后一次就诊的诊断嵌入和症状嵌入连接起来,输入到预测模块中;
(2)获取预测时间t处的药物编码嵌入作为分类标签,将预测值和真实值联合计算jaccard、f1和pr-auc等指标判断模型效果;
(3)将对抗训练引入预测模型,在诊断嵌入和药物嵌入中添加扰动,以尽可能让模型出错,达到增加鲁棒性的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210268171.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种压力变换装置及输液连接接头
- 下一篇:一种具有存放功能的展示台





