[发明专利]一种健康医疗文本自动分类和安全等级自动分级方法有效
| 申请号: | 202210638765.2 | 申请日: | 2022-06-08 |
| 公开(公告)号: | CN114722208B | 公开(公告)日: | 2022-11-01 |
| 发明(设计)人: | 顾勤;宋梓语;赵婷;李正;曾怡 | 申请(专利权)人: | 成都健康医联信息产业有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/205;G06F40/30;G06N3/04;G06N3/08;G16H10/60 |
| 代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 舒盛 |
| 地址: | 610093 四川省成都市武侯区*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 健康 医疗 文本 自动 分类 安全 等级 分级 方法 | ||
1.一种健康医疗文本自动分类和安全等级自动分级方法,其特征在于,包括如下步骤:
S100,分别基于albert神经网络模型、RoBERTa神经网络模型和ERNIE-Doc神经网络模型构造不同尺度文本语义特征理解的预训练模型;
S200,对构造的预训练模型分别进行两次预训练,得到针对健康医疗领域的预训练语言模型;
S300,通过对实际健康医疗业务中所用的健康医疗文本进行人工标注得到含有不同尺度文本语义的数据集;
S400,针对下游分类任务对预训练语言模型进行改造,并利用含有不同尺度文本语义的数据集进行训练,得到融合不同尺度文本语义特征理解的文本类别分类器和文本安全等级分类器;
S500,利用融合不同尺度文本语义特征理解的文本类别分类器和文本安全等级分类器对健康医疗文本进行自动分类和安全等级自动分级;
步骤S100中分别基于albert神经网络模型、RoBERTa神经网络模型和ERNIE-Doc神经网络模型构造不同尺度文本语义特征理解的预训练模型的方法包括:
分别通过对albert神经网络模型、RoBERTa神经网络模型和ERNIE-Doc神经网络模型的特征抽取层进行改造,得到不同尺度文本语义特征理解的预训练模型:通过对albert神经网络模型的特征抽取层进行改造,得到3个不同尺度的预训练模型,分别为第一微型预训练模型albert-small、第一中型预训练模型albert-middle和第一大型预训练模型albert-big;通过对RoBERTa神经网络模型的特征抽取层进行改造,得到3个不同尺度的预训练模型,分别为第二微型预训练模型RoBERTa-small、第二中型预训练模型RoBERTa-middle和第二大型预训练模型RoBERTa-big;通过对ERNIE-Doc神经网络模型的特征抽取层进行改造,得到3个不同尺度的预训练模型,分别为第三微型预训练模型ERNIE-Doc-small、第三中型预训练模型ERNIE-Doc-middle和第三大型预训练模型ERNIE-Doc-big;
所述第一微型预训练模型albert-small、第一中型预训练模型albert-middle和第一大型预训练模型albert-big含有不同数量的特征抽取层和自注意力头;所述第二微型预训练模型RoBERTa-small、第二中型预训练模型RoBERTa-middle和第二大型预训练模型RoBERTa-big含有不同数量的特征抽取层和自注意力头;所述第三微型预训练模型ERNIE-Doc-small、第三中型预训练模型ERNIE-Doc-middle和第三大型预训练模型ERNIE-Doc-big含有不同数量的特征抽取层和自注意力头;所述第一微型预训练模型albert-small、第二微型预训练模型RoBERTa-small和第三微型预训练模型ERNIE-Doc-small含有相同数量的特征抽取层,所述第一中型预训练模型albert-small、第二中型预训练模型RoBERTa-small和第三中型预训练模型ERNIE-Doc-small含有相同数量的特征抽取层,所述第一大型预训练模型albert-small、第二大型预训练模型RoBERTa-small和第三大型预训练模型ERNIE-Doc-small含有相同数量的特征抽取层;
步骤S200中对构造的预训练模型分别进行两次预训练,得到针对健康医疗领域的预训练语言模型的方法包括:
S201,使用大规模通用语料对不同尺度文本语义特征理解的预训练模型分别进行第一次无监督学习预训练,训练任务为在每一句话中随机遮住一定比例的字然后让预训练模型对遮住的字进行预测,从而让各个预训练模型学习通用语料知识和语义关系;
S202,使用大规模健康医疗文本,并采用第一次无监督学习预训练的方法,对各个预训练模型进行第二次无监督学习预训练,得到9个训练好的预训练语言模型,分别命名为健康医疗领域第一微型预训练语言模型albert-small-med、健康医疗领域第一中型预训练语言模型albert-middle-med、健康医疗领域第一大型预训练语言模型albert-big-med,健康医疗领域第二微型预训练语言模型RoBERTa-small-med、健康医疗领域第二中型预训练语言模型RoBERTa-middle-med、健康医疗领域第二大型预训练语言模型RoBERTa-big-med,健康医疗领域第三微型预训练语言模型ERNIE-Doc-small-med、健康医疗领域第三中型预训练语言模型ERNIE-Doc-middle-med、健康医疗领域第三大型预训练语言模型ERNIE-Doc-big-med;
S400中针对下游分类任务对预训练语言模型进行改造,并利用含有不同尺度文本语义的数据集进行训练,得到融合不同尺度文本语义特征理解的文本类别分类器的方法包括:
S4110,对于第一微型预训练语言模型albert-small-med、健康医疗领域第一中型预训练语言模型albert-middle-med、健康医疗领域第一大型预训练语言模型albert-big-med:
S4111,在第一微型预训练语言模型albert-small-med、健康医疗领域第一中型预训练语言模型albert-middle-med、健康医疗领域第一大型预训练语言模型albert-big-med的最后一层分别接入softmax神经网络层,分别得到健康医疗领域第一微型文本分类模型albert-small-med-cls、健康医疗领域第一中型文本分类模型albert-middle-med-cls和健康医疗领域第一大型文本分类模型albert-big-med-cls;
S4112,将第一尺度数据集、第二尺度数据集和第三尺度数据集中的文本和对应的分类标签分别送入健康医疗领域第一微型文本分类模型albert-small-med-cls、健康医疗领域第一中型文本分类模型albert-middle-med-cls和健康医疗领域第一大型文本分类模型albert-big-med-cls进行训练,当训练完成后去除三个模型最后一层的softmax神经网络层,得到3个第一文本特征抽取器,分别为健康医疗领域第一微型文本特征抽取器albert-small-med-cls-extractor、健康医疗领域第一中型文本特征抽取器albert-middle-med-cls-extractor和健康医疗领域第一大型文本特征抽取器albert-big-med-cls-extractor;
S4113,将第一尺度数据集、第二尺度数据集和第三尺度数据集中来自同一篇健康医疗文本的三篇文本分别送入健康医疗领域第一微型文本特征抽取器albert-small-med-cls-extractor、健康医疗领域第一中型文本特征抽取器albert-middle-med-cls-extractor、健康医疗领域第一大型文本特征抽取器albert-big-med-cls-extractor,经过每一个第一文本特征抽取器的第一层和最后一层所有字的向量表示求平均,得到3个第一文本高维语义向量,分别为第一微型文本高维语义向量albert-small-med-cls-first-last-layer-average-pooling-embedding、第一中型文本高维语义向量albert-middle-med-cls-first-last-layer-average-pooling-embedding、第一大型文本高维语义向量albert-big-med-cls-first-last-layer-average-pooling-embedding;然后将3个第一文本高维语义向量进行叠加融合为健康医疗领域第一文本特征融合向量albert-med-cls-fuse-embedding;
S4114,基于CatBoost模型或者lightbgm模型建立第一集成学习分类器,将大量健康医疗领域第一文本特征融合向量albert-med-cls-fuse-embedding以及对应的分类标签送入第一集成学习分类器进行训练,训练完成后得到第一融合不同尺度文本语义特征理解的文本类别分类器albert-med-fuse-cls;
S4120,对于健康医疗领域第二微型预训练语言模型RoBERTa-small-med、健康医疗领域第二中型预训练语言模型RoBERTa-middle-med、健康医疗领域第二大型预训练语言模型RoBERTa-big-med:
S4121,在健康医疗领域第二微型预训练语言模型RoBERTa-small-med、健康医疗领域第二中型预训练语言模型RoBERTa-middle-med、健康医疗领域第二大型预训练语言模型RoBERTa-big-med的最后一层分别接入softmax神经网络层,分别得到健康医疗领域第二微型文本分类模型RoBERTa-small-med-cls、健康医疗领域第二中型文本分类模型RoBERTa-middle-med-cls和健康医疗领域第二大型文本分类模型RoBERTa-big-med-cls;
S4122,将第一尺度数据集、第二尺度数据集和第三尺度数据集中的文本和对应的分类标签分别送入健康医疗领域第二微型文本分类模型RoBERTa-small-med-cls、健康医疗领域第二中型文本分类模型RoBERTa-middle-med-cls和健康医疗领域第二大型文本分类模型RoBERTa-big-med-cls进行训练,当训练完成后去除三个模型最后一层的softmax神经网络层,得到3个第二文本特征抽取器,分别为健康医疗领域第二微型文本特征抽取器RoBERTa-small-med-cls-extractor、健康医疗领域第二中型文本特征抽取器RoBERTa-middle-med-cls-extractor和健康医疗领域第二大型文本特征抽取器RoBERTa-big-med-cls-extractor;
S4123,将第一尺度数据集、第二尺度数据集和第三尺度数据集中来自同一篇健康医疗文本的三篇文本分别送入健康医疗领域第二微型文本特征抽取器RoBERTa-small-med-cls-extractor、健康医疗领域第二中型文本特征抽取器RoBERTa-middle-med-cls-extractor和健康医疗领域第二大型文本特征抽取器RoBERTa-big-med-cls-extractor,经过每一个第二文本特征抽取器的第一层和最后一层所有字的向量表示求平均,得到3个第二文本高维语义向量,分别为第二微型文本高维语义向量RoBERTa-small-med-cls-first-last-layer-average-pooling-embedding、第二中型文本高维语义向量RoBERTa-middle-med-cls-first-last-layer-average-pooling-embedding、第二大型文本高维语义向量RoBERTa-big-med-cls-first-last-layer-average-pooling-embedding;然后将3个第二文本高维语义向量进行叠加融合为健康医疗领域第二文本特征融合向量RoBERTa-med-cls-fuse-embedding;
S4124,基于CatBoost模型或者lightbgm模型建立第二集成学习分类器,将大量健康医疗领域第二文本特征融合向量RoBERTa-med-cls-fuse-embedding以及对应的分类标签送入第二集成学习分类器进行训练,训练完成后得到第二融合不同尺度文本语义特征理解的文本类别分类器RoBERTa-med-fuse-cls;
S4130,对于健康医疗领域第三微型预训练语言模型ERNIE-Doc-small-med、健康医疗领域第三中型预训练语言模型ERNIE-Doc-middle-med、健康医疗领域第三大型预训练语言模型ERNIE-Doc-big-med:
S4131,在健康医疗领域第三微型预训练语言模型ERNIE-Doc-small-med、健康医疗领域第三中型预训练语言模型ERNIE-Doc-middle-med、健康医疗领域第三大型预训练语言模型ERNIE-Doc-big-med的最后一层分别接入softmax神经网络层,分别得到健康医疗领域第三微型文本分类模型ERNIE-Doc-small-med-cls、健康医疗领域第三中型文本分类模型ERNIE-Doc-middle-med-cls和健康医疗领域第三大型文本分类模型ERNIE-Doc-big-med-cls;
S4132,将第一尺度数据集、第二尺度数据集和第三尺度数据集中的文本和对应的分类标签分别送入健康医疗领域第三微型文本分类模型ERNIE-Doc-small-med-cls、健康医疗领域第三中型文本分类模型ERNIE-Doc-middle-med-cls和健康医疗领域第三大型文本分类模型ERNIE-Doc-big-med-cls进行训练,当训练完成后去除三个模型最后一层的softmax神经网络层,得到3个第三文本特征抽取器,分别为健康医疗领域第三微型文本特征抽取器ERNIE-Doc-small-med-cls-extractor、健康医疗领域第三中型文本特征抽取器ERNIE-Doc-middle-med-cls-extractor和健康医疗领域第三大型文本特征抽取器ERNIE-Doc-big-med-cls-extractor;
S4133,将第一尺度数据集、第二尺度数据集和第三尺度数据集中来自同一篇健康医疗文本的三篇文本分别送入健康医疗领域第三微型文本特征抽取器ERNIE-Doc-small-med-cls-extractor、健康医疗领域第三中型文本特征抽取器ERNIE-Doc-middle-med-cls-extractor和健康医疗领域第三大型文本特征抽取器ERNIE-Doc-big-med-cls-extractor,经过每一个第三文本特征抽取器的第一层和最后一层所有字的向量表示求平均,得到3个第三文本高维语义向量,分别为第三微型文本高维语义向量ERNIE-Doc-small-med-cls-first-last-layer-average-pooling-embedding、第三中型文本高维语义向量ERNIE-Doc-middle-med-cls-first-last-layer-average-pooling-embedding、第三大型文本高维语义向量ERNIE-Doc-big-med-cls-first-last-layer-average-pooling-embedding;然后将3个第三文本高维语义向量进行叠加融合为健康医疗领域第三文本特征融合向量ERNIE-Doc-med-cls-fuse-embedding;
S4134,基于CatBoost模型或者lightbgm模型建立第三集成学习分类器,将大量健康医疗领域第三文本特征融合向量ERNIE-Doc-med-cls-fuse-embedding以及对应的分类标签送入第三集成学习分类器进行训练,训练完成后得到第三融合不同尺度文本语义特征理解的文本类别分类器ERNIE-Doc-med-fuse-cls。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都健康医联信息产业有限公司,未经成都健康医联信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210638765.2/1.html,转载请声明来源钻瓜专利网。





