[发明专利]用于科室分诊的分诊模型的训练方法、分诊方法和系统在审
申请号: | 202011275299.3 | 申请日: | 2020-11-13 |
公开(公告)号: | CN112349410A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 袁鹏;李浩然 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G06F40/289;G06N3/04 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 王文思 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 科室 模型 训练 方法 系统 | ||
本公开提供了一种用于科室分诊的分诊模型的训练方法,包括:基于多个科室中每个科室的标注数据集以及科室在知识库中的科室描述文本,生成每个科室的关键词表;利用第一网络模型生成每个病情描述文本的第一特征向量,利用第二网络模型生成每个科室的关键词表向量;基于病情描述文本的第一特征向量与每个科室的关键词表向量,生成针对每个科室的第二特征向量;基于病情描述文本的第一特征向量与每个第二特征向量之间的相关性生成融合特征向量;基于每个病情描述文本的融合特征向量和病情描述文本的科室信息,对第三网络模型进行训练,得到经训练的分诊模型。本公开还提供了一种分诊模型的训练装置、分诊方法和装置、系统和介质。
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种用于科室分诊的分诊模型的训练方法和装置、分诊方法和装置、系统和介质。
背景技术
随着互联网和人工智能技术的快速发展,文本的识别和分类应用于越来越多的领域。例如,用于为医院提供智能导诊服务的分诊模型,其输入是病人的病情描述,输出是病人应该挂号的科室编号,是一个典型的文本分类问题。由于医院科室分诊业务的特殊性,不能误导病人去错误的科室,所以对分诊模型的准确性要求非常高。
在实现本公开构思的过程中,发明人发现目前通用的文本分类算法对整个输入语句进行特征提取,对于不同特征的重要性,模型很难做出精准的判断,如果输入的语句过长,特征过多,则不同特征之间会互相干扰,从而导致模型有可能忽略掉最重要的特征,最终输出错误的分类结果。
发明内容
有鉴于此,本公开提供了一种用于科室分诊的分诊模型的训练方法和装置、分诊方法和装置、系统和介质。
本公开的一个方面提供了一种用于科室分诊的分诊模型的训练方法,包括:基于多个科室中每个科室的标注数据集以及所述科室在知识库中的科室描述文本,生成所述每个科室的关键词表,其中,所述每个科室的标注数据集包括针对该科室的多个病情描述文本;针对每个科室的多个病情描述文本,利用第一网络模型对每个病情描述文本进行处理,得到每个病情描述文本的第一特征向量,并利用第二网络模型对所述每个科室的关键词表进行处理,得到针对每个科室的关键词表向量;针对每个病情描述文本,基于所述病情描述文本的第一特征向量与每个科室的关键词表向量之间的相关性,生成针对每个科室的所述病情描述文本的第二特征向量;针对每个病情描述文本,基于所述病情描述文本的第一特征向量与每个第二特征向量之间的相关性,生成所述病情描述文本的融合特征向量;基于所述每个病情描述文本的融合特征向量和所述病情描述文本的科室信息,对第三网络模型进行训练,得到经训练的所述分诊模型。
根据本公开的实施例,所述基于多个科室中每个科室的标注数据集以及所述科室在知识库中的科室描述文本,生成所述每个科室的关键词表包括:针对每个科室的标注数据集中的多个病情描述文本,对每个病情描述文本进行划分,得到针对每个病情描述文本的多个分词;基于每个分词和所述科室描述文本共现的概率,计算所述每个分词与所述科室描述文本之间的相关性;基于所述相关性满足预设条件的分词,生成所述每个科室的关键词表。
根据本公开的实施例,所述第一网络模型包括词向量子模型和特征提取子模型;所述利用第一网络模型对每个病情描述文本进行处理,得到每个病情描述文本的第一特征向量包括:利用所述词向量子模型对所述每个病情描述文本进行处理,得到所述每个病情描述文本的的词向量;利用所述特征提取子模型对所述每个病情描述文本的词向量进行处理,得到所述每个病情描述文本的所述第一特征向量。
根据本公开的实施例,所述针对每个病情描述文本,基于所述病情描述文本的第一特征向量与每个科室的关键词表向量之间的相关性,生成针对每个科室的所述病情描述文本的第二特征向量包括:基于所述病情描述文本的第一特征向量与每个科室的关键词表中的每个关键词之间的相关性,生成针对每个关键词的权重;基于针对所述每个关键词的权重中的最大值以及所述针对每个关键词的权重之和,确定针对每个关键词表的权重;基于针对每个关键词表的权重,对所述病情描述文本的第一特征向量进行处理,生成针对每个科室的所述病情描述文本的第二特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011275299.3/2.html,转载请声明来源钻瓜专利网。