[发明专利]一种知识图谱辅助下的自动诊断对话系统在审

专利信息
申请号: 202111036730.3 申请日: 2021-09-06
公开(公告)号: CN113889259A 公开(公告)日: 2022-01-04
发明(设计)人: 王万良;王媛媛;徐新黎;赵燕伟;尹晶 申请(专利权)人: 浙江工业大学
主分类号: G16H50/20 分类号: G16H50/20;G06F16/33;G06F16/332;G06F16/35;G06F16/36;G06F40/216;G06F40/295;G06K9/62;G06N3/04;G06N3/08
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵
地址: 310014 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 知识 图谱 辅助 自动 诊断 对话 系统
【权利要求书】:

1.一个知识图谱辅助下的自动诊断对话系统,其特征在于:包括前端模块、数据采集模块、数据存储管理模块、症状扩充模块、医患对话处理模块,其中:

前端模块,显示人机交互的重要窗口,显示用户输入和相应的系统反馈,在用户输入症状后将其传入医患对话处理模块中。

数据采集模块,利用python爬虫技术完成数据采集工作,采集内容为医患对话语料和疾病词条,向数据存储管理模块输出以完成知识图谱构建和训练样本构建工作。

数据存储管理模块,包括医学知识图谱构建子模块、用户症状信息表和医学数据选择表。其中:

医学知识图谱中包含疾病、症状、就诊科室、治疗方式、关键症状等实体以及症状-疾病之间的权重关系,医学知识图谱构建子模块包括知识获取孙模块、知识融合孙模块、疾病-症状权重关系计算孙模块、知识存储孙模块;其中:

知识获取孙模块,接收数据采集模块的输入,对疾病词条中疾病症状描述部分采用基于深度学习的方法,利用Jieba工具、BERT+BiLSTM+CRF模型和BIO序列标记法进行命名实体识别抽取症状。利用TF-IDF获得疾病描述的关键症状。其中TF为词频,IDF是逆文本频率指数。具体包括:

采用深度学习的方法,利用Jieba工具、BERT+BiLSTM+CRF模型和BIO序列标记法对疾病词条中疾病症状描述部分进行症状识别。首先将SNOMED CT等标准术语集加入Jieba分词专有词库对疾病症状描述进行分词,将分词后的语句利用Bert+BiLSTM+CRF技术实现用户输入语句的症状识别。具体地:

1)利用Bert训练好的Embedding将分词后的句子映射为词向量作为后续BiLSTM网络的输入;

2)输入序列为:X=(x1,x2,x3,...,xn),BiLSTM输出预测序列y=(y1,y2,y3,...,yn)为输入句子每个词的所有标签的预测分值,将输出序列作为第三层CRF层的输入;

3)CRF层定义序列的得分函数:

获得实体BIO标签值。

TF-IDF公式为:

TF-IDF=TF*IDF (4)

知识融合孙模块,利用ICD-10疾病诊断编码的中文疾病名称同义词库将疾病映射至ICD-10标准编码,利用通过SNOMED CT标准库进行症状规范化。

疾病-症状权重关系计算孙模块,利用概率图(Noisy-or)模型技术,计算疾病-症状之间的权重关系。记疾病导致症状的条件概率为P(dis|sym),记症状导致疾病的条件概率为P(sym|dis),每条关系边仅连接一个症状和疾病,且每条边都包含这两个权重。

知识存储孙模块,知识图谱中知识的组织结构以图结构展示,采用CSV文件的形式将实体数据批量导入Neo4j数据库中,利用cypher语言进行知识图谱的可视化处理。

用户症状信息表:存储用户主诉中抽取出的症状。

医学数据选择表:存储医患对话语料中医生通过用户主诉症状为了验证用户所患疾病想用户提问的症状。该表中用户否认的症状标记为-1,用户确认的症状为1。

症状扩充模块,将关键症状和导致疾病的大概率症状添加到医学数据选择表中作为训练数据扩充,提高模型训练的准确率。具体包括:

在知识图谱中利用cypher查询语言患有该疾病的关键症状,将用户自述的显式症状先验概率记为Pprior(sym)=1,根据

P(dis)=P(dis|sym)*Pprior(sym) (5)

得到患有某疾病的概率,再根据

P(sym)=P(sym|dis)*P(dis) (6)

得到症状导致疾病的概率,取P(sym)值最大的前2个。将两中症状加入医学数据选择表中,症状标记为1,若有重复则取其一。

医患对话处理模块,包括医患对话模型训练子模块和医患对话系统代理子模块。其中:

医患对话模型训练子模块,包含自然语言理解孙模块、对话管理孙模块和自然语言生成孙模块,利用强化学习方法训练模型学习决策过程。具体地:

自然语言理解孙模块,识别用户意图和填槽操作。将用户意图分为四类,分别为“询问疾病”、“确认症状”、“否定症状”、“不确定是否拥有该症状”。对医患对话语料采用基于深度学习的方法,利用Jieba工具、BERT+BiLSTM+CRF模型和BIO序列标记法进行命名实体识别抽取症状,简单地,将用户首次输入分类为“询问疾病”,将后续输入按照关键词匹配方式分类分别填入用户症状信息表和医学数据选择表。

对话管理孙模块,包含对话状态跟踪和对话策略学习,实现系统代理与用户之间的对话互动。对话管理模块控制整个流程直至得出诊断结果。具体包括:

采用基于规则的会话状态跟踪器,在完成自然语言理解后,通过会话状态跟踪器存储和更新症状的状态。在每一轮对话中,采用st来保存机器人代理和用户的之前轮动作、已经知道的症状和当前轮的信息。

利用用户模拟器和系统代理模拟任务驱动对话过程训练DQN网络,当医患对话模型做出正确诊断时,对话成功中止;当诊断结果错误或对话轮数达到预定轮数时,对话失败中止。具体地:

用户模拟器中数据来自数据存储管理模块,维护每次对话的用户目标,包括“确诊疾病”、“显式症状”、“隐式症状”。其中“确诊疾病”为本次对话最终确诊症状,“显式症状”来自用户症状信息表,“隐式症状”来自医学数据选择表。

DQN的输入为对话当前状态st,输出Q(st,at|θ)作为在当前状态下选择动作at所获的奖励的衰减加权和:

其中,Q’是目标网络的参数,γ是衰减系数,rt是当前会话状态st下采取系统动作的最大回报。使用贪心策略来训练每个阶段,并将每个时间步的经验et(st,at,tt,st+1)存储在经验池中,当网络表现更好时更新经验池。

自然语言生成孙模块,根据对话管理子模块的决策动作基于模版生成人类语言向用户提问或生成最终的诊断结果。

具体地,医患对话模型训练流程如下:

1)数据采集模块利用爬虫采集疾病条例和医患对话语料传至数据存储管理模块;

2)数据存储管理模块语料进行命名实体识别,再根据疾病条例构建知识图谱,根据医患对话语料填写用户症状信息表和医学数据选择表;

3)症状扩充模块根据医患对话语料的确诊疾病名,采用cypher语言进行查询,获得关键症状和导致疾病的大概率症状,对医学数据选择表进行扩充;

4)利用医患对话语料确诊疾病标签名、用户症状信息表和医学数据选择表构建用户模拟器;

5)利用用户模拟器和系统代理模拟任务驱动对话过程训练DQN网络进行对话决策学习,得到自动对话系统模型,作为医患对话系统代理。

医患对话系统代理子模块,医患对话模型训练子模块训练得到的医患对话模型。医患对话系统代理接收前端模块输入,不断根据用户的反馈自动生成下一步对话直至获得诊断结果,显示于前端页面展示给用户。具体地,若能够确诊某疾病则自动填写诊断模版将其传到前端模块显示给用户,诊断模版的显示内容为确诊疾病名称,建议就诊科室,形成原因和就诊前建议采取的缓解措施和禁忌事项,若对话达到固定轮数还未确诊输出固定语句提醒用户及时至医院就医。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111036730.3/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top