[发明专利]基于问答系统的医学知识库构建方法有效
申请号: | 201710072930.1 | 申请日: | 2017-02-10 |
公开(公告)号: | CN106844723B | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 王晓黎;林坤辉;吴梦桑 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/215;G06F16/242;G06F16/2458;G16H70/00;G16H50/20;G06N5/02 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 杜阳阳 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于问答系统的医学知识库构建方法,涉及医学知识库。提出基于问答系统的医学知识库构建技术,主要包含三个部分:数据处理,数据分析和专家问答平台。首先在数据处理阶段,利用层次分割的方法从临床数据中提取实体和相关关系;然后,运用关联规则算法对提取的结果进行分析并挖掘实体间的关联,将挖掘出的实体关联与医学词典进行匹配,匹配正确的结果将直接存入知识库;最后,将无法确认的实体关联利用众包技术自动生成问题提交给专家问答平台进行回答,利用多数投票算法从专家的答案中选择最终结果并存储到医学知识库中。 | ||
搜索关键词: | 基于 问答 系统 医学 知识库 构建 方法 | ||
【主权项】:
1.基于问答系统的医学知识库构建方法,其特征在于其包括以下步骤:1)在数据处理阶段,对结构化和非结构化数据进行处理,并将处理结果存入知识库;所述数据处理的数据来源于公开的医疗网站和真实的医疗数据,并利用数据清洗技术对搜集到的数据进行预处理;具体步骤如下:(1)删除重复的数据记录;(2)根据数据集的属性,利用聚类的方式剔除错误数据,所述聚类的处理过程为:从医疗网站收集的数据,利用K‑means算法,根据属性,构造k个分组,每个分组代表一个聚类,每个分组至少包含一个数据点,每个数据点属于且仅属于一个分组;通过反复迭代的方法改变分组,使得同一组中的点尽量靠近,不同组中的点尽量远离;所述从医疗网站收集的数据包括病人姓名、出生日期、身份证号、就诊时间、疾病名称不同属性的数据;(3)利用一个统一的全局变量来填充空值;(4)将模糊和噪声数据提交给专家问答系统处理,专家问答系统收到数据后,将数据通过众包系统提交给专家问答系统的专家用户进行判断,将判断结果储存到数据库中,将利用解析和处理后数据进行实体与实体之间关系的抽取;2)对于不确定的数据,具体分析不确定的数据之间的隐藏关系,并提取出重要的关联信息,具体方法为:为进一步获得抽取出的实体之间的关系,利用关联规则挖掘技术进行分析;3)利用专家问答系统,弥补机器学习在动态环境下的不稳定性,通过得到的专家反馈得到更好的输出结果,具体方法为:系统中的临床数据来源于真实的医院敏感数据,为保护病人的隐私,利用k‑anonymity方法对数据进行处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710072930.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种行星齿轮减速机
- 下一篇:一种基于用户已安装应用来推荐应用的方法和装置