[发明专利]一种基于梯度提升树的蚊媒传染病疫情预测方法及系统有效

专利信息
申请号: 201810097508.6 申请日: 2018-01-31
公开(公告)号: CN108172301B 公开(公告)日: 2021-02-02
发明(设计)人: 张凤军;邱晓慧;周红宁;杜龙飞;梁赓;王鑫 申请(专利权)人: 中国科学院软件研究所
主分类号: G16H50/80 分类号: G16H50/80
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 安丽
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于梯度提升树的蚊媒传染病疫情预测方法及系统:广泛收集影响蚊媒传染病的各种因素数据;对影响蚊媒传染病的数据进行清洗,进而对影响蚊媒传染病因素基于梯度提升树进行重要性排序;根据选取影响蚊媒传染病的重要因素建立基于泊松回归的蚊媒传染病疫情预测模型;利用选取因素与蚊媒传染病疫情相关系数初始化预测模型,之后用S折交叉验证确定蚊媒传染病预测模型参数;利用基于地理信息的疫情热点图与基于时间轴的疫情爆发图可视化展示模型预测结果。本发明将梯度提升树等机器学习方法应用到蚊媒传染病疫情预测领域,可提高蚊媒传染病疫情预测准确率,辅助疾控人员提前预测蚊媒传染病疫情态势,及时采取相应措施控制传染病大规模爆发。
搜索关键词: 一种 基于 梯度 提升 传染病 疫情 预测 方法 系统
【主权项】:
1.一种基于梯度提升树的蚊媒传染病疫情预测方法,其特征在于,包括以下步骤:

第一步,收集影响蚊媒传染病疫情的多种因素数据并预处理;

第二步,对预处理后的所述多种因素数据采用梯度提升树方法,计算每个因素数据的重要度并排序,根据重要度顺序选取若干因素数据作为特征数据;

第三步,使用所述特征数据训练预测模型,确定所述预测模型的最优参数;

第四步,通过所述预测模型和最优参数,完成蚊媒传染病疫情预测;

第五步,可视化展示蚊媒传染病疫情预测态势。

2.根据权利要求1所述的方法,其特征在于:所述步骤一中,所述因素数据包括蚊媒及传染病数据、地理数据、气象数据和社会人文数据;所述蚊媒及传染病数据包括历年蚊媒传染病病例数据、发热门诊数据和传染媒介密度数据;所述地理数据包括土地利用现状、陆地生态系统类型空间分布数据、植被类型空间分布数据、水域分布及面积、居民区分布及面积和森林分布及面积;所述气象数据包括平均、最高、最低气压,平均、最高、最低温度,平均、最小相对湿度,降水量,平均、最大风速,风向,日照时数;所述社会人文数据包括人口数据、交通数据和过境数据。

3.根据权利要求1或2所述的方法,其特征在于:所述步骤一中,所述因素数据不少于10维。

4.根据权利要求2所述的方法,其特征在于:对所述气象数据利用薄板样条插值法进行预处理,包括如下过程:气象数据随时间的分布函数为y=f(x),在监测站点的某一监测时间窗口内收集到n+1组时间‑气象数据对为(x1,y1),(x2,y2),…,(xn+1,yn+1);构造样条函数式中x,y为要被插入的时间‑气象数据对,di为两组时间‑气象数据对之间的欧式距离,Ai,a,b,c为待定的系数。

5.根据权利要求2所述的方法,其特征在于:对所述历年蚊媒传染病病例数据利用正则匹配法进行预处理,包括如下过程:针对门诊病例信息中的问询备注信息构建关键词模板库,通过正则表达式限定符对备注信息中关键词匹配情况进行分类,以确定所述病例的来源。

6.根据权利要求1所述的方法,其特征在于:所述步骤二中,梯度提升树方法具体如下:

(1)计算每个因素数据在单棵决策树中重要度

其中,j为第j个蚊媒传染病因素,L为单棵决策树的节点数量,t为单棵决策树第t个节点,vt为第t个节点所表示的因素值,是第t节点分裂之后平方损失的减少值;

(2)根据单棵决策树中重要度计算结果,计算每个因素数据在全部梯度提升树全局重要度其中,为第j个因素数据在梯度提升树中重要度,Tm表示第m棵决策树,M是梯度提升树含有决策树的数量;

(3)依据(2)的因素数据重要度计算结果,对影响蚊媒传染病全部因素数据依据重要度进行排序,选取若干因素数据作为特征数据。

7.根据权利要求1所述的方法,其特征在于:所述步骤三中,所述预测模型为泊松回归模型,具体模型如下所示:

C表示蚊媒传染病疫情态势情况,d为日期,S(tempavgd‑5,y),S(tempmaxd‑5,y)分别定义了五天前平均、最高温度经过薄板样条插值后的数据y,S(importd‑5,y)定义了五天前输入病例情况,S(rainfalld‑5,y)为五天前累积降水量,S(waterd‑5,y)为五天前的水域面积情况,为过去15天蚊媒传染病疫情态势累积情况;为了提高拟合的准确率,加入S(tempavgd‑52,y)为五天前平均气温的平方值,使蚊媒传染病疫情态势情况与各因素数据不是单纯的线性关系。

8.根据权利要求1所述的方法,其特征在于:所述步骤三中,蚊媒传染病预测模型参数利用S折交叉验证确定,具体过程如下:首先利用每个因素与蚊媒传染病疫情相关性大小即相关系数初始化模型参数,之后利用S折交叉验证确定模型参数。

9.根据权利要求1所述的方法,其特征在于:所述步骤四中,预测结果由基于时空结合的可视化展示方法显示,所述展示方法包括基于地理信息的疫情热点图和基于时间轴的疫情爆发图。

10.一种基于梯度提升树的蚊媒传染病疫情预测系统,其特征在于:包括数据收集模块、数据预处理模块、因素选择模块、模型建立模块、结果展示模块,其中:

数据收集模块:收集影响蚊媒传染病疫情的多种因素数据;

数据预处理模块:对影响蚊媒传染病疫情的因素数据进行预处理,对所述气象数据利用薄板样条插值法进行处理,对所述历年蚊媒传染病病例数据利用正则匹配法进行处理;

因素选择模块:对预处理后的所述多种因素数据采用梯度提升树方法计算每个因素数

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810097508.6/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

tel code back_top