[发明专利]一种基于迁移学习的城市内涝分析方法在审
申请号: | 201710282628.9 | 申请日: | 2017-04-26 |
公开(公告)号: | CN107025303A | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 陈华钧;张宁豫;陈曦;吴朝晖 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q50/26 |
代理公司: | 杭州天勤知识产权代理有限公司33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 城市 内涝 分析 方法 | ||
技术领域
本发明属于数据挖掘与城市计算领域,具体涉及一种基于迁移学习的城市内涝分析方法。
背景技术
随着城市规模的逐渐扩大,强对流天气等因素形成的城市内涝是近年来中国最严重的隐患之一。据统计,过去的两年中有超过100个城市发生严重内涝。发生在北京和武汉的内涝甚至造成了严重的人员伤亡、交通瘫痪,导致严重的经济损失。当前的城市检测内涝多采用水位计、摄像头等传感器,覆盖面较小,成本较高。
随着社交媒体和移动互联网的发展,在突发事件发生时,用户发送的相关文本如城市内涝等信息,可以有效描绘当前内涝发生的情况。此外,城市内涝的发生主要还受道路路网、单位时间降水量、地势等因素影响。随着智慧城市建设的逐步推广,目前在大城市,利用社交媒体数据或者传感器数据进行内涝严重程度分析可以取得相对较好效果。然而,对于一些小城市,由于数据缺乏和样本数据的稀疏,模型的训练相对困难。因此,利用大城市的内涝数据进行迁移学习,来训练其他小城市的内涝严重程度模型是相当可行的。
发明内容
本发明提供了一种基于迁移学习的城市内涝分析的方法。相比其他方法,本发明实现了大城市和小城市的内涝严重程度分析,而且成本较为低廉。
一种基于迁移学习的城市内涝分析的方法,包括以下步骤:
(1)对所有城市根据城市本身的规模、地势以及人口分布划分成多个相邻的矩形区域;
(2)采集每个区域的社交媒体数据和物理传感器数据组成样本数据,并利用样本数据构造每个区域内与内涝相关的社交媒体特征和物理传感器特征组成特征数据;
(3)将社交媒体数据和物理传感器数据视作不同视图的数据,并利用多视图算法对每个区域内同一时间段内的社交媒体特征和物理传感器特征进行融合,得到融合特征;
(4)选择分析内涝严重的城市作为目标城市,选取相对于目标城市样本数据和特征数据更多的城市构造来源城市,
若目标城市与来源城市的特征相对熵小于阈值,则将来源城市中的每个区域的融合特征数据与目标城市中每个区域的融合特征数据合并组成样本集,将来源城市与目标城市中每个区域的内涝情况组成真值集,并将样本集作为分类器的输入,将真值集作为分类器的输出,训练分类器,得到内涝严重程度模型;
否则,利用自编码器将目标城市中每个区域的融合特征与来源城市中每个区域的融合特征合并到一个中间公共特征空间,以中间公共特征空间的向量作为分类器的输入,以向量对应的真实内涝情况作为分类器的真值标签,对分类器进行训练,得到内涝严重程度模型;
(5)利用内涝严重程度模型对目标城市中的每个区域进行测试,根据模型输出概率值的大小确定每个区域的内涝程度。
步骤(1)中,每个城市的规模、地势以及人口分布密集程度是不一样的,本发明根据以上因素灵活地确定每个区域的大小,例如:城市规模比较小、地势比较陡峭、人口比较密集,这时候可以将该城市划分成多个较小的区域。
步骤(2)中,所述的社交媒体数据指的是从微博、大众点评以及其他社交媒体获得的社交媒体文本。获得社交媒体特征的过程为:首先,过滤掉社交媒体文本中与内涝不相关的数据,得到预处理后的社交媒体文本;然后,计算预处理后的社交媒体文本的词向量与词频率;并将该词向量与词频率作为社交媒体特征。
步骤(2)中,所述的物理传感器数据为每个区域的地势、降水量以及路网数据,比如每个区域的每小时实时累积每小时降水量“90 16:31 07/12/2016”(降水量,时间),每个区域地势状况“112 5”(区域绝对海拔,误差),路网数据情况“15,6,5”(区域内高架路段长度,桥梁个数,涵洞个数)(高架桥下、涵洞下、桥梁两边易引起积水);以计算得到的每个区域在不同时间段内(0.5小时内、1小时内、2小时内、12小时内、24小时内)的降水量等数据作为降水量特征;以每个区域相对于周边区域的相对海拔作为地势特征;以每个区域内高架的长度、桥梁的个数、涵洞的个数作为路网特征。
步骤(4)中,相对熵又称KL散度,衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布P(x)的事件空间,若用概率分布Q(x)编码时,平均每个基本事件(符号)编码长度增加了多少比特。用D(P||Q)表示KL距离,计算公式如下:
当两个概率分布完全相同时,即P(x)=Q(x),其相对熵为0,X为基本事件集,本发明中,相对熵阈值的取值范围为0~0.2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710282628.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多模激光斑点成像
- 下一篇:体力指标显示系统及其显示方法、体力指标输出装置