题目:Multi attribute refined identification of flood-affected bodies based on multi-source data fusion
期刊:Journal of Hydrology
作者:Yutie Jiao, Zongkun Li, Wei Ge, Meimei Wu, Bo Wang, Yadong Zhang, Pieter van Gelder
发表日期:2026年2月8日
DOI:10.1016/j.jhydrol.2026.135104
土地和人口是洪水中最直接和核心的承灾体。准确、全面地识别其属性对于制定差异化的防洪减灾策略至关重要。然而,当前实践中仍存在两个关键挑战。首先,基于机器学习的城市土地功能(ULF)识别精度受数据和网格尺度的限制,而关于其影响的研究仍不充分。其次,基于位置服务(LBS)的数据在表征动态人口分布时存在采样偏差和夜间失真,且其空间分辨率不足以支持高精度洪水模拟。针对ULF识别,通过数据遍历和多尺度融合生成了丰富的对比方案,并构建了集成学习模型以选择最优ULF识别方案。这避免了主观选择带来的精度不确定性,结果为经济损失评估和后续人口空间插值提供了可靠的数据支持。对于动态人口分布,提出了一种基于时空行为规律的人地关系匹配方法,以减少数据偏差的影响。同时,通过区域划分、土地类型及面积权重计算实现了空间降尺度,生成了具有高时空分辨率的动态人口分布图。该结果支持分析人口流动对洪水风险的影响。水力模拟与地理信息系统(GIS)分析相结合,构建了一个基于网格的承灾体多属性诊断框架,包括土地功能、人口规模、水深和空间位置。案例研究表明,该框架为洪水承灾体的准确、全面识别提供了可靠支持。
全球气候变化和快速城市化进程导致极端降雨事件频发,加剧了洪水风险。过去二十年间,洪水已成为最常见的自然灾害之一,造成巨大的经济损失和人员伤亡。例如,2021年中国郑州的特大暴雨和2024年西班牙巴伦西亚地区的严重洪水都带来了惨重后果。未来几十年,预计洪水事件将更加频繁和剧烈,对可持续发展构成重大挑战。洪水损失的大小不仅与洪水本身的危险性(如淹没范围、水深、流速)相关,更与承灾体(如人口、土地、基础设施)的暴露性和脆弱性密切相关。暴露性指受灾对象在洪水淹没区内的分布,脆弱性则表示受灾对象抵御灾害的能力。
在洪水风险管理研究中,土地和人口是最直接、最核心的承灾体,也是评估经济损失和人员安全最常用的对象。然而,当前在准确识别这两者属性上面临显著瓶颈。对于城市土地功能识别,传统的高分辨率遥感影像虽能提供地表覆盖信息,但难以区分物理特征相似但社会功能迥异的土地类型(如商业用地与住宅用地)。近年来,兴趣点(POI)、社交媒体等自愿地理信息(VGI)的兴起,为识别土地的社会功能属性提供了丰富的语义信息。机器学习方法虽能高效识别土地功能,但其准确性严重依赖于数据选择和网格尺度的确定。主观选择特征和尺度无法排除其对识别结果的干扰,导致精度不稳定。另一方面,传统的人口普查数据空间粒度粗糙(通常到区县一级),且其边界与洪水淹没范围不一致,无法精确统计受影响人口数量。虽有人口格网数据项目(如WorldPop),但属于静态人口分布,无法反映人口随时间(如昼夜、工作日与休息日)的动态变化。基于位置服务(LBS)的大数据为估算动态人口分布提供了新途径,但其存在采样偏差(如非手机用户被忽略)、夜间数据失真(手机关机或使用频率低)以及空间分辨率不足(通常为数百米)等问题,难以与高精度(米级)的洪水模拟要素匹配。因此,迫切需要开发一种能够精准、全面识别洪水承灾体多属性(土地功能、动态人口、空间位置、洪水水深等)的集成化框架,以支持差异化的应急防控和资源精准调配。
本研究以中国郑州市中原区为案例区,构建了一个集成多源数据融合、机器学习、水力模拟与GIS分析的网格化多属性诊断框架。研究方法主要分为三个核心部分:
1. 城市土地功能(ULF)的优化识别:
数据准备与方案生成: 收集了8类多源数据,包括Sentinel-2高分辨率影像(D1)、百度POI(D2)、百度LBS(D3)、Copernicus DEM(D4)、公交地铁站点(D5)、建筑数据(D6)、人口格网(D7)和NPP/VIIRS夜间灯光(D8)。将D1和D2设为基础数据集,通过遍历组合生成包含至少一个基础集的190种数据组合方案(CDS),预设了10个网格尺度(10米至500米),利用Global Moran‘s I指数验证了预设尺度的合理性,形成了网格尺度集合(CGS)。最终将数据组合与网格尺度结合,产生了1900种“数据-尺度”组合方案(CDSCS)。
特征提取: 采用最近邻法将所有数据重采样至目标网格尺度。针对不同类型数据提取特征,如HRI的光谱统计特征(均值、标准差)、POI和LBS的核密度估计(KDE)值、DEM的高程、坡度、起伏度,以及站点距离、平均建筑高度等其他特征。
集成模型构建与最优方案选择: 采用监督分类方法,将土地人工解译为13类。构建了一个包含随机森林(RF)、梯度提升(GB)、逻辑回归(LR)、支持向量机(SVM)和Transformer(TF)五种基分类器的软投票集成模型。通过贝叶斯优化调整各基分类器超参数,并根据其在验证集上的宏平均F1分数分配集成权重。使用该集成模型评估1900种组合方案的识别精度,自动选择出每个尺度下精度最高的最优数据方案,避免了主观选择的不可靠性。
2.动态人口分布的高分辨率模拟:
人口分类与规模确定: 根据年龄和智能手机使用情况,将人口划分为手机感知群体(MAG)和非手机感知群体(NMAG)。结合通勤行为规律,将人口进一步归类为居家人口、钟摆人口(本地、外出、外来)和随机人口,并构建了昼夜人口计算公式。
人口插值与偏差校正: 白天: 利用LBS数据(经总人口数校正后)反映MAG的相对密度,并结合通勤率(取1.16)调整白天流入的就业人口。对于NMAG(婴幼儿、幼儿园及小学生),则根据其人地活动规律(居家、在园、在校),使用差异化的面积权重法,将其分配至相应的住宅、幼儿园和小学土地类型上。夜间: 由于LBS数据失真,主要依据建筑楼层面积权重,将常住人口中的各类群体(如大学生分配至大学用地,其余分配至居住用地)以及住院病人等随机人口分配至对应功能建筑中。
空间降尺度: 为解决200米人口格网与高精度洪水模拟不匹配的问题,提出了一种基于土地类型和面积双重约束的空间降尺度方法。首先,根据各网格定位点数量,采用头尾分割法进行迭代区域划分。然后,统计各分区内不同土地类型的面积比例,得到土地类型权重;同时统计网格内各土地类型的面积比例,得到面积权重。结合两者计算每个网格内各地类的综合权重,最终将200米网格的人口分配至50米网格,生成高时空分辨率的人口分布图。
3.多属性关联与洪水风险诊断:
水力要素模拟: 使用风暴雨水管理模型(SWMM)模拟研究区在1年至100年一遇共6种重现期下的洪水淹没水深。
空间位置属性关联: 利用GIS邻近分析,将每个网格中心点与最近的POI相关联,从而为网格赋予POI的社会功能信息(名称、地址)。
网格化多属性集成: 将识别得到的最优土地功能类型、模拟得到的高分辨率动态人口分布、不同情景下的洪水水深以及关联的空间位置信息,集成到统一的网格单元中,形成每个网格的多属性标签。
动态风险分析示例: 采用“动态暴露-危险性-脆弱性”风险框架(忽略脆弱性),将50年一遇洪水水深与四个典型时段(夜间、早高峰、午间、夜间活动期)的人口分布进行叠加分析,展示了洪水风险随人口流动而产生的时空变化规律。

ULF识别最优方案与阈值效应: 在10个预设网格尺度中,50米尺度下的7类数据组合(D1-D7) 取得了最高的ULF识别精度,达到90.14%,比所有方案的平均精度(72.69%)高出17.45%。研究发现,网格尺度和数据量对识别精度均存在显著的“阈值效应”。网格尺度方面,识别精度随尺度减小而提高,但尺度小于44米后,因网格内噪声干扰加剧,精度反而可能下降。数据量方面,引入更多有效数据能提升精度,但当数据量增至8类时,因信息冗余和噪声干扰,最高精度反而从7类数据时的90.14%下降至88.36%。此外,不同尺度下所需的最优数据组合形式不同,表明数据需求具有尺度依赖性。
特征贡献与模型鲁棒性: 对最优方案的特征分析显示,工作日24:00的LBS核密度特征(W24)贡献度最高,其次是HRI和POI数据特征。通过特征筛选和组合优化可以在较低计算成本下获得满意精度,但集成模型通过融合多算法优势,能利用那些单独重要性低但具有互补效应的特征,从而追求最大精度。噪声测试表明,即使对重要特征施加±20%的随机噪声,模型对低置信度结果的预测比例仍极低,显示出较强的抗干扰能力和鲁棒性。
图8 定位点数量频数统计、头尾分割分区及土地类型权重计算示例结果
图9 2024年4月15日中原区高时空分辨率人口分布图
高分辨率动态人口分布图: 研究成功生成了中原区2024年4月15日的高时空分辨率(50米网格,小时级)人口分布图。结果显示,人口分布呈现明显的昼夜动态规律:夜间人口主要集中在居住区休息;白天因通勤、工作、上学等活动,人口向交通干道、公司企业、商业区、学校等区域扩散,呈现“聚集-回流”的特征。经土地类型和面积权重降尺度后的人口分布,在保留宏观分布特征的同时,能更精细地反映局部区域人口与土地功能、建筑规模的匹配关系。
多属性识别与动态风险示例: 案例实现了对每个网格单元土地功能、人口数量(如早高峰时段)、淹没水深(如50年一遇)及其邻近关键POI地址的多属性同步识别。动态风险分析表明,洪水高风险区域并非固定不变:居住区风险峰值出现在夜间,道路在早高峰时段,商业用地则在晚间活动时段。这清晰揭示了人口流动性对洪水风险时空格局的塑造作用,强调了风险管理策略需因时、因地差异化制定。
本研究构建的“数据融合-机器学习-模拟分析-空间集成”网格化多属性诊断框架,不仅适用于洪水灾害,其方法论对地震、飓风等其他自然灾害的承灾体精细识别与风险评估也具有普适的借鉴意义,为智慧应急管理与城市韧性建设提供了可靠的技术工具和数据基础。
引用
Jiao, Y., Li, Z., Ge, W., Wu, M., Wang, B., Zhang, Y., & van Gelder, P. (2026). Multi-attribute refined identification of flood-affected bodies based on multi-source data fusion. Journal of Hydrology, 135104. https://doi.org/10.1016/j.jhydrol.2026.135104
注:本文为未经编辑的预印版本,最终内容以正式出版为准。
本文由【生态风险与韧性前沿】发布,欢迎转发分享,转载请注明出处。
关注我们,共同探索生态风险与韧性提升的发展之路。