Satellite and UAV Imagery for Flood Mapping and Damage Assessment in Mozambique using Machine Learning
2025 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
Floods are becoming increasingly frequent and impactful worldwide, withtheir severity intensifying due to climate change. This growing threat hasmade all countries more vulnerable to natural disasters. Over the past fewdecades, Mozambique has been particularly affected by several tropical cyclones(TCs). In 2019, following the devastation caused by TCs Idai andKenneth, Mozambique became the first country in southern Africa to bestruck by two cyclones in the same rainy season. In 2023, it was hit twice bythe same cyclone, TC Freddy, which was also recorded as the longest-lastingcyclone on record.
Given the extent of the damage caused by such events, there is an urgentneed for efficient and cost-effective methods to map both flooded andflood-prone areas. These methods are essential for aiding local authorities indisaster preparedness, planning, and impact mitigation. Moreover, they playa vital role in providing information that supports evidence-based decisionmakingfor sustainable development. Several remote sensing (RS) approacheshave been proposed for post-flood assessment, including those based on machinelearning (ML) and deep learning (DL). While effective, these approachesoften require large amounts of annotated data and are typically task-specific,limiting their scalability and adaptability especially in data-scarce regions.
In this study, we investigate the use of multi-temporal Sentinel-1 (S1) SyntheticAperture Radar (SAR) and Sentinel-2 (S2) Multi-Spectral Instrument(MSI) data, along with other data sources, to develop scalable, cost-effective,and computationally efficient methods for near real-time flood mapping andflood damage assessment (DA) in Mozambique. Additionally, we explore theuse of Geo-Foundation Models (GFMs) on small datasets for flood mappingand DA, including ML-based alternatives to DL approaches.
As such, three approaches for flood mapping are proposed. The first isa fully automated method for near real-time flood mapping, utilizing multitemporalS1 data acquired over Beira municipality and the Macomia district.It identifies flooded areas by computing the difference between imagesacquired before and after the flooding event, followed by Otsu’s thresholdingmethod for automatic flood area extraction. The second approach employsboth supervised and unsupervised ML methods, such as Support VectorMachines (SVM) and K-Means clustering, leveraging a dataset provided byDrivenData, which was launched as part of a competition for flood mappingusing SAR data. This dataset, based on S1, includes VH and VV imageryand labeled data from 13 countries worldwide. By harnessing the processingcapability of the Google Earth Engine (GEE) platform, both approaches arepresented as an alternative to traditional DL methods due to cost-effectivenessand low computational power requirements. The third approach involves finetuninga GFM, named Clay, on the DrivenData dataset for the task of floodmapping. Foundation Models (FMs) refer to models that are pre-trained onbroad datasets typically using large-scale self-supervision and can be adapted(e.g., fine-tuned) for a wide range of downstream tasks. Clay was initiallyiipre-trained for segmentation, classification, and biomass information extractionusing a variety of sensors such as S1, S2, and Landsat. These models arereshaping how traditional ML and DL approaches are trained, significantlyreducing the amount of time and data required for training while maintaininghigh standards of result quality.
Furthermore, we explored the use of S2 MSI data to generate a land cover(LC) map of the study area and estimate the percentage of flooded areaswithin each LC class. The results demonstrate that the combination of S1and S2 data is a reliable approach for near real-time flood mapping and damageassessment. Using the first approach, we automatically mapped floodedareas with an overall accuracy of about 87–88% and kappa of 0.73–0.75. Thesecond approach also produced satisfactory results, revealing that VH polarizationand the combination of VV+VH performed better than using VVpolarization alone. Specifically, in Cambodia and Bolivia, VH polarizationyielded Intersection over Union (IoU) values ranging from 0.819 to 0.856.Predictions for Beira using VH imagery resulted in an IoU of 0.568, whichrepresents a reasonable outcome. The third approach achieved an IoU exceeding0.92 and an F1-score above 0.96, outperforming the winning DL solutionfrom the DrivenData competition, which attained an IoU of 0.8072 when thedataset was initially released.
The LC classification was validated by randomly collecting over 600 pointsfor each LC class, achieving an overall accuracy of 90–95% with a kappa valueof 0.80–0.94. These results enabled us to identify areas prone to flooding andregions where floodwaters recede more quickly, providing valuable insights forimproved planning. Additionally, we determined the percentage of floodedLC categories such as Agriculture, Mangrove, and Built-up areas, as theirdestruction has significant implications for food security and socio-economicdevelopment.
Furthermore, to obtain more detailed insights into the damage in Beira,we deployed Clay for the task of Building Damage Classification (BDC), finetuningit on the EDDA dataset. The EDDA dataset, released in 2023, consistsof geo-referenced drone imagery captured in Beira after TC Idai. The finetunedmodel achieved a validation IoU of 0.829, which was then comparedto the results from a U-Net implementation that yielded a validation IoU of0.567.
Therefore, the contribution of this thesis lies in providing practical, dataefficientsolutions that enhance local disaster management capabilities andcommunity resilience. We have demonstrated that while ML methods areefficient and cost-effective for near real-time flood mapping, particularly whencombined with Sentinel data, GFMs offer improved accuracy (even with asmall dataset), albeit with slightly higher computational requirements.
Abstract [sv]
Översvämningar blir allt vanligare och deras påverkan värre världen över, ochderas förmåga att göra skada ökar på grund av klimatförändringarna. Dettaväxande hot har gjort alla länder mer sårbara för naturkatastrofer. Under desenaste decennierna har Moçambique särskilt drabbats av flera tropiska cykloner(TC). År 2019, efter förödelsen orsakad av TCs Idai och Kenneth, blevMoçambique det första landet i södra Afrika som drabbades av två cyklonerunder samma regnperiod. År 2023 träffades det två gånger av samma cyklon,TC Freddy, som också registrerades som den längsta varaktiga cyklonennågonsin. Med tanke på omfattningen av de skador som sådana händelserorsakar finns det ett akut behov av effektiva och kostnadseffektiva metoderför att kartlägga både översvämmade och översvämningsdrabbade områden.Dessa metoder är viktiga för att hjälpa lokala myndigheter med katastrofberedskap,planering och begränsning av påverkan. Dessutom spelar de enviktig roll för att tillhandahålla information som stöder evidensbaserat beslutsfattandeför hållbar utveckling. Flera metoder för fjärranalys (RS) harföreslagits för bedömning efter översvämning, inklusive de som bygger på maskininlärning(ML) och djupinlärning (DL). Även om de är effektiva, kräverdessa tillvägagångssätt ofta stora mängder kommenterad data och är vanligtvisuppgiftsspecifika, vilket begränsar deras skalbarhet och anpassningsförmåga,särskilt i områden med brist på data. I den här studien undersökervi användningen av multi-temporal Sentinel-1 (S1) Synthetic Aperture Radar(SAR) och Sentinel-2 (S2) Multi-Spectral Instrument (MSI) data, tillsammansmed andra datakällor, för att utveckla skalbara, kostnadseffektivaoch beräkningseffektiva metoder för översvämningsbedömning (FM) och översvämningsskada(FM) i nära realtid. Dessutom utforskar vi användningen avGeo-Foundation Models (GFM) på små datamängder för FM och DA, inklusiveML-baserade alternativ till DL-metoder. Som sådan föreslås tre tillvägagångssättför FM. Den första är en helt automatiserad metod för nära realtidFM, som använder multi-temporal S1-data som förvärvats över Beira kommunoch Macomia-distriktet. Den identifierar översvämmade områden genom attberäkna skillnaden mellan bilder som tagits före och efter översvämningshändelsen,följt av Otsu’s tröskelmetod för automatisk utvinning av översvämningsområden.Det andra tillvägagångssättet använder både övervakade ochoövervakade ML-metoder, såsom Support Vector Machines (SVM) och KMeans-klustring, som utnyttjar ett dataset från DrivenData, som lanseradessom en del av en tävling för FM som använder SAR-data. Denna datauppsättning,baserad på S1, inkluderar VH- och VV-bilder och annoterad data från13 länder över hela världen. Genom att utnyttja bearbetningsförmågan hosGoogle Earth Engine-plattformen (GEE) presenteras båda metoderna somett alternativ till traditionella DL-metoder på grund av kostnadseffektivitetoch låga krav på beräkningskraft. Det tredje tillvägagångssättet innebär attfinjustera en GFM, kallad Clay, med DrivenData-datasetet för FM-uppgiften.Grundmodeller (FoMs) hänvisar till modeller som är förtränade på breda datauppsättningarsom vanligtvis använder storskalig självövervakning och somkan anpassas (t.ex. finjusteras) för ett brett utbud av nedströmsuppgifter.Clay var från början avsedd för segmentering, klassificering och utvinning avivbiomassainformation med hjälp av en mängd olika sensorer som S1, S2 ochLandsat. Dessa modeller omformar hur traditionella ML- och DL-metodertränas, vilket avsevärt minskar mängden tid och data som krävs för träningsamtidigt som höga standarder för resultatkvalitet bibehålls. Dessutom undersöktevi användningen av S2 MSI-data för att generera en landtäckningskarta(LC) över studieområdet och uppskatta andelen översvämmade områden inomvarje LC-klass. Resultaten visar att kombinationen av S1- och S2-data ärett tillförlitligt tillvägagångssätt för översvämningskartläggning och skadebedömningi nästan realtid. Med den första metoden kartlade vi automatisktöversvämmade områden med en total noggrannhet på cirka 87–88% och kappapå 0,73–0,75. Det andra tillvägagångssättet gav också tillfredsställanderesultat, vilket avslöjade att VH-polarisering och kombinationen av VV+VHfungerade bättre än att använda enbart VV-polarisering. I synnerhet i Kambodjaoch Bolivia, gav VH-polarisering Intersection over Union-värden (IoU)från 0,819 till 0,856. Förutsägelser för Beira med VH-bilder resulterade i ettIoU på 0,568, vilket representerar ett rimligt resultat. Det tredje tillvägagångssättetuppnådde ett IoU som översteg 0,92 och ett F1-poäng över 0,96, vilketöverträffade den vinnande DL-lösningen från DrivenData-tävlingen, som uppnåddeett IoU på 0,8072 när datasetet initialt släpptes. LC-klassificeringenvaliderades genom att slumpmässigt samla in över 600 poäng för varje LCklass,vilket uppnådde en total noggrannhet på 90–95% med ett kappavärdepå 0,80–0,94. Dessa resultat gjorde det möjligt för oss att identifiera områdensom är utsatta för översvämning och regioner där översvämningsvattnet minskarsnabbare, vilket ger värdefulla insikter för förbättrad planering. Dessutombestämde vi andelen översvämmade LC-kategorier som jordbruk, mangroveoch bebyggda områden, eftersom deras förstörelse har betydande konsekvenserför livsmedelssäkerhet och socioekonomisk utveckling. Dessutom, för att fåmer detaljerade insikter om skadorna i Beira, distribuerade vi Clay för uppgiftenBuilding Damage Classification (BDC), och finjusterade den på EDDAdatauppsättningen.EDDA-datauppsättningen, som släpptes 2023, består avgeorefererade drönarebilder som tagits i Beira efter den tropiska cyklonenIdai. Den finjusterade modellen uppnådde en validerings-IoU på 0,829, somsedan jämfördes med resultaten från en U-Net-implementering som gav envaliderings-IoU på 0,567. Därför ligger bidraget från denna avhandling i atttillhandahålla praktiska, dataeffektiva lösningar som förbättrar lokal katastrofhanteringskapacitetoch samhällets motståndskraft. Vi har visat att ävenom ML-metoder är effektiva och kostnadseffektiva för nära realtids-FM, särskilti kombination med Sentinel-data, erbjuder GFM förbättrad noggrannhet(även med en liten datamängd), om än med något högre beräkningskrav.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2025. , p. 86
Series
TRITA-ABE-DLT ; 2511
Keywords [en]
Geo-Foundation Models, Machine Learning, Sentinel 1 and 2, Flood Mapping, Classification, Damage Assessment
National Category
Earth and Related Environmental Sciences
Research subject
Geodesy and Geoinformatics, Geoinformatics
Identifiers
URN: urn:nbn:se:kth:diva-363806ISBN: 978-91-8106-329-5 (print)OAI: oai:DiVA.org:kth-363806DiVA, id: diva2:1959958
Public defence
2025-06-12, D3, Lindstedtsvägen 9, KTH Campus, public video conference link https://kth-se.zoom.us/j/67206163625, Stockholm, 09:30 (English)
Opponent
Supervisors
Note
QC 20250523
2025-05-232025-05-212025-07-08Bibliographically approved
List of papers