kth.sePublications KTH
Operational message
There are currently operational disruptions. Troubleshooting is in progress.
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Supervised and unsupervised machine learning approaches using Sentinel data for flood mapping and damage assessment in Mozambique
KTH, School of Architecture and the Built Environment (ABE), Urban Planning and Environment.ORCID iD: 0000-0003-4448-6180
KTH, School of Architecture and the Built Environment (ABE), Urban Planning and Environment, Geoinformatics.ORCID iD: 0000-0001-9692-8636
KTH, School of Architecture and the Built Environment (ABE), Urban Planning and Environment, Geoinformatics.ORCID iD: 0000-0002-0001-2058
KTH, School of Architecture and the Built Environment (ABE), Urban Planning and Environment, Geoinformatics.ORCID iD: 0000-0003-1369-3216
Number of Authors: 42023 (English)In: Remote Sensing Applications: Society and Environment, E-ISSN 2352-9385, Vol. 32, article id 101015Article in journal (Refereed) Published
Abstract [en]

Natural hazards, such as flooding, have been negatively impacting developed and emerging economies alike. The effects of floods are more prominent in countries of the Global South, where large parts of the population and infrastructure are insufficiently protected from natural hazards. From this scope, a lot of effort is required to mitigate these impacts by continuously providing new and more reliable tools to aid in mitigation and preparedness, during or after a flood event. Flood mapping followed by damage assessment plays an important role in all these stages. In this work we investigate a new dataset provided by DrivenData Labs based on Sentinel-1 (S1) imagery (VH, VV imagery and labels) to help map floods in the city of Beira in Mozambique. Exploiting Google Earth Engine (GEE), we deployed supervised and unsupervised machine learning (ML) methods on a dataset comprising imagery from 13 countries worldwide. We first mapped the floods country-by-country including Mozambique. This first part was helpful to understand the sensitivity of each method when applied to data from different regions and with different polarizations. We then trained the supervised model globally (in all 13 countries) and used it to predict floods in Beira. To assess the accuracy of the experiments we used the intersection over the union (IoU) metric, results of which we compared with the benchmark IoU achieved by the winner in the DrivenData competition for flood mapping in 2021. The implementation of unsupervised and supervised ML using VH and VV+VH produced satisfactory results, and showed to be better than using VV imagery; in Cambodia and Bolivia with VH polarization yielded IoUs values ranging from 0.819 to 0.856 which is above the benchmark (0.8094). The predictions in Beira using VH imagery yielded IoU of 0.568, which is a reasonable outcome. The proposed approach is a reliable alternative for flood mapping, especially in Mozambique due to its low cost and time effectiveness as even with unsupervised approaches, relatively high-quality results are yielded in near real-time. Finally, we used Sentinel-2 (S2) imagery for a land cover classification to perform damage assessment in Beira and integrated population data from Beira to enhance the quality the results. The results show that 20% of agricultural area and about 10% of built up area were flooded. Flooded built up area includes highly populated neighborhoods such as Chaimite and Ponta Gea that are located in the center of the city.

Place, publisher, year, edition, pages
Elsevier BV , 2023. Vol. 32, article id 101015
Keywords [en]
Classification, Damage assessment, DrivenData dataset, Flood mapping, Sentinel-1 and Sentinel-2
National Category
Earth Observation
Identifiers
URN: urn:nbn:se:kth:diva-333894DOI: 10.1016/j.rsase.2023.101015ISI: 001054671800001Scopus ID: 2-s2.0-85164383013OAI: oai:DiVA.org:kth-333894DiVA, id: diva2:1791178
Note

QC 20230824

Available from: 2023-08-24 Created: 2023-08-24 Last updated: 2025-05-23Bibliographically approved
In thesis
1. Multi-Temporal Sentinel-1 SAR and Sentinel-2 MSI Data for Flood Mapping and Damage Assessment in Mozambique
Open this publication in new window or tab >>Multi-Temporal Sentinel-1 SAR and Sentinel-2 MSI Data for Flood Mapping and Damage Assessment in Mozambique
2024 (English)Licentiate thesis, comprehensive summary (Other academic)
Abstract [en]

Floods are one of the most frequent natural disasters worldwide. Althoughthe vulnerability varies from region to region, all countries are susceptible toflooding. Mozambique was hit by several tropical cyclones (TCs) in the lastfew decades, and in 2019, after TCs Idai and Kenneth, the country becamethe first one in southern Africa to be hit by two cyclones in the same rainyseason. In 2023, Mozambique was slammed twice by the same cyclone (TCFreddy) which was also recorded as the longest one. Aiming to provide thelocal authorities with tools to yield better responses before and after any disasterevent, and to mitigate the impact and support in decision making forsustainable development, it is fundamental to continue investigating reliablemethods for disaster management. In this thesis, two approaches for floodmapping (FM) are proposed. The first is a fully automated method for FM innear real-time utilizing multi-temporal Sentinel-1 Synthetic Aperture Radar(SAR) data acquired in the Beira municipality and the Macomia district.The second approach relies on supervised and unsupervised machine learning(ML) methods as we investigate a dataset provided by DrivenData Labsbased on Sentinel-1 (S1) imagery (VH, VV imagery and labels from 13 countriesworldwide). By exploiting the processing capability of the Google EarthEngine (GEE) platform, both approaches are presented as an alternative todeep learning (DL) methods due to cost effectiveness and low computationalpower requirement. The first approach is implemented by finding the differencesof images acquired before and after the flooding and then use Otsu’sthresholding method to automatically extract the flooded area from the differenceimage, while the second one is based on ML methods such as SVMand K-Means. To validate and compute the accuracy of the proposed techniques,we compare our results with the Copernicus Emergency ManagementService (Copernicus EMS) data available in the study areas. Furthermore, weinvestigated the use of a Sentinel-2 (S2) multi-spectral instrument (MSI) toproduce a land cover (LC) map of the study area and estimate the percentageof flooded areas in each LC class. The results show that the combinationof S1 and S2 data is reliable for near real-time flood mapping and damageassessment. We automatically mapped flooded areas with an overall accuracyof about 87–88% and kappa of 0.73–0.75 for the first approach. The secondapproach produced satisfactory results, and showed to be better than usingVV imagery; in Cambodia and Bolivia with VH polarization yielded IoUs valuesranging from 0.819 to 0.856. The predictions in Beira using VH imageryyielded IoU of 0.568, which is a reasonable outcome. The LC classification isvalidated by randomly collecting over 600 points for each LC, and the overallaccuracy is 90–95% with a kappa of 0.80–0.94. With these results we wereable to detect areas that are prone to flooding and where floods recede fasterfor improving the planning; we were also able to determine the percentageof flooded LC such as Agriculture, Mangrove and Built as their destructionnegatively impacts on food security and socio-economic development plans.

Abstract [sv]

Översvämningar är en av de vanligaste naturkatastroferna i världen. Även omsårbarheten varierar från region till region är alla länder mottagliga för översvämningar.Moçambique drabbades av flera tropiska cykloner (TC) underde senaste decennierna, och 2019, efter cyklonerna Idai och Kenneth, blevlandet det första i södra Afrika som drabbades av två cykloner under sammaregnperiod. 2023 slog samma cyklon (TC Freddy) ner över Moçambiquetvå gånger, som också registrerades som den tidsmässig längsta. I syfte attförse de lokala myndigheterna med verktyg för att ge dem bättre möjligheteratt planera och genomföra hjälpinsatser före och efter varje katastrofhändelse,och för att mildra påverkan och ge stöd i beslutsfattande för hållbarutveckling, är det viktigt att fortsätta att utveckla tillförlitliga metoder förkatastrofhantering. I denna avhandling föreslås två metoder att genomföraöversvämningskartering (FM). Den första metoden är en helt automatiseradmetod för FM i nästan realtid som använder multi-temporala Sentinel-1 SyntheticAperture Radar (SAR)-data från European Space Agency (ESA) överBeira kommun och Macomia-distriktet. Den andra metoden bygger på övervakadoch oövervakad maskininlärning (ML) där vi undersöker en datamängdsom tillhandahålls av DrivenData Labs som är baserat på Sentinel-1 bilder(S1) (VH, VV-bilder och signaturer (små områden i bilder som markeratssom översvämmade/icke-översvämmade från 13 länder över hela världen)).Genom att använda Google Earth Engine (GEE)-plattformen framstår bådadessa metoder som alternativ till Deep Learning-metoder – de är kostnadseffektivaoch har låga krav på datorkraft. Den förstnämnda metoden implementerasgenom att hitta skillnaderna mellan bilder som tagits före och efteröversvämningen och sedan använda Otsus tröskelmetod för att automatisktextrahera det översvämmade området från skillnadsbilden; den andra baseraspå machine learning metoder som SVM och K-Means . För att valideraoch beräkna noggrannheten hos de föreslagna metoderna jämför vi våra resultatmed Copernicus Emergency Management Service (Copernicus EMS) datasom finns tillgängliga i studieområdena. Dessutom undersökte vi användningenav data från Sentinel-2’s (S2) multispektrala instrument (MSI) för attproducera en marktäckeskarta (LC) över studieområdet och kunna uppskattaandelen översvämmade områden i varje marktäckesklass. Resultaten visaratt kombinationen av S1- och S2-data är tillförlitlig för översvämningskarteringoch skadebedömning i nästan realtid. Vår automatiska kartläggning avöversvämmade områden resulterade i en total noggrannhet på cirka 87–88 %och ett kappavärde på 0,73–0,75 för den första metoden. Den andra metodengav tillfredsställande resultat och visade sig vara bättre än att använda VVbilder;i Kambodja och Bolivia med VH-polarisering erhöll vi IoUs-värdenfrån 0,819 till 0,856. Förutsägelserna i Beira med VH-bilder gav ett IoU på0,568, vilket är ett rimligt resultat. Marktäckesklassificeringen valideras genomatt slumpmässigt sampla över 600 poäng för varje marktäckesklass; dentotala noggrannheten blev 90–95 % med ett kappavärde på 0,80–0,94. Meddessa resultat kunde vi upptäcka områden som är utsatta för översvämningoch där översvämningar avtar snabbare för att förbättra markanvändningsplaneringen.Vi kunde också bestämma procentandelen översvämmade marktäckesklasser som jordbruk, Mangrove och byggt miljö, eftersom deras förstörelsenegativt påverkar livsmedelssäkerheten och socioekonomiska utvecklingsplaner.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2024. p. 66
Series
TRITA-ABE-DLT ; 2418
Keywords
Remote Sensing, Sentinel 1 and 2, Flood Mapping, Classification
National Category
Earth and Related Environmental Sciences
Research subject
Geodesy and Geoinformatics, Geoinformatics
Identifiers
urn:nbn:se:kth:diva-346482 (URN)978-91-8040-902-5 (ISBN)
Presentation
2024-06-05, 1515, 5th floor, Teknikringen 74 D, KTH Campus, public video conference link [MISSING], Stockholm, 10:00 (English)
Opponent
Supervisors
Note

QC 20240521

Available from: 2024-05-21 Created: 2024-05-16 Last updated: 2025-12-16Bibliographically approved
2. Satellite and UAV Imagery for Flood Mapping and Damage Assessment in Mozambique using Machine Learning
Open this publication in new window or tab >>Satellite and UAV Imagery for Flood Mapping and Damage Assessment in Mozambique using Machine Learning
2025 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

Floods are becoming increasingly frequent and impactful worldwide, with their severity intensifying due to climate change. This growing threat has made all countries more vulnerable to natural disasters. Over the past few decades, Mozambique has been particularly affected by several tropical cyclones (TCs). In 2019, following the devastation caused by TCs Idai and Kenneth, Mozambique became the first country in southern Africa to be struck by two cyclones in the same rainy season. In 2023, it was hit twice by the same cyclone, TC Freddy, which was also recorded as the longest-lasting cyclone on record.

Given the extent of the damage caused by such events, there is an urgent need for efficient and cost-effective methods to map both flooded and flood-prone areas. These methods are essential for aiding local authorities in disaster preparedness, planning, and impact mitigation. Moreover, they play a vital role in providing information that supports evidence-based decisionmaking for sustainable development. Several remote sensing (RS) approaches have been proposed for post-flood assessment, including those based on machine learning (ML) and deep learning (DL). While effective, these approaches often require large amounts of annotated data and are typically task-specific,limiting their scalability and adaptability especially in data-scarce regions.

In this study, we investigate the use of multi-temporal Sentinel-1 (S1) Synthetic Aperture Radar (SAR) and Sentinel-2 (S2) Multi-Spectral Instrument(MSI) data, along with other data sources, to develop scalable, cost-effective,and computationally efficient methods for near real-time flood mapping and flood damage assessment (DA) in Mozambique. Additionally, we explore the use of Geo-Foundation Models (GFMs) on small datasets for flood mapping and DA, including ML-based alternatives to DL approaches.

As such, three approaches for flood mapping are proposed. The first is a fully automated method for near real-time flood mapping, utilizing multitemporal S1 data acquired over Beira municipality and the Macomia district. It identifies flooded areas by computing the difference between images acquired before and after the flooding event, followed by Otsu’s thresholding method for automatic flood area extraction. The second approach employs both supervised and unsupervised ML methods, such as Support Vector Machines (SVM) and K-Means clustering, leveraging a dataset provided by DrivenData, which was launched as part of a competition for flood mapping using SAR data. This dataset, based on S1, includes VH and VV imagery and labeled data from 13 countries worldwide. By harnessing the processing capability of the Google Earth Engine (GEE) platform, both approaches are presented as an alternative to traditional DL methods due to cost-effectiveness and low computational power requirements. The third approach involves finetuning a GFM, named Clay, on the DrivenData dataset for the task of flood mapping. Foundation Models (FMs) refer to models that are pre-trained on broad datasets typically using large-scale self-supervision and can be adapted(e.g., fine-tuned) for a wide range of downstream tasks. Clay was initially pre-trained for segmentation, classification, and biomass information extraction using a variety of sensors such as S1, S2, and Landsat. These models are reshaping how traditional ML and DL approaches are trained, significantly reducing the amount of time and data required for training while maintaining high standards of result quality.

Furthermore, we explored the use of S2 MSI data to generate a land cover(LC) map of the study area and estimate the percentage of flooded areas within each LC class. The results demonstrate that the combination of S1 and S2 data is a reliable approach for near real-time flood mapping and damage assessment. Using the first approach, we automatically mapped flooded areas with an overall accuracy of about 87–88% and kappa of 0.73–0.75. The second approach also produced satisfactory results, revealing that VH polarization and the combination of VV+VH performed better than using VV polarization alone. Specifically, in Cambodia and Bolivia, VH polarization yielded Intersection over Union (IoU) values ranging from 0.819 to 0.856.

Predictions for Beira using VH imagery resulted in an IoU of 0.568, which represents a reasonable outcome. The third approach achieved an IoU exceeding 0.92 and an F1-score above 0.96, outperforming the winning DL solution from the DrivenData competition, which attained an IoU of 0.8072 when the dataset was initially released.

The LC classification was validated by randomly collecting over 600 points for each LC class, achieving an overall accuracy of 90–95% with a kappa value of 0.80–0.94. These results enabled us to identify areas prone to flooding and regions where floodwaters recede more quickly, providing valuable insights for improved planning. Additionally, we determined the percentage of flooded LC categories such as Agriculture, Mangrove, and Built-up areas, as their destruction has significant implications for food security and socio-economic development.

Furthermore, to obtain more detailed insights into the damage in Beira,we deployed Clay for the task of Building Damage Classification (BDC), finetuning it on the EDDA dataset. The EDDA dataset, released in 2023, consists of geo-referenced drone imagery captured in Beira after TC Idai. The finetuned model achieved a validation IoU of 0.829, which was then compared to the results from a U-Net implementation that yielded a validation IoU of 0.567.

Therefore, the contribution of this thesis lies in providing practical, dataefficient solutions that enhance local disaster management capabilities and community resilience. We have demonstrated that while ML methods are efficient and cost-effective for near real-time flood mapping, particularly when combined with Sentinel data, GFMs offer improved accuracy (even with a small dataset), albeit with slightly higher computational requirements.

Abstract [sv]

Översvämningar blir allt vanligare och deras påverkan värre världen över, och deras förmåga att göra skada ökar på grund av klimatförändringarna. Detta växande hot har gjort alla länder mer sårbara för naturkatastrofer. Under de senaste decennierna har Moçambique särskilt drabbats av flera tropiska cykloner (TC). År 2019, efter förödelsen orsakad av TCs Idai och Kenneth, blev Moçambique det första landet i södra Afrika som drabbades av två cykloner under samma regnperiod. År 2023 träffades det två gånger av samma cyklon, TC Freddy, som också registrerades som den längsta varaktiga cyklonen någonsin. Med tanke på omfattningen av de skador som sådana händelser orsakar finns det ett akut behov av effektiva och kostnadseffektiva metoder för att kartlägga både översvämmade och översvämningsdrabbade områden.

Dessa metoder är viktiga för att hjälpa lokala myndigheter med katastrofberedskap, planering och begränsning av påverkan. Dessutom spelar de en viktig roll för att tillhandahålla information som stöder evidensbaserat beslutsfattande för hållbar utveckling. Flera metoder för fjärranalys (RS) har föreslagits för bedömning efter översvämning, inklusive de som bygger på maskininlärning (ML) och djupinlärning (DL). Även om de är effektiva, kräver dessa tillvägagångssätt ofta stora mängder kommenterad data och är vanligtvis uppgiftsspecifika, vilket begränsar deras skalbarhet och anpassningsförmåga, särskilt i områden med brist på data. I den här studien undersöker vi användningen av multi-temporal Sentinel-1 (S1) Synthetic Aperture Radar (SAR) och Sentinel-2 (S2) Multi-Spectral Instrument (MSI) data, tillsammans med andra datakällor, för att utveckla skalbara, kostnadseffektiva och beräkningseffektiva metoder för översvämningsbedömning (FM) och översvämningsskada (FM) i nära realtid. Dessutom utforskar vi användningen av Geo-Foundation Models (GFM) på små datamängder för FM och DA, inklusive ML-baserade alternativ till DL-metoder. Som sådan föreslås tre tillvägagångssätt för FM. Den första är en helt automatiserad metod för nära realtid FM, som använder multi-temporal S1-data som förvärvats över Beira kommun och Macomia-distriktet. Den identifierar översvämmade områden genom att beräkna skillnaden mellan bilder som tagits före och efter översvämningshändelsen, följt av Otsu’s tröskelmetod för automatisk utvinning av översvämningsområden. Det andra tillvägagångssättet använder både övervakade och oövervakade ML-metoder, såsom Support Vector Machines (SVM) och KMeans-klustring, som utnyttjar ett dataset från DrivenData, som lanserades som en del av en tävling för FM som använder SAR-data. Denna datauppsättning, baserad på S1, inkluderar VH- och VV-bilder och annoterad data från 13 länder över hela världen. Genom att utnyttja bearbetningsförmågan hos Google Earth Engine-plattformen (GEE) presenteras båda metoderna som ett alternativ till traditionella DL-metoder på grund av kostnadseffektivitet och låga krav på beräkningskraft. Det tredje tillvägagångssättet innebär att finjustera en GFM, kallad Clay, med DrivenData-datasetet för FM-uppgiften.

Grundmodeller (FoMs) hänvisar till modeller som är förtränade på breda datauppsättningar som vanligtvis använder storskalig självövervakning och som kan anpassas (t.ex. finjusteras) för ett brett utbud av nedströmsuppgifter. Clay var från början avsedd för segmentering, klassificering och utvinning av biomassainformation med hjälp av en mängd olika sensorer som S1, S2 och Landsat. Dessa modeller omformar hur traditionella ML- och DL-metoder tränas, vilket avsevärt minskar mängden tid och data som krävs för träning samtidigt som höga standarder för resultatkvalitet bibehålls. Dessutom undersökte vi användningen av S2 MSI-data för att generera en landtäckningskarta(LC) över studieområdet och uppskatta andelen översvämmade områden inom varje LC-klass. Resultaten visar att kombinationen av S1- och S2-data är ett tillförlitligt tillvägagångssätt för översvämningskartläggning och skadebedömning i nästan realtid. Med den första metoden kartlade vi automatisktöversvämmade områden med en total noggrannhet på cirka 87–88% och kappa på 0,73–0,75. Det andra tillvägagångssättet gav också tillfredsställande resultat, vilket avslöjade att VH-polarisering och kombinationen av VV+VH fungerade bättre än att använda enbart VV-polarisering. I synnerhet i Kambodja och Bolivia, gav VH-polarisering Intersection over Union-värden (IoU) från 0,819 till 0,856. Förutsägelser för Beira med VH-bilder resulterade i ett IoU på 0,568, vilket representerar ett rimligt resultat. Det tredje tillvägagångssättet uppnådde ett IoU som översteg 0,92 och ett F1-poäng över 0,96, vilketöverträffade den vinnande DL-lösningen från DrivenData-tävlingen, som uppnådde ett IoU på 0,8072 när datasetet initialt släpptes. LC-klassificeringen validerades genom att slumpmässigt samla in över 600 poäng för varje LC-klass, vilket uppnådde en total noggrannhet på 90–95% med ett kappavärde på 0,80–0,94. Dessa resultat gjorde det möjligt för oss att identifiera områden som är utsatta för översvämning och regioner där översvämningsvattnet minskar snabbare, vilket ger värdefulla insikter för förbättrad planering. Dessutom bestämde vi andelen översvämmade LC-kategorier som jordbruk, mangrove och bebyggda områden, eftersom deras förstörelse har betydande konsekvenser för livsmedelssäkerhet och socioekonomisk utveckling. Dessutom, för att få mer detaljerade insikter om skadorna i Beira, distribuerade vi Clay för uppgiften Building Damage Classification (BDC), och finjusterade den på EDDAdatauppsättningen. EDDA-datauppsättningen, som släpptes 2023, består av georefererade drönarebilder som tagits i Beira efter den tropiska cyklonen Idai. Den finjusterade modellen uppnådde en validerings-IoU på 0,829, som sedan jämfördes med resultaten från en U-Net-implementering som gav en validerings-IoU på 0,567. Därför ligger bidraget från denna avhandling i att tillhandahålla praktiska, dataeffektiva lösningar som förbättrar lokal katastrofhanteringskapacitet och samhällets motståndskraft. Vi har visat att även om ML-metoder är effektiva och kostnadseffektiva för nära realtids-FM, särskilt i kombination med Sentinel-data, erbjuder GFM förbättrad noggrannhet(även med en liten datamängd), om än med något högre beräkningskrav.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2025. p. 86
Series
TRITA-ABE-DLT ; 2511
Keywords
Geo-Foundation Models, Machine Learning, Sentinel 1 and 2, Flood Mapping, Classification, Damage Assessment
National Category
Earth and Related Environmental Sciences
Research subject
Geodesy and Geoinformatics, Geoinformatics
Identifiers
urn:nbn:se:kth:diva-363806 (URN)978-91-8106-329-5 (ISBN)
Public defence
2025-06-12, D3, Lindstedtsvägen 9, KTH Campus, Public video conference link https://kth-se.zoom.us/j/67206163625, Stockholm, 09:30 (English)
Opponent
Supervisors
Note

QC 20250523

Available from: 2025-05-23 Created: 2025-05-21 Last updated: 2025-12-17Bibliographically approved

Open Access in DiVA

No full text in DiVA

Other links

Publisher's full textScopus

Authority records

Nhangumbe, ManuelNascetti, AndreaGeorganos, StefanosBan, Yifang

Search in DiVA

By author/editor
Nhangumbe, ManuelNascetti, AndreaGeorganos, StefanosBan, Yifang
By organisation
Urban Planning and EnvironmentGeoinformatics
Earth Observation

Search outside of DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetric score

doi
urn-nbn
Total: 104 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf