kth.sePublications
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Generative Deep Learning in Remote Sensing for Wildfire Monitoring
KTH, School of Architecture and the Built Environment (ABE), Urban Planning and Environment, Geoinformatics.
2025 (English)Licentiate thesis, comprehensive summary (Other academic)
Abstract [en]

Wildfires present escalating global risks, intensified by climate change, demanding effective monitoring strategies. While satellite remote sensing is highly relevant for this task, it faces limitations related to sensor capabilities. High-resolution optical sensors like Sentinel-2 MultiSpectral Instrument (MSI) (10-20 m) provide detailed spatial information but have infrequent revisit times of around 5 days and cannot see through clouds or smoke. Conversely, moderate-resolution sensors like Terra/Aqua MODIS offer daily coverage but lack the necessary spatial detail (250-500 m) for detailed burned area mapping. Synthetic Aperture Radar (SAR) from sensors like Sentinel-1 SAR provides all-weather imaging but is affected by speckle noise and complex signal interactions, making interpretation difficult. This thesis explores how generative deep learning, specifically conditional Diffusion Models (DM), can help overcome these fundamental challenges in satellite-based wildfire monitoring by synthesizing analysis-ready, high-resolution information. These models have shown proficiency in learning complex data distributions and generating high-fidelity samples, making them suitable for data synthesis and translation tasks.

The goal of this thesis is to generate high-resolution (≤30 m) optical representations of wildfires and to map burned areas, overcoming two different sensor limitations. This goal is pursued through two specific objectives. The first objective is to evaluate and develop a multi-task DM capable of fusing moderate-resolution, high-frequency optical data with high-resolution, lower-frequency optical data to generate daily, high-resolution representations of post-fire conditions, including both super-resolved imagery and burned area segmentation maps. The second objective is to design and assess a conditional DM for translating all-weather SAR data into optical-like imagery for post-fire scenes, with the goal of enabling accurate downstream burned area segmentation even when actual optical data is unavailable.

To meet the first objective, a novel multi-task conditional diffusion architecture, FireSR-DDPM, was developed. It uses a U-Net structure within the Denoising Diffusion Probabilistic Model (DDPM) framework and is conditioned on post-fire MODIS imagery (Red, NIR, SWIR bands) and pre-fire Sentinel-2 MSI data. FireSR-DDPM generates both an eight-fold super-resolved post-fire image to near Sentinel-2 MSI-native resolution and a simultaneous burned area segmentation mask via parallel decoder paths from a shared encoder. The multi-task design allows synergistic learning, where spatial detail from super-resolution aids segmentation and semantic context from segmentation guides image generation. An additional feature of the architecture is a feature affinity loss term that explicitly promotes consistency between the internal representations learned by the two decoder branches, improving the effectiveness of the joint optimization for super-resolution and segmentation. Trained and validated using 1,079 Canadian wildfire events (≥ 2,000 ha, 2017-2022) with National Burned Area Composite (NBAC) polygons as reference, FireSR-DDPM showed substantial performance improvements on a 2023 hold-out test set. It achieved high segmentation accuracy (F1=0.8983, IoU=0.8153) and improved perceptual quality in super-resolution (LPIPS=0.1134), clearly surpassing baseline single-task and sequential methods. The model's ability to generate multiple outputs from the same input was also used to derive empirical confidence maps for the segmentation results without needing separate calibration.

For the second objective, a computationally efficient transformer-based DM, Swin-U-DiT, was proposed for SAR-to-Optical translation. This architecture combines a hierarchical U-Net structure with recent developments in Transformers. These blocks integrate the efficiency of the Swin Transformer's windowed self-attention with the U-DiT concept of applying attention to spatially downsampled internal feature representations. This design considerably lowers the computational requirements of self-attention compared to standard Vision Transformer approaches while retaining strong performance. Conditioned via channel-wise concatenation on pre-fire Sentinel-1 SAR (VV, VH), post-fire Sentinel-1 SAR (VV, VH), and pre-fire Sentinel-2 MSI data, Swin-U-DiT learns to generate the corresponding post-fire Sentinel-2 MSI reflectance image. When evaluated on 335 Canadian fires from 2022, Swin-U-DiT produced images with significantly higher fidelity (Fréchet Inception Distance (FID=44.3, LPIPS=0.304) than a standard Pix2Pix GAN baseline. Importantly, the practical usefulness of the generated imagery was confirmed through downstream evaluation: using the Swin-U-DiT translated images as input to a fixed segmentation U-Net (pre-trained on real Sentinel-2 MSI data) notably improved burned area segmentation from F1=0.697 (using only SAR and pre-fire optical inputs) to 0.804. A key finding was the model's efficiency: this performance gain was achieved with only three DDIM sampling steps. This corresponds to a processing time of less than five minutes for a 250 km x 100 km scene on a single consumer-grade GPU (NVIDIA RTX 3080), confirming its suitability for near-real-time regional monitoring.

In conclusion, both research objectives were successfully addressed. The novel contributions include: (i) the integration of 8x super-resolution and segmentation within a single generative multi-task DM (FireSR-DDPM); (ii) the design of an efficient SAR-to-Optical translation architecture (Swin-U-DiT) combining principles from Swin Transformer and U-DiT within a diffusion framework; and (iii) the demonstration that high downstream task performance can be achieved with very few diffusion sampling steps, improving practical feasibility. These methods represent advancements for operational wildfire monitoring. Future work includes extending model training to diverse global biomes, incorporating sequence modeling for analyzing fire progression dynamics, and exploring model distillation for further inference speed improvements.

Abstract [sv]

Skogsbränder utgör ett växande globalt problem, intensifierat av klimatförändringar,vilket kräver effektiva övervakningsstrategier. Även om satellitbaseradfjärranalys är högst relevant för denna uppgift, står den inför begränsningarrelaterade till sensorkapacitet. Högupplösta optiska sensorer somSentinel-2 MultiSpectral Instrument (MSI) (10–20 m) ger detaljerad spatialinformation men har långa återbesökstider på cirka 5 dagar och kan inte se genommoln eller rök. Omvänt erbjuder medelupplösta sensorer som Terra/AquaMODIS daglig täckning men dess upplösning (250–500 m) är för låg för detaljeradsegmentering av brända områden. Synthetic Aperture Radar (SAR)från sensorer som Sentinel-1 SAR producerar bilddata i alla väder men påverkasav speckle-brus och komplexa signalspridningsmekanismer, vilket görtolkningen svår. Denna avhandling undersöker hur generativ djupinlärning,specifikt conditional Diffusion Models (DM), kan hjälpa till att överbryggadessa grundläggande utmaningar inom satellitbaserad skogsbrandsövervakninggenom att syntetisera högupplöst information som är redo för analys.Dessa modeller har visat sig skickliga på att lära sig komplexa datadistributioneroch generera högkvalitativa datapunkter, vilket gör dem lämpliga försyntes och bildöversättning.

Målet med denna avhandling är att generera högupplösta (≤ 30 m) optiskarepresentationer av skogsbränder och att kartlägga brända områden,övervinna två olika sensorbegränsningar. Detta mål eftersträvas genom tvåspecifika mål. Det första målet är att utvärdera och utveckla en multi-taskDM som kan sammansmälta måttlig upplösning, högfrekvent optisk data medhögupplöst, lägre frekvens optisk data för att generera dagliga, högupplöstarepresentationer av förhållanden efter brand, inklusive både uppskalade bilderoch brända områdessegmenteringskartor. Det andra målet är att designaoch bedöma en DM för att översätta SAR-data till optiskt liknande bilder förscener efter brand, med målet att möjliggöra exakt nedströms segmenteringav brända områden även när optiska data inte är tillgängliga.

För att uppnå det första delmålet utvecklades en ny Multi-task LearningDM, FireSR-DDPM. Den använder en U-Net-struktur inom ramverketför Denoising Diffusion Probabilistic Models (DDPM) och är betingad påMODIS-bilder efter brand (röda, NIR-, SWIR-band) och Sentinel-2 MSI-dataföre brand. FireSR-DDPM genererar både en åttafaldigt uppskalad bild efterbrand till nära Sentinel-2 MSI:s ursprungliga upplösning och en samtidig segmenteringsmaskför brända områden via parallella decoders från en gemensamencoder. Multi-task learning möjliggör synergistisk inlärning, där spatiala detaljerfrån uppskalning hjälper segmentering och semantisk kontext från segmenteringvägleder bildgenerering. En ytterligare egenskap hos arkitekturenär en Feature Affinity loss, som explicit främjar konsekventa representationermellan decoders, vilket förbättrar effektiviteten hos den gemensammaoptimeringen för uppskalningen och segmenteringen. Tränad och valideradmed data från 1 079 kanadensiska skogsbränder (≥ 2 000 ha, 2017–2022) medNational Burned Area Composite (NBAC)-polygoner som referens, visadeFireSR-DDPM prestandaförbättringar på testdata från 2023. Den uppnåddehög segmenteringsnoggrannhet (F1 = 0.8983, IoU = 0.8153) och förbättradviperceptuell kvalitet i uppskalning (LPIPS = 0.1134), och överträffade tydligtjämförelsemetoder med single-task learning eller sekventiella metoder. Modellensförmåga att generera flera utdata från samma indata användes också föratt härleda empiriska konfidenskartor för segmenteringsresultaten utan behovav separat kalibrering.

För det andra delmålet föreslogs en beräkningseffektiv transformer-baseradDM, Swin-U-DiT, för SAR-till-optisk översättning. Denna arkitektur kombineraren hierarkisk U-Net-struktur, kapabel till att fånga kontext i flera skalor,med innovativa bearbetningsblock. Dessa block integrerar effektiviteten hosSwin Transformerns fönsterbaserade self-attention med U-DiT-konceptet atttillämpa self-attention på spatialt nedsamplade interna representationer. Dennadesign minskar avsevärt beräkningskraven för self-attention jämfört medstandardmetoder baserade på Vision Transformer, samtidigt som den bibehållerstark prestanda. Betingad via kanalvis sammanlänkning på Sentinel-1 SARföre brand (VV, VH), Sentinel-1 SAR efter brand (VV, VH) och Sentinel-2MSI-data före brand, lär sig Swin-U-DiT att generera motsvarande Sentinel-2MSI-reflektansbild efter brand. Vid utvärdering på 335 kanadensiska bränderfrån 2022 producerade Swin-U-DiT bilder med signifikant högre fidelitet(Fréchet Inception Distance FID = 44.3, LPIPS = 0.304) än en standardPix2Pix GAN-metod. Viktigt är att det praktiska värdet av de genereradebilderna bekräftades genom utvärdering av följande: att använda de Swin-UDiT-översatta bilderna som indata till en fast segmenterings-U-Net (tränad påverkliga MSI-data) förbättrade segmenteringen av brända områden avsevärtfrån F1 = 0.697 (med endast SAR och optiska data före brand) till 0.804. Ettviktigt resultat var modellens effektivitet: denna prestandaökning uppnåddesmed endast tre DDIM-samplingssteg. Detta motsvarar en bearbetningstid påmindre än fem minuter för en 250km × 100km scen på en enda GPU (NVIDIARTX 3080), vilket bekräftar dess lämplighet för regional övervakning inära realtid.

Sammanfattningsvis uppnåddes båda forskningsmålen framgångsrikt. Denya bidragen inkluderar: (i) integrationen av 8× superupplösning och segmenteringinom en enda generativ multiuppgifts-DM (FireSR-DDPM); (ii)designen av en effektiv SAR-till-optisk-översättningsarkitektur (Swin-U-DiT)som kombinerar principer från Swin Transformer och U-DiT inom ett diffusionsramverk;och (iii) demonstrationen att hög prestanda på efterföljandeuppgifter kan uppnås med mycket få diffusionssamplingssteg, vilket förbättrarden praktiska genomförbarheten. Dessa metoder representerar framstegför operativ skogsbrandsövervakning. Framtida arbete inkluderar att utökamodellträningen till olika globala biom, införliva sekvensmodellering för attanalysera brandförloppsdynamik, och utforska modelldestillering för ytterligareförbättringar av inferenshastigheten.

Place, publisher, year, edition, pages
Stockholm: Kungliga Tekniska högskolan, 2025. , p. 63
Series
TRITA-ABE-DLT ; 2518
Keywords [en]
Wildfire Monitoring, Remote Sensing, Deep Learning, Diffusion Models, Super-Resolution, Segmentation, SAR-to-Optical Translation, Sentinel-1 SAR, Sentinel-2 MSI, MODIS, Multi-Task Learning, Generative Models
National Category
Earth Observation
Research subject
Geodesy and Geoinformatics, Geoinformatics
Identifiers
URN: urn:nbn:se:kth:diva-363828ISBN: 978-91-8106-331-8 (print)OAI: oai:DiVA.org:kth-363828DiVA, id: diva2:1960134
Presentation
2025-06-12, D31, Lindstedtsvägen 9, KTH Carnpus, public video conference link https://kth-se.zoom.us/j/64930192359, Stockholm, 14:30 (English)
Opponent
Supervisors
Note

QC 20250522

Available from: 2025-05-22 Created: 2025-05-22 Last updated: 2025-06-11Bibliographically approved
List of papers
1. Daily High-Resolution Wildfire Monitoring Using Context-Aware Multi-Task Diffusion Models
Open this publication in new window or tab >>Daily High-Resolution Wildfire Monitoring Using Context-Aware Multi-Task Diffusion Models
(English)Manuscript (preprint) (Other academic)
National Category
Earth Observation
Identifiers
urn:nbn:se:kth:diva-363824 (URN)
Note

QC 20250523

Available from: 2025-05-22 Created: 2025-05-22 Last updated: 2025-05-23Bibliographically approved
2. Enhancing Burned Area Segmentation via Swin-U-DiT for SAR-to-Optical Translation
Open this publication in new window or tab >>Enhancing Burned Area Segmentation via Swin-U-DiT for SAR-to-Optical Translation
(English)Manuscript (preprint) (Other academic)
National Category
Earth Observation
Identifiers
urn:nbn:se:kth:diva-363825 (URN)
Note

QC 20250526

Available from: 2025-05-22 Created: 2025-05-22 Last updated: 2025-05-26Bibliographically approved

Open Access in DiVA

summary(34587 kB)432 downloads
File information
File name SUMMARY01.pdfFile size 34587 kBChecksum SHA-512
61e9af305af9ad903ffc3420c97fc426163b9086b01b9d29f9c60f644397ccadc1039848119726ae9b5b1875bf42d552c381666b0359074227db4a37072fae0d
Type summaryMimetype application/pdf

Search in DiVA

By author/editor
Brune, Eric
By organisation
Geoinformatics
Earth Observation

Search outside of DiVA

GoogleGoogle Scholar
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

isbn
urn-nbn

Altmetric score

isbn
urn-nbn
Total: 318 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf