Diffusion-Based Learning and Foundation Model Adaptation for Robust Dense Prediction in Earth Observation
2026 (English)Licentiate thesis, comprehensive summary (Other academic)
Abstract [en]
Dense prediction tasks such as semantic segmentation, change detection, and wildfire burned-area mapping are central to Earth observation, yet deep learning models trained for these tasks frequently degrade under the geographic, temporal, and spatiotemporal distribution shifts encountered in real-world deployment. This thesis investigates how diffusion-based learning and parameter-efficient adaptation can improve the robustness and generalization of dense prediction models for Earth observation, with a particular focus on wildfire monitoring using Sentinel-2 imagery.
Three complementary studies are presented in this thesis. The first introduces Noise2Map, a discriminative diffusion model that repurposes structured noise as a supervisory signal for semantic segmentation and change detection. Unlike prior diffusion approaches that require iterative sampling, Noise2Map performs single-pass inference while achieving rank-1 performance across three benchmarks and being 13.5× faster than the closest diffusion baseline. The second study proposes a diffusion-based decoder that operates in the representation space of frozen geospatial foundation models (GFMs) to improve zero-shot generalization for wildfire burned-area mapping. The diffusion decoder improves performance in 14 out of 16 backbone–protocol–region combinations, with gains of up to +4.8 F1, and extends to out-of-distribution European wildfires not seen during training. The third study systematically evaluates adaptation strategies for GFMs (full fine-tuning, decoder-only fine-tuning, and Low-Rank Adaptation (LoRA)) for large-scale wildfire mapping across North America. LoRA consistently outperforms all alternatives, improving IoU by up to +9.35 over full fine-tuning for Prithvi-v2, while keeping more than 99% of backbone parameters frozen.
Together, these studies show that constraining how models learn, through structured noise, frozen encoders, or low-rank updates, generalizes better than training more parameters. Diffusion-based learning and parameter-efficient adaptation offer practical, complementary paths toward robust Earth observation.
Abstract [sv]
Täta prediktionsuppgifter såsom semantisk segmentering, förändringsdetektion ochkartläggning av brända områden vid skogsbränder är centrala inom jordobservation. Samtidigt försämras ofta prestandan hos djupinlärningsmodeller som tränats för dessauppgifter när de möter geografiska, temporala eller spatio-temporala distributionsskiftsom uppstår i verkliga tillämpningar. Denna avhandling undersöker hur diffusionsbaserat lärande och parameter-effektiv anpassning kan förbättra robusthet och generaliseringsförmåga hos modeller för tät prediktion inom jordobservation, med särskiltfokus på övervakning av skogsbränder med hjälp av Sentinel-2-satellitbilder.
Tre kompletterande studier presenteras i denna avhandling. Den första introducerarNoise2Map, en diskriminativ diffusionsmodell som återanvänder strukturerat brus somen övervakningssignal för semantisk segmentering och förändringsdetektion. Till skillnad från tidigare diffusionsmetoder som kräver iterativ sampling utför Noise2Map inferens i ett enda steg, samtidigt som modellen uppnår bästa resultat (rank-1) på trebenchmark-dataset och är 13,5 gånger snabbare än den närmaste diffusionsbaseradebaslinjen. Den andra studien föreslår en diffusionsbaserad dekoder som arbetar i representationsrymden hos frysta geospatiala foundation-modeller (GFMs) för att förbättra nollskotts-generaliseringsförmågan vid kartläggning av brända områden efterskogsbränder. Diffusionsdekodern förbättrar resultaten i 14 av 16 kombinationer avbackbone, protokoll och region, med förbättringar på upp till +4,8 i F1-mått, och generaliserar även till europeiska skogsbränder utanför träningsdistributionen. Den tredje studien utvärderar systematiskt olika anpassningsstrategier för GFMs (full finjustering, finjustering endast av dekodern samt Low-Rank Adaptation (LoRA)) för storskalig kartläggning av skogsbränder i Nordamerika. LoRA överträffar konsekvent alla alternativa metoder och förbättrar IoU med upp till +9,35 jämfört med full finjusteringför Prithvi-v2, samtidigt som mer än 99 % av backbone-parametrarna förblir frysta.
Tillsammans visar dessa studier att begränsningar i hur modeller lär sig – genom strukturerat brus, frysta enkodrar eller låg-rank-uppdateringar – kan ge bättre generalisering än att träna fler parametrar. Diffusionsbaserat lärande och parameter-effektiv anpassning erbjuder därmed praktiska och kompletterande vägar mot mer robusta mo-deller för jordobservation.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2026. , p. 66
Series
TRITA-ABE-DLT ; 267
Keywords [en]
Remote sensing, Earth observation, deep learning, semantic segmentation, change detection, building damage detection, wildfire burned-area mapping, foundation models, diffusion models, domain shift
Keywords [sv]
Fjärranalys, jordobservation, djupinlärning, semantisk segmentering, förändringsdetektion, detektering av byggnadsskador, kartläggning av brända områden efter skogsbränder, foundation-modeller, diffusionsmodeller, distributionsskift
National Category
Computer Vision and Learning Systems Computer and Information Sciences Earth Observation
Research subject
Geodesy and Geoinformatics, Geoinformatics
Identifiers
URN: urn:nbn:se:kth:diva-380247ISBN: 978-91-8106-594-7 (print)OAI: oai:DiVA.org:kth-380247DiVA, id: diva2:2055926
Presentation
2026-05-11, D37, Lindstedtsvägen 5, KTH Campus, public video conference link https://kth-se.zoom.us/j/66145987135, Stockholm, 14:00 (English)
Opponent
Supervisors
Note
QC 20260427
2026-04-272026-04-272026-04-28Bibliographically approved
List of papers