Open this publication in new window or tab >>2025 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
Driven by climate change and rapid urbanization, there is an urgent need for reliable large-scale Earth observation (EO) products that capture both two-dimensional (2D) and three-dimensional (3D) characteristics of the Earth’s surface. Modern satellite missions, particularly Sentinel-1 Synthetic Aperture Radar (SAR) and Sentinel-2 MultiSpectral Instrument (MSI), provide freely accessible global-scale imagery with frequent revisits, offering new opportunities for large-scale mapping such as floods, urban growth, and forest dynamics. Concurrently, deep learning (DL) has become state-of-the-art for EO analysis. However, challenges remain in ensuring generalization across regions, reducing reliance on labeled data, extracting 3D features from mid-resolution imagery, and enhancing reliability through uncertainty estimation. This thesis addresses these challenges by proposing novel DL models for 2D and 3D applications, improving model generalizability, curating benchmark datasets, and integrating uncertainty estimation into EO tasks.
For 2D mapping, this thesis focuses on flood mapping as the primary application. Two supervised segmentation networks were developed for the task. The first, Attentive U-Net, enhances Sentinel-1 VV, VH, and VV/VH ratio inputs using spatial and channel-wise self-attention. The second, a dual-stream Fusion Network, integrates Sentinel-1 data with DEM and permanent water masks for improved contextual learning. Both outperformed supervised baselines on the Sen1Floods11 dataset, achieving 3–5% higher IoU. To further improve model generalizability and reduce dependency on labels, an unsupervised model (CLVAE) was developed that learns spatiotemporal features from Sentinel-1 SAR time series using reconstruction and contrastive learning. Flood maps are derived by detecting changes in latent feature distributions of pre and post-flood time series images. CLVAE achieved 70% IoU, surpassing unsupervised baselines by a minimum margin of 15% IoU and outperforming supervised models when tested on unseen flood sites, showing a higher model generalizability.
For 3D mapping, multiple advances were made. A hybrid CNN-transformer architecture (T-SwinUNet) was proposed for large-scale building height estimation from 12-month Sentinel-1 and Sentinel-2 time series. Leveraging multi-modal spatio-temporal features and multitask learning, it achieved 1.89 m RMSE at 10 m resolution and generalized across diverse European cities. The model outperformed existing global height product GHSL-Built-H.To further improve building height estimation accuracy, the M4Heights benchmark dataset was released, covering sites in Estonia, Switzerland, and the Netherlands. Combining 10 m Sentinel-1&2 time series with 1 m aerial orthophotos enables multi-scale and multitask learning for super-resolution building height estimation. Baseline evaluations confirmed its benefits, and the open dataset supports fair model comparisons and encourages further innovation in the field.Extending 3D mapping from the built environment to natural ecosystems, the BioMassters benchmark dataset for above-ground forest biomass estimation was curated and released. It covers 8.5 million hectares of Finnish forests, with labels derived from high-resolution LiDAR data and inputs from Sentinel-1&2 time series. Released alongside a global challenge with over 1000 model submissions, the results demonstrated the superiority of DL methods over the coarse 100 m ESA CCI Biomass product, enabling biomass mapping at 10 m resolution and underscoring the importance of open, DL-ready datasets.
The thesis further advances 3D mapping by integrating uncertainty quantification into large-scale regression tasks for building height, canopy height, and biomass estimation at 10 m resolution. Two uncertainty quantification approaches were investigated through: (i) a Gaussian uncertainty model, which assumes symmetric error distributions, and (ii) a Quantile uncertainty model, which provides asymmetric intervals and captures the direction of uncertainty. Both methods achieved accuracy comparable to deterministic baselines while additionally providing calibrated confidence intervals. Importantly, they outperformed existing global canopy and biomass products that include uncertainty information. The Gaussian model performed best for canopy height and biomass, while the quantile model proved more robust for building height, where data follow strictly non-Gaussian and skewed distributions. Together, these advances establish uncertainty-aware regression as a critical step toward making EO-derived 3D products more trustworthy for real-world applications.
In conclusion, this thesis addresses key challenges in large-scale 2D and 3D EO tasks, spanning flood detection, building height estimation, biomass estimation, and canopy height estimation. By advancing DL models that leverage time series of Sentinel-1&2 imagery, integrating uncertainty quantification into the model and releasing benchmark datasets, this thesis makes major contributions to scalable, reliable and reproducible EO data products. These advances enhance the trustworthiness of EO-derived products for real-world applications, supporting sustainable urban planning, climate resilience, and the monitoring of Sustainable Development Goals.
Abstract [sv]
Drivna av klimatförändringar och snabb urbanisering finns ett akut behovav tillförlitliga jordobservationsprodukter (EO) i stor skala som fångarbåde tvådimensionella (2D) och tredimensionella (3D) egenskaper hos jordensyta. Moderna satellitmissioner, särskilt Sentinel-1 syntetiska aperturradar(SAR) och Sentinel-2:s MultiSpectral Instrument (MSI), tillhandahållerfritt tillgänglig bilddata i global skala med frekventa återbesök, vilket erbjudernya möjligheter för storskalig kartläggning såsom översvämningar, urbantillväxt och skogsdynamik. Samtidigt har djupinlärning (DL) blivit det ledandetillvägagångssättet för EO-analys. Dock kvarstår utmaningar med attsäkerställa generalisering över olika regioner, minska beroendet av märkta data,utvinna 3D information från bilddata med medelhög upplösning samt ökatillförlitligheten genom osäkerhetsuppskattning. Denna avhandling adresserardessa utmaningar genom att föreslå nya DL-modeller för 2D och 3D applikationer,förbättra modellernas generaliserbarhet, kurera referensdataset samtintegrera osäkerhetsuppskattning i EO uppgifter.
För 2D-kartläggning fokuserar avhandlingen på översvämningskartläggningsom huvudapplikation. Två övervakade segmenteringsnätverk utveckladesför uppgiften. Det första, Attentive U-Net, utnyttjar Sentinel-1 inmatningar(VV, VH samt VV/VH kvot) och förstärker dem med rumslig ochkanalvis självuppmärksamhet. Det andra, ett tvåströms-fusionsnätverk, integrerarSentinel-1-data med digital höjdmodell (DEM) och permanenta vattenmaskerför förbättrad kontextuell inlärning. Båda överträffade övervakadebaslinjemodeller på Sen1Floods11-datasetet och uppnådde 3-5% högre IoU.För att ytterligare förbättra modellernas generaliserbarhet och minska beroendetav märkta data utvecklades en osuperviserad modell (CLVAE) somlär sig spatiotemporala egenskaper från Sentinel-1 SAR tidsserier via rekonstruktionoch kontrastiv inlärning. Översvämningskartor härleds genom attupptäcka förändringar i latenta representationsfördelningar mellan före ochefteröversvämnings-tidsserier. CLVAE uppnådde 70% IoU, överträffade osuperviseradebaslinjer med minst 15% IoU och presterade bättre än övervakademodeller vid test på tidigare osedda översvämningsområden, vilket visar påhögre modellgeneraliserbarhet.
För 3D-kartläggning gjordes flera framsteg. En hybridarkitektur med CNNoch transformer (T-SwinUNet) föreslogs för storskalig skattning av byggnadshöjderfrån 12 månaders Sentinel-1 och Sentinel-2 tidsserier. Genom att utnyttjamultimodala spatiotemporala egenskaper och multitask-inlärning uppnåddesett RMSE på 1.89m vid 10m upplösning och modellen generaliseradeväl över olika europeiska städer. Den överträffade den befintliga globalabyggnadshöjdsprodukten GHSL-Built-H. För att ytterligare förbättra noggrannheteni byggnadshöjdsskattning släpptes referensdatasetet M4Heights,som täcker områden i Estland, Schweiz och Nederländerna. Kombinationenav 10m Sentinel-1&2 tidsserier med 1m flygfotobaserade ortofoton möjliggörmultiskalig och multitask-inlärning för superupplöst byggnadshöjdsskattning.Baslinjeutvärderingar bekräftade dess fördelar, och det öppna datasetet stödjerrättvisa modelljämförelser och uppmuntrar vidare innovation inom området.
Genom att utvidga 3D-kartläggning från den byggda miljön till naturligaekosystem kuraterades och släpptes referensdatasetet BioMassters för skattningav biomassa ovan mark i skogar. Den täcker 8.5 miljoner hektar finskaskogar, med etiketter härledda från högupplöst LiDAR-data och indata frånSentinel-1&2-tidsserier. Datasetet släpptes tillsammans med en global tävlingmed över 1000 modellbidrag. Resultaten visade på DL-metodernas överlägsenhetjämfört med den grova 100m ESA CCI Biomass produkten, vilketmöjliggör biomassakartläggning vid 10m upplösning och understryker viktenav öppna, djupinlärningsklara dataset.
Avhandlingen för 3D kartläggning går vidare genom att integrera osäkerhetskvantifieringi storskaliga regressionsuppgifter för byggnadshöjd, trädhöjdoch biomassa vid 10m upplösning. Två metoder för osäkerhetskvantifieringundersöktes: (i) en gaussisk osäkerhetsmodell, som antar symmetriska fel, och(ii) en kvantilmodell, som ger asymmetriska intervall och fångar riktningen påosäkerheten. Båda metoderna uppnådde noggrannhet jämförbar med deterministiskamodeller samtidigt som de tillhandahöll kalibrerade konfidensintervall.Viktigt är att de presterade bättre än befintliga globala produkter förträdhöjd och biomassa som inkluderar osäkerhetsinformation. Den gaussiskamodellen presterade bäst för trädhöjd och biomassa, medan kvantilmodellenvisade sig mer robust för byggnadshöjd, där data följer icke gaussiskaoch snedfördelade mönster. Tillsammans etablerar dessa framsteg osäkerhetsmedvetenregression som ett avgörande steg för att göra EO-härledda 3Dproduktermer tillförlitliga för verkliga applikationer.
Sammanfattningsvis adresserar denna avhandling centrala utmaningar inomstorskaliga 2D och 3D EO uppgifter, från översvämningsdetektion tillskattning av byggnadshöjd, biomassa och trädhöjd. Genom att utveckla DLmodellersom utnyttjar tidsserier av Sentinel-1&2, integrera osäkerhetskvantifieringi modellerna och släppa referensdataset bidrar avhandlingen medskalbara, tillförlitliga och reproducerbara EO-dataprodukter. Dessa framstegökar tilliten till EO-härledda produkter i praktiska tillämpningar och stödjerhållbar stadsplanering, klimatanpassning samt uppföljning av de Globalamålen för hållbar utveckling (SDG:erna).
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2025. p. 106
Series
TRITA-ABE-DLT ; 2540
Keywords
2D mapping, 3D mapping, Floods, Building Height, Biomass, Canopy Height, Uncertainty Estimation, Segmentation, Change Detection, Regression, Gaussian, Quantile, Unsupervised Learning, Contrastive Learning, Multi-task Learning, Self-Attention, Convolutional LSTM, VAE, CNN, transformer, SWIN, Remote Sensing, Sentinel-1 SAR, Sentinel-2 MSI, Aerial Orthophotos, DEM, Data Fusion, Time Series, Deep Learning, Generalization, OOD
National Category
Computer Sciences Earth Observation
Research subject
Geodesy and Geoinformatics, Geoinformatics
Identifiers
urn:nbn:se:kth:diva-371709 (URN)978-91-8106-444-5 (ISBN)
Public defence
2025-11-04, Kollegiesalen, Brinellvägen 8, KTH Campus, public video conference link https://kth-se.zoom.us/j/68698558153, Stockholm, 14:00 (English)
Opponent
Supervisors
Projects
AI4EO, Digital Future
Note
QC 20251017
2025-10-172025-10-162025-11-03Bibliographically approved