kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Unsupervised domain adaptation for global urban extraction using Sentinel-1 SAR and Sentinel-2 MSI data
KTH, School of Architecture and the Built Environment (ABE), Urban Planning and Environment, Geoinformatics.ORCID iD: 0000-0003-3560-638x
KTH, School of Architecture and the Built Environment (ABE), Urban Planning and Environment, Geoinformatics.ORCID iD: 0000-0003-1369-3216
KTH, School of Architecture and the Built Environment (ABE), Urban Planning and Environment, Geoinformatics.ORCID iD: 0000-0001-9692-8636
2022 (English)In: Remote Sensing of Environment, ISSN 0034-4257, E-ISSN 1879-0704, Vol. 280, p. 113192-, article id 113192Article in journal (Refereed) Published
Abstract [en]

Accurate and up-to-date maps of built-up areas are crucial to support sustainable urban development. Earth Observation (EO) is a valuable data source to cover this demand. In particular, Sentinel-1 Synthetic Aperture Radar (SAR) and Sentinel-2 MultiSpectral Instrument (MSI) missions offer new opportunities to map built-up areas on a global scale. Using Sentinel-2 images, recent urban mapping efforts achieved promising results by training Convolutional Neural Networks (CNNs) on available built-up data. However, these results strongly depend on the availability of local reference data for fully supervised training or assume that the application of CNNs to unseen areas (i.e. across-region generalization) produces satisfactory results. To alleviate these short-comings, it is desirable to leverage Semi-Supervised Learning (SSL) algorithms that can take advantage of un-labeled data, especially because satellite data is plentiful. In this paper, we propose a novel Domain Adaptation (DA) approach using SSL that jointly exploits Sentinel-1 SAR and Sentinel-2 MSI to improve across-region generalization for built-up area mapping. Specifically, two identical sub-networks are incorporated into the proposed model to perform built-up area segmentation from SAR and optical images separately. Assuming that consistent built-up area segmentation should be obtained across data modality, we design an unsupervised loss for unlabeled data that penalizes inconsistent segmentation from the two sub-networks. Therefore, we propose to use complementary data modalities as real-world perturbations for consistency regularization. For the final prediction, the model takes both data modalities into account. Experiments conducted on a test set comprised of sixty representative sites across the world showed that the proposed DA approach achieves strong improvements (F1 score 0.694) over fully supervised learning from Sentinel-1 SAR data (F1 score 0.574), Sentinel-2 MSI data (F1 score 0.580) and their input-level fusion (F1 score 0.651). To demonstrate the effectiveness of DA, we also performed a comparison with two state-of-the-art products, namely GHS-BUILT-S2 and WSF 2019, on the test set. The comparison showed that our model is capable of producing built-up area maps with comparable or even better quality than the state-of-the-art global human settlement maps. Therefore, the multi-modal DA offers great potential to be adapted to produce easily updateable human settlements maps at a global scale.

Place, publisher, year, edition, pages
Elsevier BV , 2022. Vol. 280, p. 113192-, article id 113192
Keywords [en]
Built-up area mapping, Deep learning, Data fusion, Semi-supervised learning, Domain adaptation, Semantic segmentation
National Category
Computer graphics and computer vision Human Geography
Identifiers
URN: urn:nbn:se:kth:diva-320678DOI: 10.1016/j.rse.2022.113192ISI: 000863232800001Scopus ID: 2-s2.0-85135516585OAI: oai:DiVA.org:kth-320678DiVA, id: diva2:1707267
Note

QC 20221031

Available from: 2022-10-31 Created: 2022-10-31 Last updated: 2025-02-01Bibliographically approved
In thesis
1. Multi-Sensor Remote Sensing for Urban Mapping and Change Detection Using Deep Learning
Open this publication in new window or tab >>Multi-Sensor Remote Sensing for Urban Mapping and Change Detection Using Deep Learning
2024 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

Driven by the rapid growth in population, urbanization is progressing at an unprecedented rate in many places around the world. Earth observation (EO) has become a vital tool for monitoring urbanization on a global scale. Modern satellite missions, in particular, provide new opportunities for urban mapping and change detection (CD) through high-resolution imagery and frequent revisits. These missions have enabled multi-modal approaches by integrating data from different satellites, such as Sentinel-1 Synthetic Aperture Radar (SAR) and Sentinel-2 MultiSpectral Instrument (MSI). Concurrently, EO data analysis has evolved from traditional machine learning methods to deep learning (DL) models, particularly Convolutional Neural Networks (ConvNets). However, current DL methods for urban mapping and CD face several challenges, such as reliance on large labeled datasets for supervised training, the limited transferability of DL models across geographic regions, the effective integration of multi-modal EO data, and using satellite image time series (SITS) for CD. To address these challenges, this thesis aims to develop novel DL methods for robust urban mapping and CD using multi-source EO data.

First, a semi-supervised learning (SSL) method is introduced, leveraging multi-modal Sentinel-1 SAR and Sentinel-2 MSI data to improve the geographic transferability of urban mapping models. This method employs a dual stream ConvNet architecture to map built-up areas separately from SAR and optical images. By assuming consistent maps should be produced for both modalities, an unsupervised loss for unlabeled data is introduced to penalize discrepancies between them. Extensive evaluation using annotations from the SpaceNet 7 multi-temporal building monitoring dataset demonstrated that this SSL approach (F1 score 0.694) outperforms several supervised approaches (F1 scores ranging from 0.574 to 0.651). Furthermore, it produces built-up area maps that rival or surpass global human settlement maps like GHS-BUILT-S2 and WSF 2019.

For urban CD, a new network architecture is proposed for fusing bi-temporal Sentinel-1 SAR and Sentinel-2 MSI image pairs. This architecture uses a dual stream design to process each modality through separate ConvNets before combining the extracted features at a later stage. The proposed strategy outperforms other ConvNet-based approaches, both with uni-modal and multi-modal data. Additionally, it achieves state-of-the-art (SOTA) performance on the Onera Satellite CD dataset (F1 score 0.600).

Building on this, a second network architecture was developed to adapt the transferability improvement approach for urban CD. This approach uses bi-temporal Sentinel-1 SAR and Sentinel-2 MSI image pairs and outputs urban changes using a difference decoder while mapping built-up areas with a semantic decoder. Similar to the urban mapping method, inconsistencies in built-up area maps across modalities are penalized on unlabeled data. Evaluation on the SpaceNet 7 dataset, enhanced with Sentinel-1 SAR and Sentinel-2 MSI data, shows that the method performs well under limited label conditions, achieving an F1 score of 0.555 with all available labels, and delivering reasonable CD results (F1 score of 0.491) even with only 10 \% of the labeled data. In contrast, supervised multi-modal methods and SSL methods using optical data failed to exceed an F1 score of 0.402 under this condition.

A third urban CD method focuses on detecting changes in consecutive images of SITS (i.e., continuous urban CD). This method introduces a temporal feature refinement module that uses self-attention to enhance ConvNet-based multi-temporal representations of buildings. Additionally, a multi-task integration module employing Markov networks is proposed to generate optimal building map time series based on segmentation and dense change outputs. The proposed method effectively identifies urban changes in high-resolution SITS from PlanetScope (F1 score 0.551) and Gaofen-2 (F1 score 0.440), demonstrating superior performance compared to bi-temporal and multi-temporal urban CD and segmentation methods on two challenging datasets.

Finally, the thesis develops a baseline network for multi-hazard building damage detection using the xBD dataset, which contains bi-temporal images captured before and after natural disasters. The study examines model transferability across disaster types by employing a comprehensive dataset split and proposes incorporating disaster-specific information into the baseline model to account for disaster-specific damage characteristics. The disaster-adaptive model demonstrates improved generalization to unseen events compared to several competing methods.

This thesis addresses key challenges in urban mapping and urban CD, including multi-hazard building damage detection. By advancing methods that leverage multi-sensor EO data and DL techniques, this thesis makes major contributions to timely and reliable urban data production, thereby supporting sustainable urban planning and urban Sustainable Development Goal (SDG) indicators monitoring.

Abstract [sv]

Urbaniseringen drivs på av den snabba befolkningstillväxten och går framåt i en aldrig tidigare skådad takt på många platser runt om i världen. Jordobservation (EO) har blivit ett viktigt verktyg för att övervaka urbaniseringen på global nivå. I synnerhet moderna satellituppdrag ger nya möjligheter till stadskartläggning och upptäckt av förändringar (CD) genom högupplösta bilder och frekventa återbesök. Dessa uppdrag har möjliggjort multimodala tillvägagångssätt genom att integrera data från olika satelliter, t.ex. Sentinel-1 Synthetic Aperture Radar (SAR) och Sentinel-2 MultiSpectral Instrument (MSI). Samtidigt har analysen av EO-data utvecklats från traditionella maskininlärningsmetoder till modeller för djupinlärning (DL), i synnerhet Convolutional Neural Networks (ConvNets). Nuvarande DL-metoder för stadskartläggning och CD står dock inför flera utmaningar, till exempel beroende av stora märkta dataset för övervakad träning, den begränsade överförbarheten av DL-modeller över geografiska regioner, effektiv integration av multimodala EO-data och användning av satellitbildstidsserier (SITS) för CD. För att ta itu med dessa utmaningar syftar denna avhandling till att utveckla nya djupinlärningsmetoder för robust stadskartläggning och förändringsdetektering med hjälp av EO-data från flera källor.

Först introduceras en SSL-metod (semi-supervised learning) som utnyttjar multimodala Sentinel-1 SAR- och Sentinel-2 MSI-data för att förbättra den geografiska överförbarheten av stadskartläggningsmodeller. Metoden använder en ConvNet-arkitektur med dubbla flöden för att kartlägga bebyggda områden separat från SAR- och optiska bilder. Genom att anta att konsekventa kartor ska produceras för båda modaliteterna införs en oövervakad förlust för omärkta data för att straffa avvikelser mellan dem. En omfattande utvärdering med hjälp av annoteringar från SpaceNet 7 multi-temporala dataset för byggnadsövervakning visade att denna SSL-metod (F1-poäng 0,694) överträffar flera övervakade metoder (F1-poäng från 0,574 till 0,651). Dessutom producerar den kartor över uppbyggda områden som konkurrerar med eller överträffar globala kartor över mänskliga bosättningar som GHS-BUILT-S2 och WSF 2019.

För CD i städer föreslås en ny nätverksarkitektur för sammanslagning av bi-temporala Sentinel-1 SAR- och Sentinel-2 MSI-bildpar. Denna arkitektur använder en dubbel strömdesign för att bearbeta varje modalitet genom separata ConvNets innan de extraherade funktionerna kombineras i ett senare skede. Den föreslagna strategin överträffar andra ConvNet-baserade metoder, både med uni-modal och multimodal data. Dessutom uppnår den toppmodern (SOTA) prestanda på Onera Satellite CD-dataset (F1-poäng 0,600).

På grundval av detta utvecklades en andra nätverksarkitektur för att anpassa metoden för förbättring av överförbarheten för CD i städer. Denna metod använder bi-temporala Sentinel-1 SAR- och Sentinel-2 MSI-bildpar och matar ut stadsförändringar med hjälp av en differensavkodare samtidigt som bebyggda områden kartläggs med en semantisk avkodare. I likhet med metoden för stadskartläggning straffas inkonsekvenser i kartor över bebyggda områden över modaliteter på omärkta data. Utvärdering på SpaceNet 7-datasetet, förbättrat med Sentinel-1 SAR och Sentinel-2 MSI-data, visar att metoden fungerar bra under begränsade etikettförhållanden, uppnår en F1-poäng på 0,555 med alla tillgängliga etiketter och levererar rimliga CD-resultat (F1-poäng på 0,491) även med endast 10 \% av de märkta data. Däremot lyckades inte övervakade multimodala metoder och SSL-metoder som använder optiska data överstiga en F1-poäng på 0,402 under detta villkor.

En tredje urban CD-metod fokuserar på att upptäcka förändringar i på varandra följande bilder av SITS (dvs. kontinuerlig urban CD). Denna metod introducerar en temporal funktionsförfiningsmodul som använder självupp-märksamhet för att förbättra ConvNet-baserade multitemporala representationer av byggnader. Dessutom föreslås en integrationsmodul med flera uppgifter som använder Markov-nätverk för att generera optimala tidsserier för byggnadskartor baserat på segmentering och täta förändringsutgångar. Den föreslagna metoden identifierar effektivt stadsförändringar i högupplösta SITS från PlanetScope (F1-poäng 0,551) och Gaofen-2 (F1-poäng 0,440), vilket visar överlägsen prestanda jämfört med bi-temporala och multi-temporala urbana CD- och segmenteringsmetoder på två utmanande dataset.

Slutligen utvecklar avhandlingen ett baslinjenätverk för detektering av byggnadsskador med flera faror med hjälp av xBD-datasetet, som innehåller bi-temporala bilder tagna före och efter naturkatastrofer. Studien undersöker modellens överförbarhet mellan olika katastroftyper genom att använda en omfattande datasetdelning och föreslår att katastrofspecifik information in-förlivas i baslinjemodellen för att ta hänsyn till katastrofspecifika skadeegenskaper. Den katastrofadaptiva modellen visar förbättrad generalisering till osedda händelser jämfört med flera konkurrerande metoder.

Denna avhandling behandlar viktiga utmaningar inom stadskartläggning och urban CD, inklusive detektering av byggnadsskador med flera faror. Genom att utveckla metoder som utnyttjar EO-data från flera sensorer och DL-tekniker ger den här avhandlingen viktiga bidrag till snabb och tillförlitlig produktion av stadsdata, vilket stöder hållbar stadsplanering och indikatorer för hållbara utvecklingsmål (SDG) i städer.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2024. p. 86
Series
TRITA-ABE-DLT ; 2440
Keywords
Remote Sensing, Semantic Segmentation, Domain Adaptation, Urban Mapping, Change Detection, Synthetic Aperture Radar, Optical, Data Fusion
National Category
Earth Observation
Research subject
Geodesy and Geoinformatics, Geoinformatics
Identifiers
urn:nbn:se:kth:diva-356875 (URN)978-91-8106-157-4 (ISBN)
Public defence
2024-12-13, D37, Lindstedtsvägen 5, KTH Campus, https://kth-se.zoom.us/j/65114181594, Stockholm, 09:00 (English)
Opponent
Supervisors
Note

QC241126

Available from: 2024-11-26 Created: 2024-11-26 Last updated: 2025-02-10Bibliographically approved

Open Access in DiVA

No full text in DiVA

Other links

Publisher's full textScopus

Authority records

Hafner, SebastianBan, YifangNascetti, Andrea

Search in DiVA

By author/editor
Hafner, SebastianBan, YifangNascetti, Andrea
By organisation
Geoinformatics
In the same journal
Remote Sensing of Environment
Computer graphics and computer visionHuman Geography

Search outside of DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetric score

doi
urn-nbn
Total: 101 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf