kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Multi-Modal Deep Learning with Sentinel-1 and Sentinel-2 Data for Urban Mapping and Change Detection
KTH, School of Architecture and the Built Environment (ABE), Urban Planning and Environment, Geoinformatics.ORCID iD: 0000-0003-3560-638X
2022 (English)Licentiate thesis, comprehensive summary (Other academic)
Abstract [en]

Driven by the rapid growth in population, urbanization is progressing at an unprecedented rate in many places around the world. Earth observation has become an invaluable tool to monitor urbanization on a global scale by either mapping the extent of cities or detecting newly constructed urban areas within and around cities. In particular, the Sentinel-1 (S1) Synthetic Aperture Radar (SAR) and Sentinel-2 (S2) MultiSpectral Instrument (MSI) missions offer new opportunities for urban mapping and urban Change Detection (CD) due to the capability of systematically acquiring wide-swath high-resolution images with frequent revisits globally.

Current trends in both urban mapping and urban CD have shifted from employing traditional machine learning methods to Deep Learning (DL) models, specifically Convolutional Neural Networks (CNNs). Recent urban mapping efforts achieved promising results by training CNNs on available built-up data using S2 images. Likewise, DL models have been applied to urban CD problems using S2 data with promising results.

However, the quality of current methods strongly depends on the availability of local reference data for supervised training, especially since CNNs applied to unseen areas often produce unsatisfactory results due to their insufficient across-region generalization ability. Since multitemporal reference data are even more difficult to obtain, unsupervised learning was suggested for urban CD. While unsupervised models may perform more consistently across different regions, they often perform considerably worse than their supervised counterparts. To alleviate these shortcomings, it is desirable to leverage Semi-Supervised Learning (SSL) that exploits unlabeled data to improve upon supervised learning, especially because satellite data is plentiful. Furthermore, the integration of SAR data into the current optical frameworks (i.e., data fusion) has the potential to produce models with better generalization ability because the representation of urban areas in SAR images is largely invariant across cities, while spectral signatures vary greatly. 

In this thesis, a novel Domain Adaptation (DA) approach using SSL is first presented. The DA approach jointly exploits Multi-Modal (MM) S1 SAR and S2 MSI to improve across-region generalization for built-up area mapping. Specifically, two identical sub-networks are incorporated into the proposed model to perform built-up area segmentation from SAR and optical images separately. Assuming that consistent built-up area segmentation should be obtained across data modalities, an unsupervised loss for unlabeled data that penalizes inconsistent segmentation from the two sub-networks was designed. Therefore, the use of complementary data modalities as real-world perturbations for Consistency Regularization (CR) is proposed. For the final prediction, the model takes both data modalities into account. Experiments conducted on a test set comprised of sixty representative sites across the world showed that the proposed DA approach achieves strong improvements (F1 score 0.694) upon supervised learning from S1 SAR data (F1 score 0.574), S2 MSI data (F1 score 0.580) and their input-level fusion (F1 score 0.651). The comparison with two state-of-the-art global human settlement maps, namely GHS-S2 and WSF2019, showed that our model is capable of producing built-up area maps with comparable or even better quality.

For urban CD, a new network architecture for the fusion of SAR and optical data is proposed. Specifically, a dual stream concept was introduced to process different data modalities separately, before combining extracted features at a later decision stage. The individual streams are based on the U-Net architecture. The proposed strategy outperformed other U-Net-based approaches in combination with uni-modal data and MM data with feature level fusion. Furthermore, our approach achieved state-of-the-art performance on the problem posed by a popular urban CD dataset (F1 score 0.600).

Furthermore, a new network architecture is proposed to adapt Multi-Modal Consistency Regularization (MMCR) for urban CD. Using bi-temporal S1 SAR and S2 MSI image pairs as input, the MM Siamese Difference (Siam-Diff) Dual-Task (DT) network not only predicts changes using a difference decoder, but also segments buildings for each image with a semantic decoder. The proposed network is trained in a semi-supervised fashion using the underlying idea of MMCR, namely that building segmentation across sensor modalities should be consistent, to learn more robust features. The proposed method was tested on an urban CD task using the 60 sites of the SpaceNet7 dataset. A domain gap was introduced by only using labels for sites located in the Western World, where geospatial data are typically less sparse than in the Global South. MMCR achieved an average F1 score of 0.444 when applied to sites located outside of the source domain, which is a considerable improvement to several supervised models (F1 scores between 0.107 and 0.424).

The combined findings of this thesis contribute to the mapping and monitoring of cities on a global scale, which is crucial to support sustainable planning and urban SDG indicator monitoring.

Abstract [sv]

Vår befolkningstillväxt ligger till stor grund för den omfattande urbanise-ringstakt som kan observeras runt om i världen idag. Jordobservationer harblivit ett betydelsefullt verktyg för att bevaka urbaniseringen på en globalskala genom att antingen kartlägga städernas omfattning eller upptäcka ny-byggda stadsområden inom eller runtom städer. Tillföljd av satellituppdragenSentinel-1 (S1) Synthetic Aperture Radar (SAR) och Sentinel-2 (S2) MultiS-pectral Instrument (MSI) och dess förmåga att systematiskt tillhandahållabreda och högupplösta bilder, har vi fått nya möjligheter att kartlägga urbanaområden och upptäcka förändringar inom dem, även på frekvent åter besöktaplatser.

Samtida trender inom både urban kartläggning och för att upptäcka ur-bana förändringar har gått från att använda traditionella maskininlärnings-metoder till djupinlärning (DL), särskilt Convolutional Neural Nets (CNNs).De nytillkomna urbana kartläggningsmetoderna har gett lovande resultat ge-nom att träna CNNs med redan tillgänglig urban data och S2-bilder. Likasåhar DL-modeller, i kombination med S2-data, tillämpats på de problem somkan uppkomma vid analyser av urbana förändringar.

Kvaliteten på de nuvarande metoderna beror dock i stor utsträckning påtillgången av lokal referensdata förövervakad träning. CNNs som tillämpaspå nya områden ger ofta otillräckliga resultat på grund av deras oförmågaatt generalisera över regioner. Eftersom multitemporala referensdata kan va-ra svåra att erhålla föreslås oövervakad inlärning för upptäckter av urbanaförändringar. även om oövervakade modeller kan prestera mer konsekvent iolika regioner, generar de ofta betydligt sämre än dess övervakade motsva-righeter. För att undvika de brister som kan uppkomma är det önskvärt attanvända semi-övervakad inlärning (SSL) som nyttjar omärkta data för attförbättraövervakad inlärning eftersom tillgången på satellitdata är så stor.Dessutom har integrationen av SAR-data i de nuvarande optiska ramverken(så kallad datafusion) potential att producera modeller med bättre generali-seringsförmåga då representationen av stadsområden i SAR-bilder är i stortsett oföränderlig mellan städer, medan spektrala signaturer varierar mycket.

Denna avhandling presenterar först en ny metod för domänanpassning(DA) som använder SSL. Den DA-metoden som presenteras kombinerar Multi-Modal (MM) S1 SAR och S2 MSI för att förbättra generaliseringen av re-gioner som används vid kartläggning av bebyggda områden. Två identiskaundernätverk är inkorporerade i den föreslagna modellen för att få separataurbana kartläggningar från SAR och optiska data. För att erhålla en kon-sekvent segmentering av bebyggda områden över datamodalitet utformadesen oövervakad komponent för att motverka inkonsekvent segmentering frånde två undernätverken. Således föreslås användningen av kompletterande da-tamodaliteter som använder sig av verkliga störningar för konsistensregula-riseringar (CR). För det slutgiltiga resultatet tar modellen hänsyn till bådadatamodaliteterna. Experiment utförda på en testuppsättning bestående av60 representativa platseröver världen visar att den föreslagna DA-metodenuppnår starka förbättringar (F1 score 0,694) vidövervakad inlärning från S1SAR-data (F1 score 0,574), S2 MSI-data (F1 score 0,580) och deras samman-slagning på ingångsnivå (F1 score 0,651). I jämförelse med de två främstaglobala kartorna över mänskliga bosättningar, GHS-S2 och WSF2019, visadesig vår modell kapabel till att producera bebyggelsekartor med jämförbar ellerbättre kvalitet.

Gällande metoder för upptäckter av urbana förändringar i städer föreslårdenna avhandling en ny nätverksarkitektur som sammanslår SAR och op-tisk data. Mer specifikt presenteras ett dubbelströmskoncept för att bearbetaolika datamodaliteter separat, innan de extraherade funktionerna kombine-ras i ett senare beslutsstadium. De enskilda strömmarna baseras på U-Netarkitektur. Strategin överträffade andra U-Net-baserade tillvägagångssätt ikombination med uni-modala data och MM-data med funktionsnivåfusion.Dessutom uppnådde tillvägagångssättet hög prestanda på problem som or-sakas vid en frekvent använd datauppsättning för urbana förändringar (F1score 0,600).

Därtill föreslås en ny nätverksarkitektur som anpassar multi-modala kon-sistensregulariseringar (MMCR) för att upptäcka urbana förändringar. Ge-nom att använda bi-temporala S1 SAR- och S2 MSI-bildpar som indata,förutsäger nätverket MM Siamese Difference (Siam-Diff) Dual-Task (DT) intebara förändringar med hjälp av en skillnadsavkodare, utan kan även segmen-tera byggnader för varje bild med en semantisk avkodare. Nätverket tränaspå ett semi-övervakat sätt med hjälp av MMCR, nämligen att byggnadsseg-mentering över sensormodaliteter ska vara konsekvent, för att lära sig merrobusta funktioner. Den föreslagna metoden testades på en CD-uppgift medanvändning av de 60 platserna i SpaceNet7-datauppsättningen. Ett domängapintroducerades genom att endast använda etiketter för platser i västvärlden,där geospatiala data vanligtvis är mindre glest än i Globala Syd. MMCRuppnådde ett genomsnittligt F1 score på 0,444 när det applicerades på plat-ser utanför källdomänen, vilket är en avsevärd förbättring för flera övervakademodeller (F1 score mellan 0,107 och 0,424).Samtliga resultat från avhandlingen bidrar till kartläggning och över-vakning av städer på en global skala, vilket är väsentligt för att kunna bedrivahållbar stadsplanering och övervakning av FN:s globala mål för hållbar ut-veckling.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2022. , p. 69
Series
TRITA-ABE-DLT ; 2231
National Category
Environmental Sciences Computer graphics and computer vision
Research subject
Geodesy and Geoinformatics, Geoinformatics
Identifiers
URN: urn:nbn:se:kth:diva-312995ISBN: 978-91-8040-293-4 (print)OAI: oai:DiVA.org:kth-312995DiVA, id: diva2:1661349
Presentation
2022-06-15, U1, Brinellvägen 26, KTH Campus, https://kth-se.zoom.us/j/63212165922, Stockholm, 09:00 (English)
Opponent
Supervisors
Note

QC220530

Available from: 2022-05-30 Created: 2022-05-27 Last updated: 2025-02-01Bibliographically approved
List of papers
1. Unsupervised Domain Adaptation for Global Urban Extraction Using Sentinel-1 and Sentinel-2 Data
Open this publication in new window or tab >>Unsupervised Domain Adaptation for Global Urban Extraction Using Sentinel-1 and Sentinel-2 Data
(English)Manuscript (preprint) (Other academic)
National Category
Computer graphics and computer vision Environmental Sciences
Research subject
Geodesy and Geoinformatics, Geoinformatics
Identifiers
urn:nbn:se:kth:diva-312863 (URN)
Note

QC 20220530

Available from: 2022-05-24 Created: 2022-05-24 Last updated: 2025-02-01Bibliographically approved
2. Sentinel-1 and Sentinel-2 Data Fusion for Urban Change Detection Using a Dual Stream U-Net
Open this publication in new window or tab >>Sentinel-1 and Sentinel-2 Data Fusion for Urban Change Detection Using a Dual Stream U-Net
2022 (English)In: IEEE Geoscience and Remote Sensing Letters, ISSN 1545-598X, E-ISSN 1558-0571, Vol. 19, article id 4019805Article in journal (Refereed) Published
Abstract [en]

Urbanization is progressing rapidly around the world. With sub-weekly revisits at global scale, Sentinel-1 synthetic aperture radar (SAR) and Sentinel-2 multispectral imager (MSI) data can play an important role for monitoring urban sprawl to support sustainable development. In this letter, we proposed an urban change detection (CD) approach featuring a new network architecture for the fusion of SAR and optical data. Specifically, a dual stream concept was introduced to process different data modalities separately, before combining extracted features at a later decision stage. The individual streams are based on U-Net architecture that is one of the most popular fully convolutional networks used for semantic segmentation. The effectiveness of the proposed approach was demonstrated using the Onera Satellite CD (OSCD) dataset. The proposed strategy outperformed other U-Net-based approaches in combination with unimodal data and multimodal data with feature level fusion. Furthermore, our approach achieved state-of-the-art performance on the urban CD problem posed by the OSCD dataset. Our Sentinel-1 SAR data and code are available on https://github.com/SebastianHafner/DS_UNet.

Place, publisher, year, edition, pages
Institute of Electrical and Electronics Engineers (IEEE), 2022
Keywords
Synthetic aperture radar, Optical imaging, Optical sensors, Training, Streaming media, Feature extraction, Convolution, Data fusion, deep learning, remote sensing, urban change detection (CD)
National Category
Earth Observation
Identifiers
urn:nbn:se:kth:diva-307314 (URN)10.1109/LGRS.2021.3119856 (DOI)000740006800040 ()2-s2.0-85117749240 (Scopus ID)
Note

QC 20220120

Available from: 2022-01-20 Created: 2022-01-20 Last updated: 2025-02-10Bibliographically approved
3. Multi-Modal Consistency Regularization Using Sentinel-1/2 Data for Urban Change Detection
Open this publication in new window or tab >>Multi-Modal Consistency Regularization Using Sentinel-1/2 Data for Urban Change Detection
(English)Manuscript (preprint) (Other academic)
Keywords
Remote sensing, deep learning, data fusion, semi-supervised learning, change detection
National Category
Environmental Sciences Computer graphics and computer vision
Research subject
Geodesy and Geoinformatics, Geoinformatics
Identifiers
urn:nbn:se:kth:diva-312993 (URN)
Note

QC 20220530

Available from: 2022-05-26 Created: 2022-05-26 Last updated: 2025-02-01Bibliographically approved

Open Access in DiVA

Kappa(30482 kB)1448 downloads
File information
File name FULLTEXT02.pdfFile size 30482 kBChecksum SHA-512
7e66cfe7e47bfffa418de9a908bbd3a040e0c927036d48ad20ec206d016d49f592987f891d67fffbdccc3ff0a7c8cd3f8b3342ccbaebf112f4a300e279e278bd
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Hafner, Sebastian
By organisation
Geoinformatics
Environmental SciencesComputer graphics and computer vision

Search outside of DiVA

GoogleGoogle Scholar
Total: 1448 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

isbn
urn-nbn

Altmetric score

isbn
urn-nbn
Total: 1979 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf