Open this publication in new window or tab >>2024 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
Driven by the rapid growth in population, urbanization is progressing at an unprecedented rate in many places around the world. Earth observation (EO) has become a vital tool for monitoring urbanization on a global scale. Modern satellite missions, in particular, provide new opportunities for urban mapping and change detection (CD) through high-resolution imagery and frequent revisits. These missions have enabled multi-modal approaches by integrating data from different satellites, such as Sentinel-1 Synthetic Aperture Radar (SAR) and Sentinel-2 MultiSpectral Instrument (MSI). Concurrently, EO data analysis has evolved from traditional machine learning methods to deep learning (DL) models, particularly Convolutional Neural Networks (ConvNets). However, current DL methods for urban mapping and CD face several challenges, such as reliance on large labeled datasets for supervised training, the limited transferability of DL models across geographic regions, the effective integration of multi-modal EO data, and using satellite image time series (SITS) for CD. To address these challenges, this thesis aims to develop novel DL methods for robust urban mapping and CD using multi-source EO data.
First, a semi-supervised learning (SSL) method is introduced, leveraging multi-modal Sentinel-1 SAR and Sentinel-2 MSI data to improve the geographic transferability of urban mapping models. This method employs a dual stream ConvNet architecture to map built-up areas separately from SAR and optical images. By assuming consistent maps should be produced for both modalities, an unsupervised loss for unlabeled data is introduced to penalize discrepancies between them. Extensive evaluation using annotations from the SpaceNet 7 multi-temporal building monitoring dataset demonstrated that this SSL approach (F1 score 0.694) outperforms several supervised approaches (F1 scores ranging from 0.574 to 0.651). Furthermore, it produces built-up area maps that rival or surpass global human settlement maps like GHS-BUILT-S2 and WSF 2019.
For urban CD, a new network architecture is proposed for fusing bi-temporal Sentinel-1 SAR and Sentinel-2 MSI image pairs. This architecture uses a dual stream design to process each modality through separate ConvNets before combining the extracted features at a later stage. The proposed strategy outperforms other ConvNet-based approaches, both with uni-modal and multi-modal data. Additionally, it achieves state-of-the-art (SOTA) performance on the Onera Satellite CD dataset (F1 score 0.600).
Building on this, a second network architecture was developed to adapt the transferability improvement approach for urban CD. This approach uses bi-temporal Sentinel-1 SAR and Sentinel-2 MSI image pairs and outputs urban changes using a difference decoder while mapping built-up areas with a semantic decoder. Similar to the urban mapping method, inconsistencies in built-up area maps across modalities are penalized on unlabeled data. Evaluation on the SpaceNet 7 dataset, enhanced with Sentinel-1 SAR and Sentinel-2 MSI data, shows that the method performs well under limited label conditions, achieving an F1 score of 0.555 with all available labels, and delivering reasonable CD results (F1 score of 0.491) even with only 10 \% of the labeled data. In contrast, supervised multi-modal methods and SSL methods using optical data failed to exceed an F1 score of 0.402 under this condition.
A third urban CD method focuses on detecting changes in consecutive images of SITS (i.e., continuous urban CD). This method introduces a temporal feature refinement module that uses self-attention to enhance ConvNet-based multi-temporal representations of buildings. Additionally, a multi-task integration module employing Markov networks is proposed to generate optimal building map time series based on segmentation and dense change outputs. The proposed method effectively identifies urban changes in high-resolution SITS from PlanetScope (F1 score 0.551) and Gaofen-2 (F1 score 0.440), demonstrating superior performance compared to bi-temporal and multi-temporal urban CD and segmentation methods on two challenging datasets.
Finally, the thesis develops a baseline network for multi-hazard building damage detection using the xBD dataset, which contains bi-temporal images captured before and after natural disasters. The study examines model transferability across disaster types by employing a comprehensive dataset split and proposes incorporating disaster-specific information into the baseline model to account for disaster-specific damage characteristics. The disaster-adaptive model demonstrates improved generalization to unseen events compared to several competing methods.
This thesis addresses key challenges in urban mapping and urban CD, including multi-hazard building damage detection. By advancing methods that leverage multi-sensor EO data and DL techniques, this thesis makes major contributions to timely and reliable urban data production, thereby supporting sustainable urban planning and urban Sustainable Development Goal (SDG) indicators monitoring.
Abstract [sv]
Urbaniseringen drivs på av den snabba befolkningstillväxten och går framåt i en aldrig tidigare skådad takt på många platser runt om i världen. Jordobservation (EO) har blivit ett viktigt verktyg för att övervaka urbaniseringen på global nivå. I synnerhet moderna satellituppdrag ger nya möjligheter till stadskartläggning och upptäckt av förändringar (CD) genom högupplösta bilder och frekventa återbesök. Dessa uppdrag har möjliggjort multimodala tillvägagångssätt genom att integrera data från olika satelliter, t.ex. Sentinel-1 Synthetic Aperture Radar (SAR) och Sentinel-2 MultiSpectral Instrument (MSI). Samtidigt har analysen av EO-data utvecklats från traditionella maskininlärningsmetoder till modeller för djupinlärning (DL), i synnerhet Convolutional Neural Networks (ConvNets). Nuvarande DL-metoder för stadskartläggning och CD står dock inför flera utmaningar, till exempel beroende av stora märkta dataset för övervakad träning, den begränsade överförbarheten av DL-modeller över geografiska regioner, effektiv integration av multimodala EO-data och användning av satellitbildstidsserier (SITS) för CD. För att ta itu med dessa utmaningar syftar denna avhandling till att utveckla nya djupinlärningsmetoder för robust stadskartläggning och förändringsdetektering med hjälp av EO-data från flera källor.
Först introduceras en SSL-metod (semi-supervised learning) som utnyttjar multimodala Sentinel-1 SAR- och Sentinel-2 MSI-data för att förbättra den geografiska överförbarheten av stadskartläggningsmodeller. Metoden använder en ConvNet-arkitektur med dubbla flöden för att kartlägga bebyggda områden separat från SAR- och optiska bilder. Genom att anta att konsekventa kartor ska produceras för båda modaliteterna införs en oövervakad förlust för omärkta data för att straffa avvikelser mellan dem. En omfattande utvärdering med hjälp av annoteringar från SpaceNet 7 multi-temporala dataset för byggnadsövervakning visade att denna SSL-metod (F1-poäng 0,694) överträffar flera övervakade metoder (F1-poäng från 0,574 till 0,651). Dessutom producerar den kartor över uppbyggda områden som konkurrerar med eller överträffar globala kartor över mänskliga bosättningar som GHS-BUILT-S2 och WSF 2019.
För CD i städer föreslås en ny nätverksarkitektur för sammanslagning av bi-temporala Sentinel-1 SAR- och Sentinel-2 MSI-bildpar. Denna arkitektur använder en dubbel strömdesign för att bearbeta varje modalitet genom separata ConvNets innan de extraherade funktionerna kombineras i ett senare skede. Den föreslagna strategin överträffar andra ConvNet-baserade metoder, både med uni-modal och multimodal data. Dessutom uppnår den toppmodern (SOTA) prestanda på Onera Satellite CD-dataset (F1-poäng 0,600).
På grundval av detta utvecklades en andra nätverksarkitektur för att anpassa metoden för förbättring av överförbarheten för CD i städer. Denna metod använder bi-temporala Sentinel-1 SAR- och Sentinel-2 MSI-bildpar och matar ut stadsförändringar med hjälp av en differensavkodare samtidigt som bebyggda områden kartläggs med en semantisk avkodare. I likhet med metoden för stadskartläggning straffas inkonsekvenser i kartor över bebyggda områden över modaliteter på omärkta data. Utvärdering på SpaceNet 7-datasetet, förbättrat med Sentinel-1 SAR och Sentinel-2 MSI-data, visar att metoden fungerar bra under begränsade etikettförhållanden, uppnår en F1-poäng på 0,555 med alla tillgängliga etiketter och levererar rimliga CD-resultat (F1-poäng på 0,491) även med endast 10 \% av de märkta data. Däremot lyckades inte övervakade multimodala metoder och SSL-metoder som använder optiska data överstiga en F1-poäng på 0,402 under detta villkor.
En tredje urban CD-metod fokuserar på att upptäcka förändringar i på varandra följande bilder av SITS (dvs. kontinuerlig urban CD). Denna metod introducerar en temporal funktionsförfiningsmodul som använder självupp-märksamhet för att förbättra ConvNet-baserade multitemporala representationer av byggnader. Dessutom föreslås en integrationsmodul med flera uppgifter som använder Markov-nätverk för att generera optimala tidsserier för byggnadskartor baserat på segmentering och täta förändringsutgångar. Den föreslagna metoden identifierar effektivt stadsförändringar i högupplösta SITS från PlanetScope (F1-poäng 0,551) och Gaofen-2 (F1-poäng 0,440), vilket visar överlägsen prestanda jämfört med bi-temporala och multi-temporala urbana CD- och segmenteringsmetoder på två utmanande dataset.
Slutligen utvecklar avhandlingen ett baslinjenätverk för detektering av byggnadsskador med flera faror med hjälp av xBD-datasetet, som innehåller bi-temporala bilder tagna före och efter naturkatastrofer. Studien undersöker modellens överförbarhet mellan olika katastroftyper genom att använda en omfattande datasetdelning och föreslår att katastrofspecifik information in-förlivas i baslinjemodellen för att ta hänsyn till katastrofspecifika skadeegenskaper. Den katastrofadaptiva modellen visar förbättrad generalisering till osedda händelser jämfört med flera konkurrerande metoder.
Denna avhandling behandlar viktiga utmaningar inom stadskartläggning och urban CD, inklusive detektering av byggnadsskador med flera faror. Genom att utveckla metoder som utnyttjar EO-data från flera sensorer och DL-tekniker ger den här avhandlingen viktiga bidrag till snabb och tillförlitlig produktion av stadsdata, vilket stöder hållbar stadsplanering och indikatorer för hållbara utvecklingsmål (SDG) i städer.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2024. p. 86
Series
TRITA-ABE-DLT ; 2440
Keywords
Remote Sensing, Semantic Segmentation, Domain Adaptation, Urban Mapping, Change Detection, Synthetic Aperture Radar, Optical, Data Fusion
National Category
Earth Observation
Research subject
Geodesy and Geoinformatics, Geoinformatics
Identifiers
urn:nbn:se:kth:diva-356875 (URN)978-91-8106-157-4 (ISBN)
Public defence
2024-12-13, D37, Lindstedtsvägen 5, KTH Campus, https://kth-se.zoom.us/j/65114181594, Stockholm, 09:00 (English)
Opponent
Supervisors
Note
QC241126
2024-11-262024-11-262025-02-10Bibliographically approved