kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Tokenized Time-Series in Satellite Image Segmentation With Transformer Network for Active Fire Detection
KTH, School of Architecture and the Built Environment (ABE), Urban Planning and Environment, Geoinformatics.ORCID iD: 0000-0002-4230-2467
KTH, School of Architecture and the Built Environment (ABE), Urban Planning and Environment, Geoinformatics.ORCID iD: 0000-0003-1369-3216
KTH, School of Electrical Engineering and Computer Science (EECS), Intelligent systems, Robotics, Perception and Learning, RPL.ORCID iD: 0000-0003-2784-7300
Number of Authors: 32023 (English)In: IEEE Transactions on Geoscience and Remote Sensing, ISSN 0196-2892, E-ISSN 1558-0644, Vol. 61, article id 4405513Article in journal (Refereed) Published
Abstract [en]

The Visible Infrared Imaging Radiometer Suite (VIIRS) onboard the Suomi National Polar-orbiting Partnership (Suomi-NPP) satellite has been used for the early detection and daily monitoring of active wildfires. How to effectively segment the active fire (AF) pixels from VIIRS image time-series in a reliable manner remains a challenge because of the low precision associated with high recall using automatic methods. For AF detection, multicriteria thresholding is often applied to both low-resolution and mid-resolution Earth observation images. Deep learning approaches based on convolutional neural networks (ConvNets) are also well-studied on mid-resolution images. However, ConvNet-based approaches have poor performance on low-resolution images because of the coarse spatial features. On the other hand, the high temporal resolution of VIIRS images highlights the potential of using sequential models for AF detection. Transformer networks, a recent deep learning architecture based on self-attention, offer hope as they have shown strong performance on image segmentation and sequential modeling tasks within computer vision. In this research, we propose a transformer-based solution to segment AF pixels from the VIIRS time-series. The solution feeds a time-series of tokenized pixels into a transformer network to identify AF pixels at each timestamp and achieves a significantly higher F1-score than prior approaches for AFs within the study areas in California, New Mexico, and Oregon in the U.S., and in British Columbia and Alberta in Canada, as well as in Australia, and Sweden.

Place, publisher, year, edition, pages
Institute of Electrical and Electronics Engineers Inc. , 2023. Vol. 61, article id 4405513
Keywords [en]
Active fire (AF) detection, image segmentation, remote sensing, transformer, Visible Infrared Imaging Radiometer Suite (VIIRS)
National Category
Computer graphics and computer vision
Identifiers
URN: urn:nbn:se:kth:diva-334367DOI: 10.1109/TGRS.2023.3287498ISI: 001030654100010Scopus ID: 2-s2.0-85162916865OAI: oai:DiVA.org:kth-334367DiVA, id: diva2:1789232
Note

QC 20230821

Available from: 2023-08-18 Created: 2023-08-18 Last updated: 2025-02-07Bibliographically approved
In thesis
1. Deep Learning for Wildfire Detection Using Multi-Sensor Multi-Resolution Satellite Images
Open this publication in new window or tab >>Deep Learning for Wildfire Detection Using Multi-Sensor Multi-Resolution Satellite Images
2024 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

In recent years, climate change and human activities have caused increasing numbers of wildfires. Earth observation data with various spatial and temporal resolutions have shown great potential in detecting and monitoring wildfires. Sensors with different spatial and temporal resolutions detect wildfires in different stages. For low spatial resolution and high temporal resolution satellites, they are mostly used in active fire detection and early-stage burned area mapping because of their frequent revisit. While these products are very useful, the existing solutions have flaws, including many false alarms due to cloud cover or buildings with roofs in high temperatures. Also, the multi-criteria threshold-based method does not leverage rich temporal information of each pixel at different timestamps and rich spatial information between neighbouring pixels. Therefore, advanced processing algorithms are needed to detect active fires. For medium spatial resolution and low temporal resolution satellites, they are often used to detect post-fire burned areas. Optical sensors like Sentinel-2 and Landsat-8/9 are commonly used but their low temporal resolution makes them difficult to monitor ongoing wildfire as they are likely to be affected by clouds and smoke. Synthetic Aperture Radar (SAR) satellites like Sentinel-1, ALOS-2 and RADARSAR Constellation Mission (RCM) can penetrate through the cloud and their spatial resolutions are around 30 meters. However, limited studies have compared the effectiveness of C-band and L-band data and investigating the usage of compact polarization on burned area mapping.

The main objective of this thesis is to develop deep learning methods for improved active fire detection, daily burned area mapping and post-fire burned area mapping utilizing multi-sensor multi-resolution earth observation images. 

 Temporal models such as Gated Recurrent Unit (GRU), Long Short-Term Memory (LSTM), and Transformer networks are promising for effectively capturing temporal information embedded in the image time-series produced by high temporal resolution sensors. Spatial models, including ConvNet-based and Transformer-based architectures, are well-suited for leveraging the rich spatial details in images from mid-resolution sensors. Furthermore, when dealing with image time-series that contain both abundant temporal and spatial information, spatial-temporal models like 3D ConvNet-based and Transformer-based models are ideal for addressing the task. 

In this thesis, the GRU-based GOES-R early detection method consists of a 5-layer GRU network that utilizes GOES-R ABI pixel time-series and classifies the active fire pixels at each time step. For 36 study areas, the proposed method detects 26 wildfires earlier than VIIRS active fire product. Moreover, the method mitigates the problem of coarse resolution of GOES-R ABI images by upsampling and the results show more reliable early-stage active fire location and suppresses the noise compared to GOES-R active fire product.

Furthermore, the VIIRS time-series images are investigated for both active fire detection and daily burned area mapping. For active fire detection, the image time-series are tokenized into vectors of pixel time-series as the input to the proposed Transformer model. For daily burned area mapping, the 3-dimensional Swin-Transformer model is directly applied to the image time-series. The attention mechanism of the Transformer helps to find the spatial-temporal relations of the pixel. By detecting the variation of the pixel values, the proposed model classifies the pixel at different time steps as an active fire pixel or a non-fire pixel. The proposed method is tested over 18 study areas across different regions and provides a 0.804 F1-Score. It outperforms the VIIRS active fire products from NASA which has a 0.663 F1-Score. For daily burned area mapping, it also outperforms the accumulation of VIIRS active fire hotspots in the F1 Score (0.811 vs 0.730). Also, the Transformer model is proven to be superior for active fire detection to other sequential models GRU and spatial models like U-Net. Additionally, for burned area detection, the proposed AR-SwinUNETR also shows superior performance over spatial models and other baseline spatial-temporal models.

To address the limitation of optical images due to cloud cover,  C-bBand data from Sentinel-1 and RCM, as well as L-band data from ALOS-2 PALSAR-2, are evaluated for post-fire burned area detection. To assess the effectiveness of SAR at different wavelengths, the performance of the same deep learning model is cross-compared on burned areas of varying severities in broadleaf and needleleaf forests using both Sentinel-1 SAR and PALSAR-2 SAR data. The results indicate that L-band SAR is more sensitive to detecting low and medium burn severities. Overall, models using L-band data achieve superior performance, with an F1 Score of 0.840 and an IoU Score of 0.729, compared to models using C-band data, which scored 0.757 and 0.630, respectively, across 12 test wildfires. For the RCM data, which provides compact polarization (compact-pol) at C-band, the inclusion of features generated from m-$\chi$ compact polarization decomposition and the radar vegetation index, combined with the original images, further enhances performance. The results demonstrate that leveraging polarization decomposition and the radar vegetation index improves detection accuracy for baseline deep learning models compared to using compact-pol images alone.

In conclusion, this thesis demonstrates the potential of advanced deep learning methods and multi-sensor Earth observation data for improving wildfire detection and burned area mapping, achieving superior performance across various sensors and methodologies.

Abstract [sv]

De senaste åren har klimatförändringar och mänskliga aktiviteter orsakat ett ökande antal skogsbränder. Jordobservationsdata med olika rumsliga och tidsmässiga upplösningar har visat stor potential för att upptäcka och övervaka skogsbränder. Sensorer med olika rumsliga och tidsmässiga upplösningar upptäcker skogsbränder i olika steg. För satelliter med låg rumslig upplösning och hög tidsupplösning används de mest i aktiv branddetektering och kartläggning av brända områden i ett tidigt skede på grund av deras frekventa återbesök. Även om dessa produkter är mycket användbara har de befintliga lösningarna brister, inklusive många falska larm på grund av molntäcke eller byggnader med tak i höga temperaturer. Den tröskelbaserade metoden med flera kriterier utnyttjar inte heller rik tidsinformation för varje pixel vid olika tidsstämplar och rik rumslig information mellan angränsande pixlar. Därför behövs avancerade bearbetningsalgoritmer för att upptäcka aktiva bränder. För satelliter med medium rumslig upplösning och låg tidsupplösning används de ofta för att upptäcka brända områden efter brand. Optiska sensorer som Sentinel-2 och Landsat-8/9 används ofta men deras låga tidsupplösning gör dem svåra att övervaka pågående löpeld eftersom de sannolikt kommer att påverkas av moln och rök. Synthetic Aperture Radar (SAR) satelliter som Sentinel-1, ALOS-2 och RADARSAR Constellation Mission (RCM) kan penetrera genom molnet och deras rumsliga upplösningar är cirka 30 meter. Emellertid har begränsade studier jämfört effektiviteten av C-bands- och L-bandsdata och undersökt användningen av kompakt polarisering på kartläggning av brända områden.

Huvudsyftet med detta examensarbete är att utveckla metoder för djupinlärning för förbättrad aktiv branddetektering, daglig kartläggning av brända områden och kartläggning av brända områden efter brand med hjälp av multi-sensor flerupplösta jordobservationsbilder.Temporala modeller såsom Gated Recurrent Unit (GRU), Long Short-Term Memory (LSTM) och Transformer-nätverk lovar att effektivt fånga tidsinformation inbäddad i bildtidsserierna som produceras av sensorer med hög tidsupplösning. Rumsliga modeller, inklusive ConvNet-baserade och Transformer-baserade arkitekturer, är väl lämpade för att utnyttja de rika rumsliga detaljerna i bilder från medelupplösningssensorer. Dessutom, när det handlar om bildtidsserier som innehåller både riklig tids- och rumsinformation, är rumsliga-temporala modeller som 3D ConvNet-baserade och Transformer-baserade modeller idealiska för att ta itu med uppgiften. 

I detta examensarbete består den GRU-baserade GOES-R tidig detekteringsmetoden av ett 5-lagers GRU-nätverk som använder GOES-R ABI-pixeltidsserier och klassificerar de aktiva brandpixlarna vid varje tidssteg. För 36 studieområden upptäcker den föreslagna metoden 26 skogsbränder tidigare än VIIRS aktiva brandprodukt. Dessutom mildrar metoden problemet med grov upplösning av GOES-R ABI-bilder genom uppsampling och resultaten visar mer tillförlitlig lokalisering av aktiv brand i tidigt skede och dämpar bruset jämfört med GOES-R aktiv brandprodukt.

Vidare undersöks VIIRS tidsseriebilder för både aktiv branddetektering och daglig kartläggning av brända områden. För aktiv branddetektering tokeniseras bildtidsserierna till vektorer av pixeltidsserier som indata till den föreslagna transformatormodellen. För daglig kartläggning av brända områden appliceras den 3-dimensionella Swin-Transformer-modellen direkt på bildtidsserien. Transformatorns uppmärksamhetsmekanism hjälper till att hitta pixelns rumsliga-temporala relationer. Genom att detektera variationen av pixelvärdena klassificerar den föreslagna modellen pixeln vid olika tidssteg som en aktiv brandpixel eller en icke-brandpixel. Den föreslagna metoden testas över 18 studieområden i olika regioner och ger en 0,804 F1-Score. Den överträffar VIIRS aktiva brandprodukter från NASA som har 0,663 F1-poäng. För daglig kartläggning av brända områden överträffar den också ackumuleringen av VIIRS aktiva brandhärdar i F1-poängen (0,811 mot 0,730). Transformer-modellen har också visat sig vara överlägsen för aktiv branddetektering jämfört med andra sekventiella GRU-modeller och rumsliga modeller som U-Net. Dessutom, för detektering av bränt område, visar den föreslagna AR-SwinUNETR också överlägsen prestanda jämfört med rumsliga modeller och andra baslinje-rums-temporala modeller.

För att komma till rätta med begränsningen av optiska bilder på grund av molntäcke utvärderas C-bBand-data från Sentinel-1 och RCM, samt L-bandsdata från ALOS-2 PALSAR-2, för detektering av bränt område efter brand. För att bedöma effektiviteten av SAR vid olika våglängder korsjämförs prestandan för samma djupinlärningsmodell på brända områden av varierande svårighetsgrad i löv- och barrskogar med hjälp av både Sentinel-1 SAR- och PALSAR-2 SAR-data. Resultaten indikerar att L-band SAR är känsligare för att detektera låga och medelhöga brännskador. Sammantaget uppnår modeller som använder L-bandsdata överlägsen prestanda, med ett F1-poäng på 0,840 och ett IoU-poäng på 0,729, jämfört med modeller som använder C-bandsdata, som fick 0,757 respektive 0,630 i 12 testskogsbränder. För RCM-data, som ger kompakt polarisering (compact-pol) vid C-bandet, förbättrar inkluderingen av funktioner genererade från m-$\chi$ kompakt polarisationsupplösning och radarvegetationsindex, i kombination med originalbilderna, prestandan ytterligare. Resultaten visar att utnyttjande av polarisationsnedbrytning och radarvegetationsindex förbättrar detekteringsnoggrannheten för baslinjemodeller för djupinlärning jämfört med att använda enbart kompakta polbilder. 

Sammanfattningsvis visar denna avhandling potentialen hos avancerade metoder för djupinlärning och jordobservationsdata med flera sensorer för att förbättra detektering av skogsbränder och kartläggning av brända områden, för att uppnå överlägsen prestanda över olika sensorer och metoder.

Place, publisher, year, edition, pages
KTH Royal Institute of Technology, 2024. p. 121
Series
TRITA-ABE-DLT ; 2430
Keywords
Wildfire, Remote Sensing, Active Fire Detection, Burned Area Mapping, GOES-R ABI, Suomi-NPP VIIRS, Sentinel-1, PALSAR-2, RADARSAT Constellation Mission, Image Segmentation, Deep Learning, Gated Recurrent Units (GRU), Transformer, Convolutional Neural Network., Vilda Bränder, Fjärranalys, Aktiv Branddetektering, Kartläggning av Bränt Område, GOES-R ABI, Suomi-NPP VIIRS, Sentinel-1, PALSAR-2, Bildsegmentering, Djupinlärning, Gated Recurrent Units (GRU), Transformer, Convolutional Neural Network.
National Category
Engineering and Technology
Research subject
Geodesy and Geoinformatics, Geoinformatics
Identifiers
urn:nbn:se:kth:diva-356334 (URN)978-91-8106-113-0 (ISBN)
Public defence
2024-12-06, https://kth-se.zoom.us/j/62299317578, Kollegiesalen, Brinellvägen 26, KTH Campus, Stockholm, 09:00 (English)
Opponent
Supervisors
Funder
Swedish Research Council Formas, H72100
Note

QC 20241118

Available from: 2024-11-18 Created: 2024-11-15 Last updated: 2024-12-04Bibliographically approved

Open Access in DiVA

No full text in DiVA

Other links

Publisher's full textScopus

Authority records

Zhao, YuBan, YifangSullivan, Josephine

Search in DiVA

By author/editor
Zhao, YuBan, YifangSullivan, Josephine
By organisation
GeoinformaticsRobotics, Perception and Learning, RPL
In the same journal
IEEE Transactions on Geoscience and Remote Sensing
Computer graphics and computer vision

Search outside of DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetric score

doi
urn-nbn
Total: 69 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf