kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
VTG-Fusion: A GAN-ViT-Based Infrared and Visible ImageFusion Method
KTH, School of Electrical Engineering and Computer Science (EECS).
2022 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
VTG-Fusion : En GAN-ViT-baserad infraröd och synlig bildfusionsmetod (Swedish)
Abstract [en]

Infrared and visible image fusion targets generating one image with texture details from visible images and highlighted objects from the infrared images. It has been widely used in object recognition and object detection. The fusion methods can be divided into six categories: sparse representationbased, transform representation-based, auto-encoder-based, siamese networkbased, Convolutional Neural Network (CNN) based, and Generative Adversial Network (GAN) based methods. These categories of methods are summarized in the related work. As a popular method, CNN-based fusion made significant progress in infrared and visible image fusion, but it fails to extract global features from the source images. So in this work, A ViT-GAN-based fusion model, VTG-Fusion, is proposed to realize real-time infrared and visible image fusion with salient local and global features. Besides, quantitative and qualitative evaluations are conducted to evaluate the performance on the LLVIP dataset. The VTG model performs similarly or even better with state-of-the-art methods among eight evaluation metrics. Moreover, compared with the six typical fusion methods, the fused images generated by VTG-Fusion preserved the highlighted targets and more abundant texture features than the others. Most importantly, it is robust to the change of luminance. During the network design, several ablation experiments are conducted and the results prove the efficiency of the GAN-based structure and a variant of the vision transformer. An Axis infrared and visible image dataset is proposed in this work. The dataset consists of aligned infrared and visible image pairs with a resolution of 1290*960. And the scenarios contain indoor and outdoor, bright and dark scenes. The dataset contributes to the infrared and visible database with highquality images and contributes to the development of deep-learning-based infrared and visible image fusion models.

Abstract [sv]

Fusionen av infraröda och synliga bilder syftar till att skapa en bild med texturdetaljer från synliga bilder och markerade objekt från infraröda bilder. Den har använts i stor utsträckning för objektigenkänning och objektsdetektering. Fusionsmetoderna kan delas in i sex kategorier: glest representationsbaserad, transformationsbaserad representation, auto-encoder, siamesiskt nätverksbaserad, Faltande Neurala Nätverk(CNN) baserad och Generativt Motståndsnätverk(GAN) baserad metod. Dessa kategorier av metoder sammanfattas i det relaterade arbetet. CNN-baserad fusion, som är en populär metod, har gjort betydande framsteg inom fusion av infraröda och synliga bilder, men den misslyckas med att extrahera globala egenskaper från källbilderna. Så i det här arbetet föreslås en ViT-GAN-baserad fusionsmodell, VTGFusion, för att realisera fusion av infraröda och synliga bilder i realtid med framträdande lokala och globala egenskaper. Dessutom genomförs kvantitativa och kvalitativa utvärderingar för att utvärdera prestandan på LLVIP-dataset. VTG-modellen presterar på samma sätt eller till och med bättre än metoderna bland åtta utvärderingsmått. Jämfört med de sex typiska fusionsmetoderna bevarade de sammanslagna bilderna som genererades av VTG-Fusion dessutom de framhävda målen och mer rikliga texturdetaljer än de andra. Viktigast av allt är att den är robust mot förändringar i belysning. Under nätverksutformningen genomförs flera ablationsförsök och resultaten bevisar effektiviteten hos den GAN-baserade strukturen och en variant av ViT. I detta arbete föreslås en datamängd med infraröd och synlig bilder från Axis. Datamängden består av anpassade infraröda och synliga bildpar med en upplösning på 1290*960. Scenarierna innehåller inomhus och utomhus, ljusa och mörka scener. Datamängden bidrar till den infraröda och synliga databasen med högkvalitativa bilder och bidrar till utvecklingen av djupinlärningsbaserade modeller för fusion av infraröda och synliga bilder.

Place, publisher, year, edition, pages
2022. , p. 48
Series
TRITA-EECS-EX ; 2022:894
Keywords [en]
Infrared and visible image fusion, deep learning, Generative adversarial network, Transformer
Keywords [sv]
Infraröd och synlig bildfusion, djupinlärning, GAN, Transformator
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-324042OAI: oai:DiVA.org:kth-324042DiVA, id: diva2:1737862
External cooperation
Axis Communications AB
Supervisors
Examiners
Available from: 2023-03-20 Created: 2023-02-18 Last updated: 2023-03-20Bibliographically approved

Open Access in DiVA

fulltext(5894 kB)464 downloads
File information
File name FULLTEXT01.pdfFile size 5894 kBChecksum SHA-512
a8ee5729b9f8437392cbdd9ff6a70cbed5553cbfae2fefd02b6a205f86655c811fbcdb3851db2323ff5deffe898e02ac8180663ec1e56a969c604900038f6ebd
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Electrical Engineering, Electronic Engineering, Information Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 465 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 381 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf