kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
CCR: Classification-Constrained Retrieval for City-Scale Geolocalization of Images
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
CCR : klassificeringsbegränsad bildsökning för finkornig geolokalisering av bilder i stadsmiljö (Swedish)
Abstract [en]

In recent years, investigative journalists and digital forensics experts have manually found and verified the locations of image evidence to track human rights violations. Visual Geolocalization (VG) aims to automate this process, predicting where an image was taken using only pixels as input. This thesis focuses on improving fine-grained city-scale geolocalization, i.e. geolocalization within the confines of a city. Typically, this has been performed through image retrieval. This thesis hypothesizes that a hybrid model combining image classification and retrieval could improve the performance of geolocation prediction, and the robustness under domain shift. Earlier attempts at such a hybrid model of classification-constrained retrieval (CCR) have been made for global geolocalization (where it has shown promise), but never for city-scale geolocation prediction on moderately-sized datasets. To fill this knowledge gap, this thesis conducts two experiments, comparing the performance of CCR to a state-of-the-art retrieval model on a dataset of street view images from Stockholm. The first experiment uses query images from the same distribution as the database, and the best configuration of CCR correctly predicts the location within 100 meters for 48.5% of queries compared to 44.9% for the retrieval model. The second experiment uses query images from another distribution (social media images), again, CCR outperforms the retrieval model, correctly predicting 20.8% of the queries within 100 meters compared to 12.8%. These findings demonstrate the great potential for CCR in city-level geolocalization, particularly in handling challenging scenarios reminiscent of real-world conditions.

Abstract [sv]

Visuell geolokalisering är ett forskningsområde som ämnar att svara på frågan: På vilken plats var denna bild tagen? Mer specifikt, att låta en dator svara på denna fråga genom att träna modeller med referensbilder. Detta examensarbete gör en ansats att förbättra metoderna för geolokalisering av bilder i stadsmiljö. Tidigare har detta genomförts genom att matcha bilder till varandra genom så kallad bildsökning. Detta examensarbete utgår från hypotesen att en hybridmodell som kombinerar klassificering och bildsökning skulle kunna förbättra prestandan av geolokaliseringsmodeller samt göra dessa modeller mindre känsliga för en domänförskjutning, d.v.s. en situation där testbilderna kommer från en annan fördelning än de referensbilder som modellerna är tränade på. Tidigare försök med en sådan hybridmodell s.k. classification-constrained retrieval (CCR) har tillämpats för global geolokalisering med goda resultat, men hitills så har det ej testats för finkornig geolokalisering inom stadsmiljö på medelstora dataset. I ett försök att fylla denna kunskapslucka så genomförs två experiment där man jämför prestandan av CCR jämfört med en modern bildsökningsmodell på ett dataset av gatubilder från Stockholm. Det första experimentet använder testbilder från samma fördelning, och den bästa CCR modellen förutsäger korrekt platsen där testbilderna var tagna inom 100 meter för 48.5% av bilderna, jämfört med 44.9% för bildsökningsmodellen. Det andra experiment använder testbilder från en annan fördelning (dessa bilder tagna från sociala medier), och även här så överträffar CCR bildsökningsmodellen genom att korrekt förutsäga platsen för 20.8% av testbilderna inom 100 meter, jämfört med 12.8% för bildsökningsmodellen. Resultaten visar på en stor potential för att använda CCR för finkorning geolokalisering av bilder i stadsmiljö, särskilt när det gäller att hantera utmaningar som återfinns i verkliga förhållanden.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 62
Series
TRITA-EECS-EX ; 2024:507
Keywords [en]
Visual Geolocalization, Image Geolocalization, Image Retrieval, Classification, CLIP, Neural Networks, Convolutional Neural Networks, Vision Transformer
Keywords [sv]
Visuell Geolokalisering, Geolokalisering av bilder, Bildsökning, Klassificering, CLIP, Neurala Nätverk, Konvolutionella Neurala Nätverk, Vision Transformer
National Category
Computer graphics and computer vision
Identifiers
URN: urn:nbn:se:kth:diva-352393OAI: oai:DiVA.org:kth-352393DiVA, id: diva2:1893354
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Presentation
2024-06-17, via Zoom https://kth-se.zoom.us/j/7200472712, Lindstedtsvägen 24, Stockholm, 14:00 (English)
Supervisors
Examiners
Available from: 2024-09-27 Created: 2024-08-29 Last updated: 2025-02-07Bibliographically approved

Open Access in DiVA

fulltext(19689 kB)415 downloads
File information
File name FULLTEXT01.pdfFile size 19689 kBChecksum SHA-512
0528723f1d61d49cb7ccc36e6a7cb7e11b33d92e0420d1e1c6698df592dc5ba0ed397553e73c17fb80c7d317db3bdad7eca6e5927c3fb0e2d92dc587c0a5615b
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer graphics and computer vision

Search outside of DiVA

GoogleGoogle Scholar
Total: 415 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 239 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf