kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
SnowCLIP: From Image to GPS Coordinates Utilizing Deep Learning: Data Efficient Contrastive Learning using Adaptive Sampling
KTH, School of Electrical Engineering and Computer Science (EECS).
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
SnowCLIP: Från bild till GPS koordinater via djupinlärning Swedish subtitle : Data effektiv konstrastinlärning med adaptivt urval (Swedish)
Abstract [en]

Image geo-localization is the process of estimating the GPS coordinates of an image. Image geo-localization can be used for search and rescue, helping people find locations of old pictures and military applications. For precise image geo-localization, we build upon the current state of the art model, GeoCLIP. GeoCLIP is built on top of the CLIP model from OpenAI with a custom location encoder for GPS coordinates. However, GeoCLIP struggles with snowy landscapes, where we claim the poor performance is due to a lack of training data. Our research extends GeoCLIP with our SnowCLR training method that utilizes adaptive sample selection to learn in a data efficient manner. In this thesis, we explore if finetuning GeoCLIP with our training method improves the city level accuracy (predictions within 25km of ground truth) compared to the standard GeoCLIP training method. Our study has yielded promising results with up to 40 percentage points improvement for the city level accuracy.

Abstract [sv]

Bildgeolokalisering är processen att ta en bild och hämta bildens GPS-koordinater. Bildgeolokalisering kan användas för sök- och räddningsinsatser, hjälpa människor att hitta platser från gamla bilder och för militära tillämpningar. För nogrann bildgeolokalisering bygger vi vidare på den nuvarande toppmodellen, GeoCLIP. GeoCLIP är byggd ovanpå CLIP-modellen från OpenAI med en egenutvecklad platskodare för GPS-koordinater. Däremot är GeoCLIP sämre på att estimera GPS koordinater för bilder med snö, något som vi tror beror på den lilla mängd data. Vår forskning utökar GeoCLIP med vår egna SnowCLR-förlustfunktion som använder adaptivt urval. I den här avhandlingen undersöker vi om finjustering av GeoCLIP med vårt adaptiva urval förbättrar noggrannheten på stadsnivå (prediktioner inom 25km av den rätta positionen) jämfört med standard GeoCLIP-förlustfunktionen. Vår studie har gett lovande resultat med upp till 40 procentenheters förbättring i modellens noggrannhet på stadsnivå.

Place, publisher, year, edition, pages
2024. , p. 31
Series
TRITA-EECS-EX ; 2024:341
Keywords [en]
Image geo-localization, contrastive learning, Adaptive sampling, data efficient, nearest neighbour contrastive learning, GeoCLIP, SnowCLIP
Keywords [sv]
Bildgeolokalisering, kontrastinlärning, adaptivt urval, data effektiv, närmaste granne kontrastinlärning, GeoCLIP, SnowCLIP
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351049OAI: oai:DiVA.org:kth-351049DiVA, id: diva2:1885960
Supervisors
Examiners
Available from: 2024-08-22 Created: 2024-07-28 Last updated: 2024-08-22Bibliographically approved

Open Access in DiVA

fulltext(2000 kB)170 downloads
File information
File name FULLTEXT01.pdfFile size 2000 kBChecksum SHA-512
4a1e8cf71bcc3aeba7d36dde0d8cff9dc66aa9c0efb8fe7d75fa0741ddd1308635df4d136e88114672fb7f2e2294c9af7be88408311505bdb3b910b564c66249
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 170 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 303 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf