SnowCLIP: From Image to GPS Coordinates Utilizing Deep Learning: Data Efficient Contrastive Learning using Adaptive Sampling
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
SnowCLIP: Från bild till GPS koordinater via djupinlärning Swedish subtitle : Data effektiv konstrastinlärning med adaptivt urval (Swedish)
Abstract [en]
Image geo-localization is the process of estimating the GPS coordinates of an image. Image geo-localization can be used for search and rescue, helping people find locations of old pictures and military applications. For precise image geo-localization, we build upon the current state of the art model, GeoCLIP. GeoCLIP is built on top of the CLIP model from OpenAI with a custom location encoder for GPS coordinates. However, GeoCLIP struggles with snowy landscapes, where we claim the poor performance is due to a lack of training data. Our research extends GeoCLIP with our SnowCLR training method that utilizes adaptive sample selection to learn in a data efficient manner. In this thesis, we explore if finetuning GeoCLIP with our training method improves the city level accuracy (predictions within 25km of ground truth) compared to the standard GeoCLIP training method. Our study has yielded promising results with up to 40 percentage points improvement for the city level accuracy.
Abstract [sv]
Bildgeolokalisering är processen att ta en bild och hämta bildens GPS-koordinater. Bildgeolokalisering kan användas för sök- och räddningsinsatser, hjälpa människor att hitta platser från gamla bilder och för militära tillämpningar. För nogrann bildgeolokalisering bygger vi vidare på den nuvarande toppmodellen, GeoCLIP. GeoCLIP är byggd ovanpå CLIP-modellen från OpenAI med en egenutvecklad platskodare för GPS-koordinater. Däremot är GeoCLIP sämre på att estimera GPS koordinater för bilder med snö, något som vi tror beror på den lilla mängd data. Vår forskning utökar GeoCLIP med vår egna SnowCLR-förlustfunktion som använder adaptivt urval. I den här avhandlingen undersöker vi om finjustering av GeoCLIP med vårt adaptiva urval förbättrar noggrannheten på stadsnivå (prediktioner inom 25km av den rätta positionen) jämfört med standard GeoCLIP-förlustfunktionen. Vår studie har gett lovande resultat med upp till 40 procentenheters förbättring i modellens noggrannhet på stadsnivå.
Place, publisher, year, edition, pages
2024. , p. 31
Series
TRITA-EECS-EX ; 2024:341
Keywords [en]
Image geo-localization, contrastive learning, Adaptive sampling, data efficient, nearest neighbour contrastive learning, GeoCLIP, SnowCLIP
Keywords [sv]
Bildgeolokalisering, kontrastinlärning, adaptivt urval, data effektiv, närmaste granne kontrastinlärning, GeoCLIP, SnowCLIP
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351049OAI: oai:DiVA.org:kth-351049DiVA, id: diva2:1885960
Supervisors
Examiners
2024-08-222024-07-282024-08-22Bibliographically approved