Graph Neural Networks for Visual Place Recognition
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Neurala Grafnätverk för Visuell Platsigenkänning (Swedish)
Abstract [en]
The area of visual place recognition has long been an interesting field of research, which has produced improvements in long-term localisation, loop closing for SLAM, and map merging. Sequential visual place recognition is a strong tool for localising robots or cars that move in an environment where perceptual aliasing can be a large problem. For robotics and autonomous driving applications, odometry information is often available. Therefore, in this thesis, methods that use this information to improve performance have been proposed. Deep learning has shown great progress in many applications, such as natural language processing, image matching and the control of robotics. Much of the recent progress in Deep Learning has been made utilising transformers and visual transformers (ViT). Two such works are SuperGlue and LightGlue that have both been shown to perform well in the area of local feature matching, a research area that attempts to match the local features of two images to see if they face the same object. In this thesis part of the architecture of LightGlue, which has shown great performance in image matching, is used. Some changes to the architecture are made and motivated which allow it to be used for the visual place recognition problem rather than the image matching problem. The proposed solution uses odometry information and a global descriptor, which is calculated using a vision foundational model, DinoV2. The proposed architecture is trained and used both in a suburban city environment and in a naturalistic environment. The method shows generalisation capabilities both over environment changes and over seasonal changes. Specifically, the method is evaluated on the Nordland, St Lucia and 4seasons datasets. The proposed method is compared to multiple, state-of-the-art, algorithms that attempt to solve the same problem and performs competitively with them. A conclusion is also drawn regarding the performance of the method, and future works to improve performance are suggested.
Abstract [sv]
Området visuell platsigenkänning har länge varit ett intressant forskningsfält, som har gett förbättringar inom långsiktig lokalisering, loop-stängning för SLAM och kartsammanslagning. Sekventiell visuell platsigenkänning är ett starkt verktyg för att lokalisera robotar eller bilar som rör sig i en miljö där perceptuell aliasing kan vara ett stort problem. För robotik och autonom körning är ofta odometri-information tillgänglig. Därför har i denna avhandling också föreslagits metoder som använder denna information för att förbättra prestanda. Djupinlärning har visat stora framsteg i många applikationer, såsom naturlig språkbehandling, bildmatchning och kontroll av robotik. Mycket av de senaste framstegen inom djupinlärning har gjorts med hjälp av transformers och visuella transformers (ViT). Två sådana verk är SuperGlue och LightGlue som båda har visat sig prestera bra inom området för lokal särdrags-matchning, ett forskningsområde som försöker matcha de lokala särdragen hos två bilder för att se om de pekar mot samma objekt. I detta examensarbete används en del av LightGlues arkitektur, som har visat stor prestanda i bildmatchning. Vissa ändringar av arkitekturen görs och motiveras, som gör att den kan användas för det visuella platsigenkänningsproblemet snarare än för bildmatchningsproblemet. Den föreslagna lösningen använder information om odometri och en global deskriptor, som beräknas med hjälp av en grundmodell för bilder, DinoV2. Den föreslagna lösningen är tränad och testad både i en stadsmiljö och i en naturalistisk miljö. Metoden visar generaliseringsförmåga både över miljöförändringar och över säsongsmässiga förändringar. Specifikt utvärderas metoden på dataseten Nordland, St Lucia och 4seasons. Metoden jämförs med flera, toppmoderna algoritmer som försöker lösa samma problem och presterar konkurrenskraftigt med dem. En slutsats dras också om metodens prestanda och framtida arbeten för att förbättra prestandan föreslås.
Place, publisher, year, edition, pages
2024. , p. 35
Series
TRITA-EECS-EX ; 2024:832
Keywords [en]
Visual Place Recognition, Computer Vision, Localisation, Graph Neural Networks, Deep Learning, Transformers
Keywords [sv]
Visuell Platsigenkänning, Datorseende, Lokalisering, Neurala Grafnätverk, Djupinlärning, Transfomers
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360482OAI: oai:DiVA.org:kth-360482DiVA, id: diva2:1940432
External cooperation
Ericsson AB
Supervisors
Examiners
2025-03-032025-02-262025-03-03Bibliographically approved