kth.sePublikationer KTH
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Quantifying Epistemic Uncertainty in Absolute Pose Regression
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Robotik, perception och lärande, RPL. Univrses AB, Stockholm, Sweden.ORCID-id: 0000-0001-7819-3541
Univrses AB, Stockholm, Sweden.
Univrses AB, Stockholm, Sweden.
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Robotik, perception och lärande, RPL.ORCID-id: 0000-0002-1170-7162
2025 (Engelska)Ingår i: Image Analysis - 23rd Scandinavian Conference, SCIA 2025, Proceedings, Springer Nature , 2025, s. 180-195Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Visual relocalization is the task of estimating the camera pose given an image it views. Absolute pose regression offers a solution to this task by training a neural network, directly regressing the camera pose from image features. While an attractive solution in terms of memory and compute efficiency, absolute pose regression’s predictions are inaccurate and unreliable outside the training domain. In this work, we propose a novel method for quantifying the epistemic uncertainty of an absolute pose regression model by estimating the likelihood of observations within a variational framework. Beyond providing a measure of confidence in predictions, our approach offers a unified model that also handles observation ambiguities, probabilistically localizing the camera in the presence of repetitive structures. Our method outperforms existing approaches in capturing the relation between uncertainty and prediction error.

Ort, förlag, år, upplaga, sidor
Springer Nature , 2025. s. 180-195
Nyckelord [en]
Camera Relocalization, Uncertainty Estimation, VAEs
Nationell ämneskategori
Datorgrafik och datorseende Signalbehandling
Identifikatorer
URN: urn:nbn:se:kth:diva-368911DOI: 10.1007/978-3-031-95918-9_13ISI: 001553877800013Scopus ID: 2-s2.0-105009846579OAI: oai:DiVA.org:kth-368911DiVA, id: diva2:1991320
Konferens
23rd Scandinavian Conference on Image Analysis, SCIA 2025, Reykjavik, Iceland, June 23-25, 2025
Anmärkning

Part of ISBN 9783031959172

QC 20250822

Tillgänglig från: 2025-08-22 Skapad: 2025-08-22 Senast uppdaterad: 2025-12-08Bibliografiskt granskad
Ingår i avhandling
1. Camera Relocalization through Distribution Modeling
Öppna denna publikation i ny flik eller fönster >>Camera Relocalization through Distribution Modeling
2025 (Engelska)Doktorsavhandling, sammanläggning (Övrigt vetenskapligt)
Abstract [en]

Relocalization is a key component of robot navigation: in order to move successfully within an environment, a robot must know its location in relation to that environment. Cameras are inexpensive sensors that enable relocalization by comparing visual observations with a model of the scene. To this end, camera relocalization, which also finds applications in augmented reality, has long been a topic of research, leading to elaborately designed pipelines for accurate camera pose estimation. Recently, a paradigm shift has seen explicit models of the scene replaced by implicit ones, where the scene is encoded in the weights of neural networks. This shift simplifies relocalization pipelines but leaves open a fundamental challenge: scenes with repetitive structures often produce ambiguous observations, meaning that the same visual input can correspond to multiple distinct camera poses. This thesis addresses this challenge, with a particular focus on implicit relocalization methods. It critically examines the assumptions underlying existing paradigms such as Absolute Pose Regression (APR) and Scene Coordinate Regression (SCR) about the uniqueness of appearances. As its central contribution, the thesis proposes to model the full distribution of possible solutions, which can be arbitrarily shaped, rather than attempting to recover a single best estimate. To this end, it proposes to leverage Conditional Variational Autoencoders (C-VAEs) as generative models capable of representing both distributions over poses and distributions over points. Furthermore, likelihood estimation within this framework provides a principled means of attaching confidence measures to predictions. These contributions, together with the suggested applications and directions for future work, lay a foundation for simplifying relocalization pipelines by more effectively handling ambiguities in observations.

Abstract [sv]

Omlokalisering är en nyckelkomponent i robotnavigering: för att kunna röra sig framgångsrikt inom en miljö måste en robot känna till sin position i förhållande till den miljön. Kameror är kostnadseffektiva sensorer som möjliggör omlokalisering genom att jämföra visuella observationer med en modell av scenen. Därför har kameraomlokalisering, som också hittar tillämpningar inom förstärkt verklighet, länge varit ett forskningsämne, vilket har lett till noggrant utformade pipelines för korrekt kameraposeuppskattning. Nyligen har ett paradigmskifte sett explicita modeller av scenen ersättas av implicita, där scenen är kodad i vikterna av neurala nätverk. Detta skifte förenklar omlokaliseringspipelines men lämnar en grundläggande utmaning öppen: scener med repetitiva strukturer producerar ofta tvetydiga observationer, vilket innebär att samma visuella input kan motsvara flera distinkta kamerapositioner. Denna avhandling tar upp denna utmaning, med särskilt fokus på implicita omlokaliseringsmetoder. Den granskar kritiskt antagandena bakom befintliga paradigm som Absolute Pose Regression (APR) och Scene Coordinate Regression (SCR), som vanligtvis förutsätter en unik lösning. Som sitt centrala bidrag föreslår avhandlingen att modellera den fullständiga fördelningen av möjliga lösningar, som kan formas godtyckligt, snarare än att försöka hitta en enda bästa uppskattning. För detta ändamål föreslogs att man skulle utnyttja Conditional Variational Autoencoders (C-VAEs) som generativa modeller som kan representera både fördelningar över poser och fördelningar över punkter. Dessutom ger sannolikhetsuppskattning inom detta ramverk ett principiellt sätt att koppla konfidensmått till förutsägelser. Dessa bidrag, tillsammans med de föreslagna tillämpningarna och riktningarna för framtida arbete, lägger en grund för att förenkla omlokaliseringspipelines genom att mer effektivt hantera tvetydighet i observationer.

Ort, förlag, år, upplaga, sidor
Stockholm: KTH Royal Institute of Technology, 2025. s. xii, 41
Serie
TRITA-EECS-AVL ; 2025:106
Nationell ämneskategori
Datorseende och lärande system
Forskningsämne
Datalogi
Identifikatorer
urn:nbn:se:kth:diva-372920 (URN)978-91-8106-468-1 (ISBN)
Disputation
2025-12-11, https://kth-se.zoom.us/j/68470117111, D3, Lindstedtsvägen 5, KTH Campus, Stockholm, 14:00 (Engelska)
Opponent
Handledare
Anmärkning

QC 20251117

Tillgänglig från: 2025-11-17 Skapad: 2025-11-16 Senast uppdaterad: 2025-11-17Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopus

Person

Zangeneh, FereidoonJensfelt, Patric

Sök vidare i DiVA

Av författaren/redaktören
Zangeneh, FereidoonJensfelt, Patric
Av organisationen
Robotik, perception och lärande, RPL
Datorgrafik och datorseendeSignalbehandling

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 56 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf