kth.sePublications KTH
3536373839404138 of 262
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Robotic Search with Open-Vocabulary Spatial Relationships
KTH, School of Electrical Engineering and Computer Science (EECS).
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Robotsökning med öppna vokabulärspaciala relationer (Swedish)
Abstract [en]

Advances in open-vocabulary semantic mapping and object navigation have enabled autonomous robots to perform informed search of their environments for arbitrary objects. However, traditional zero-shot object navigation frameworks are typically designed for simple object class search, such as ”a toilet”, ”a fire extinguisher”, or ”a blue rug”. In this project, we consider extending navigation to more complex queries given in natural language and containing spatial relationships, such as ”find the yellow ladder by the fire extinguisher” or ”navigate towards the birthday robot celebrating by the Christmas tree”, while still leveraging the robustness of a reusable semantic map. In this thesis we present DIV-Nav, a real-time navigation system that efficiently addresses this problem via the following relaxation: i) Decompose natural language navigation instructions with complex spatial constraints and descriptive features into simpler object-level queries on a semantic belief map, ii) compute the Intersection of the individual semantic belief maps to identify regions in the mapped space where all these objects co-exist, and iii) Validate the discovered objects against the original, complex spatially constrained command via an LVLM. We further investigate how to adapt the frontier exploration objectives of online semantic mapping to such spatial search queries, in order to more effectively guide the navigation and search process. We validate our system through extensive experiments on the MultiON benchmark and real-time, real-world deployment on a Boston Dynamics Spot robot using a Jetson Orin AGX for on-board deployment.

Abstract [sv]

Framsteg inom semantisk kartläggning med öppen vokabulär och objektnavigering har gjort det möjligt för autonoma robotar att på ett målinriktat sätt söka efter godtyckliga objekt i sina omgivningar. Existerande ramverk för objektnavigering är dock vanligen begränsade till enkla sökningar efter enstaka objektklasser, exempelvis ”en toalett”, ”en brandsläckare” eller ”en blå matta”. I detta projekt undersöker vi hur navigeringen kan utvidgas till mer komplexa förfrågningar uttryckta i naturligt språk och innehållande rumsliga relationer, såsom ”hitta den gula stegen vid brandsläckaren” eller ”navigera mot roboten som firar födelsedag vid julgranen”. Samtidigt bibehålls robustheten hos en återanvändbar semantisk karta. Vi presenterar DIV-Nav, ett realtidsnavigeringssystem som angriper detta problem genom en flerstegsmetod: i) nedbrytning av navigeringsinstruktioner i naturligt språk med komplexa rumsliga begränsningar och beskrivande egenskaper till enklare objektförfrågningar i en semantisk sannolikhetskarta, ii) beräkning av skärningsytor mellan de individuella sannolikhetskartorna för att identifiera områden där samtliga objekt samexisterar, samt iii) validering av de identifierade objekten mot det ursprungliga kommandot med rumsliga krav via en LVLM. Vi undersöker vidare hur målen för gränsutforskning inom online-semantisk kartläggning kan anpassas till denna typ av rumsliga sökfrågor för att mer effektivt styra navigerings- och sökprocessen. Systemet utvärderas genom omfattande experiment på MultiON-benchmark samt genom realtids- och fälttester på en Boston Dynamics Spot-robot med en Jetson Orin AGX för ombordberäkning.

Place, publisher, year, edition, pages
2025. , p. 48
Series
TRITA-EECS-EX ; 2025:961
Keywords [en]
Mobile Robotics, Robot Navigation, Vision-Language Models, Spatial- Semantic Mapping, Zero-Shot Navigation, Natural Language Understanding, Embodied AI, Multi-Object Navigation, Real-Time Mapping, Computer Vision
Keywords [sv]
Mobil robotik, Robotnavigering, Vision-språkmodeller, Rumslig-semantisk kartläggning, Zero-shot-navigering, Förståelse av naturligt språk, Förkroppsligad AI, Multiobjektnavigering, Kartläggning i realtid, Datorseende
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-377314OAI: oai:DiVA.org:kth-377314DiVA, id: diva2:2041565
Educational program
Master of Science - Systems, Control and Robotics
Supervisors
Examiners
Available from: 2026-03-03 Created: 2026-02-25 Last updated: 2026-03-03Bibliographically approved

Open Access in DiVA

fulltext(11242 kB)15 downloads
File information
File name FULLTEXT01.pdfFile size 11242 kBChecksum SHA-512
c7c1c11bd6d87da2a4de1976f2db96fdac8acce1ea2b84d1ef6ff156a98e06035a42138c7681327b728e155f80cd2203b11a2df235bce272df35cd27086ea690
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Electrical Engineering, Electronic Engineering, Information Engineering

Search outside of DiVA

GoogleGoogle Scholar
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 79 hits
3536373839404138 of 262
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf