Beyond Standard Assumptions in Autonomous Driving Perception
2026 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
Autonomous driving perception is commonly developed and evaluated under a set of enabling assumptions: that multi-sensor evidence is physically consistent at the frame level, that geometry is sufficiently dense to support reliable inference about other traffic participants and the surrounding environment, and that learning can rely on either abundant human labels or self-supervised objectives derived from the sensor stream. This thesis examines what remains feasible when these assumptions no longer hold, and develops methods and design principles for perception under asynchronous sensing, long-range sparsity, and weak or unreliable supervision.
We first study physical inconsistency in multi-sensor data. We show that rolling and asynchronous acquisition, motion during aggregation, and annotation practices that implicitly assume temporal coherence can render the perception problem ill-posed before any representation choice is made. We therefore treat data preparation, motion compensation, and annotation consistency as integral parts of the perception pipeline, since errors at this stage can propagate directly into annotation, training, and evaluation.
We then examine representation under long-range sparsity. We show that long-range performance is limited not only by model capacity, but by the representations used to encode and expose ambiguous evidence. In particular, object-centric outputs and dense internal representations can force premature commitment when available evidence collapses at distance. To study this, we present results on long-range 3D object detection and sparse long-range scene flow, showing both the limits of object-centric perception under weak observability and the value of motion-centric estimation as range increases.
Finally, we study learning signals when labels and geometry-derived self-supervision become unreliable. We show that motion supervision can be recovered by importing physically grounded constraints from complementary modalities, using radar Doppler to guide LiDAR scene flow learning. We further show that scalable semantic supervision can be obtained from foundation-model priors through curriculum-based synthetic-to-real adaptation, which anchors language-aligned representations to real LiDAR characteristics.
Abstract [sv]
Uppfattning om autonom körning utvecklas och utvärderas vanligtvis under en uppsättning möjliggörande antaganden: att multisensorbevis är fysiskt konsistenta på bildnivå, att geometrin är tillräckligt tät för att stödja tillförlitlig slutsats om andra trafikdeltagare och den omgivande miljön, och att inlärning kan förlita sig på antingen rikliga mänskliga etiketter eller självövervakade mål som härrör från sensorströmmen. Denna avhandling undersöker vad som förblir genomförbart när dessa antaganden inte längre gäller, och utvecklar metoder och designprinciper för uppfattning under asynkron avkänning, långdistansgleshet och svag eller opålitlig övervakning.
Vi studerar först fysisk inkonsekvens i multisensordata. Vi visar att rullande och asynkron förvärv, rörelse under aggregering och annoteringsmetoder som implicit antar temporal koherens kan göra uppfattningsproblemet felaktigt ställt innan något representationsval görs. Vi behandlar därför dataförberedelse, rörelsekompensation och annoteringskonsistens som integrerade delar av uppfattningsprocessen, eftersom fel i detta skede kan fortplanta sig direkt till annotering, träning och utvärdering.
Vi undersöker sedan representation under långdistansgleshet. Vi visar att prestanda på lång räckvidd begränsas inte bara av modellens kapacitet, utan också av de representationer som används för att koda och exponera tvetydiga bevis. I synnerhet kan objektcentrerade utdata och täta interna representationer tvinga fram för tidigt engagemang när tillgängliga bevis kollapsar på avstånd. För att studera detta presenterar vi resultat om 3D-objektdetektering på lång räckvidd och gles scenflöde på lång räckvidd, vilket visar både gränserna för objektcentrerad perception under svag observerbarhet och värdet av rörelsecentrerad uppskattning när avståndet ökar.
Slutligen studerar vi inlärningssignaler när etiketter och geometri-härledd självövervakning blir opålitliga. Vi visar att rörelseövervakning kan återställas genom att importera fysiskt grundade begränsningar från komplementära modaliteter, med hjälp av radar-Doppler för att vägleda LiDAR-scenflödesinlärning. Vi visar vidare att skalbar semantisk övervakning kan erhållas från grundläggande modellprior genom läroplanbaserad syntetisk-till-real-anpassning, som förankrar språkanpassade representationer till verkliga LiDAR-egenskaper.
Place, publisher, year, edition, pages
KTH Royal Institute of Technology, 2026. , p. 103
Series
TRITA-EECS-AVL ; 2026:22
Keywords [en]
Autonomous Driving, Computer Vision, Robotics
National Category
Computer graphics and computer vision Robotics and automation
Research subject
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-378742ISBN: 978-91-8106-558-9 (print)OAI: oai:DiVA.org:kth-378742DiVA, id: diva2:2049001
Public defence
2026-04-17, Kollegiesalen, Brinellvägen 8, Stockholm, 09:00 (English)
Opponent
Supervisors
Note
Zoom link: https://kth-se.zoom.us/s/68091974260
2026-03-272026-03-262026-04-08Bibliographically approved
List of papers