kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Projections of Higher Dimensional Subspaces and Generalized Multiview Varieties
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Algebra, Combinatorics and Topology.ORCID iD: 0000-0003-0300-8115
(English)Manuscript (preprint) (Other academic)
Abstract [en]

 We present a generalization of multiview varieties as closures of images obtained by projecting subspaces of a given dimension onto several views, from the photographic and geometric points of view. Motivated by applications in Computer Vision for triangulation of world features, we investigate when the associated projection map is generically injective; an essential requirement for successful triangulation. We give a complete characterization of this property by determining two formulae for the dimensions of these varieties. Similarly, we describe for which center arrangements calibration of camera parameters is possible. We explore when the multiview variety is naturally isomorphic to its associated blowup. In the case of generic centers, we give a precise formula for when this occurs.

National Category
Mathematics Geometry
Identifiers
URN: urn:nbn:se:kth:diva-346674DOI: 10.48550/arXiv.2309.10262OAI: oai:DiVA.org:kth-346674DiVA, id: diva2:1859459
Funder
Wallenberg AI, Autonomous Systems and Software Program (WASP), 660210
Note

QC 20240522

Available from: 2024-05-21 Created: 2024-05-21 Last updated: 2024-05-22Bibliographically approved
In thesis
1. Algebraic Advances in Multiview Geometry
Open this publication in new window or tab >>Algebraic Advances in Multiview Geometry
2024 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

 Computer Vision is the study of how computers can understand and classify images as well as or better than humans, at a fraction of the time. A fundamental problem in this field, Structure-from-Motion, aims to build a 3D model of an object based on 2D images. Applications include self-driving cars, autonomous vehicles and visual media such as movies and video games.  

 The geometry that arises in 3D reconstruction is called Multiview Geometry, and the study of algebraic structures that arise from Multiview Geometry is called Algebraic Vision. The latter is the subject of this thesis. Our focus is on optimization problems, finding polynomials constraints and the construction of new algorithms. A main goal of this thesis is to generalize concepts and ideas in Algebraic Vision to new settings.     

 In Paper A, we investigate a classic question in Computer Vision, namely the compatibility of fundamental matrices. We prove that quadruplewise compatibility implies global compatibility. Given a sextuple of compatible fundamental matrices, there are four possible cases for the geometry of their epipoles. In each case, we provide necessary and sufficient conditions for compatibility in terms of explicit homogeneous polynomials in the fundamental matrices and their epipoles. 

 In Paper B, we build on the theory of Paper A. More precisely, we equivalently express the necessary and sufficient conditions in terms of intuitive geometrical conditions. In the process, we get simpler proofs.

 In Paper C, we consider the problem of how to best identify and filter out outliers from a given data set. A data point is an inlier if its Euclidean distance to the mathematical model is small enough. This distance is expensive to compute. In applied settings, it is efficiently approximated by the Sampson error. We provide theoretical bounds for when the Sampson error is a good approximation of the Euclidean distance, and show, via numerical experiments, new scenarios where it can be applied, such as in three-view geometry. 

 In Paper D, we study the projection of lines in 3-space onto a given set of camera planes. The closure of this projection map is a line multiview variety. Our main theorem is that a line multiview variety is cut out by the condition that the back-projected planes meet in a line if and only if all centers are pairwise distinct and no four centers are collinear. Here, smooth quadrics and their families of lines are important tools. We also study smoothness, multidegrees, and Euclidean distance degrees. 

 In Paper E, we use the theory of Cohen--Macaulay ideals to prove that under sufficient genericity, the ideal described in Paper D is the defining ideal of the line multiview variety. We compute Gröbner bases and discuss to what extent our results carry over to the case of cameras with collinear centers.   In Paper F, we solve the problem of how to do 3D reconstruction such that point and line incidence relations are preserved. In this direction, we introduce anchored multiview varieties. We describe new reconstruction algorithms based on these. On simulated data, we compare the different approaches with individual reconstruction of points and lines. Our approach yields comparable accuracy and a significant speed improvement. This improvement in speed is theoretically supported by our Euclidean distance degree computations. We make use of the observation that these anchored multiview varieties are linearly isomorphic to multiview varieties arising from the projection of points in 2-space and 1-space. 

 In Paper G, we explore the observation above from Paper F in great detail. We start by considering all possible anchored multiview varieties arising from projections of points and lines in 1, 2, and 3-dimensional projective space. We say that two such varieties are ED-equivalent if there is a linear isomorphism between them that preserves ED-critical points. This gives rise to fourteen equivalence classes; a multiview catalogue. In the case of points, we also present a study of all associated resectioning varieties. Finally, we propose conjectures for the Euclidean distance degrees of all varieties appearing in our comprehensive list.

 In Paper H, we present an algebraic study of the projection of plane curves and twisted cubics in space onto multiple images of pinhole cameras. The Zariski closure of the image of the projection of conics is called a conic multiview variety. Extending previous work for point and line multiview varieties, we make use of back-projected cones. For two views, we provide the defining ideals of conic multiview varieties. For any number of views, we state when the simplest possible set-theoretic description is achieved based on the geometry of the camera centers. Finally, we conjecture the Euclidean distance degree for the conic multiview variety given two cameras.  

 In Paper I, we introduce a generalization of multiview varieties as closures of images obtained by projecting subspaces of a given dimension onto several views, from the photographic and geometric points of view. We investigate when the associated projection map is generically injective; an essential requirement for successful triangulation. We give a complete characterization of this property by determining two formulae for the dimensions of these varieties. Similarly, we describe for which center arrangements calibration of camera parameters is possible. We determine precisely when the multiview variety is naturally isomorphic to its associated blowup, in the case of generic centers.

 At the end of this thesis, four additional papers and one extended abstract is attached. As these are not part of the Algebraic Vision story, we do not describe them here. They are included in the thesis as part of the complete collected works of the PhD candidate. 

Abstract [sv]

 Datorseende är vetenskapen kring hur datorer kan förstå och klassificera bilder lika väl eller bättre än människor, på en bråkdel av tiden. Ett fundamentalt problem inom detta område är Struktur-från-Rörelse, vilket ämnar att skapa en 3D-modell av ett objekt utifrån 2D-fotografier. Tillämpningar inkluderar självkörande bilar, autonoma fordon och visuell media så som filmer och datorspel.  

Geometrin som uppstår i 3D-rekonstruktion kallas multivygeometri, och studiet av algebraiska strukturer som uppstår från multivygeometri kallas algebraiskt seende. Det senare är ämnet för denna avhandling. Vårt fokus ligger på optimeringsproblem, att hitta relevanta polynomekvationer och konstruktionen av nya algoritmer. Ett huvudmål med avhandlingen är att generalisera begrepp och idéer inom algebraiskt seende.

I Artikel A undersöker vi en klassisk fråga inom datorseende, nämligen kompatibiliteten hos fundamentala matriser. Vi bevisar att fyrfaldig kompatibilitet implicerar global kompatibilitet. Givet en sexfald av kompatibla fundamentala matriser, finns det fyra möjliga fall för geometrin hos deras epipoler. För varje fall ger vi nödvändiga och tillräckliga villkor för kompatibilitet i termer av explicita homogena polynom i de fundamentala matriserna och deras epipoler.

I Artikel B bygger vi vidare på teorin från Artikel A. Närmare bestämt uttrycker vi nödvändiga och tillräckliga villkor på ett ekvivalent sätt med intuitiva geometriska villkor. Som medföljd får vi enklare bevis.

I Artikel C undersöker vi problemet om hur man bäst identifierar och filtrerar bort avvikande data från en given datamängd. En datapunkt bör behållas om dess euklidiska avstånd till den matematiska modellen är tillräckligt litet. Detta avstånd är dyrt att beräkna. I praktiken skattas det effektivt av Sampsonfelet. Vi ger teoretiska gränser för när Sampsonfelet är en bra skattning av det euklidiska avståndet och visar, via numeriska experiment, nya scenarier där det kan tillämpas, såsom trevygeometri.

I Artikel D studerar vi projektionen av linjer i rummet på en given uppsättning kameraplan. Slutna höljet av denna projektionsavbildning är en linjemultivyvarietet. Vårt huvudteorem är att en linjemultivyvarietet skärs ut av villkoret att de bakprojicerade planen möts i en linje om och endast om alla centra är parvis distinkta och inga fyra centra ligger på en linje. Här är släta kvadratiska ytor och deras familjer av linjer viktiga verktyg. Vi studerar också släthet, multigrader och euklidiska avståndsgrader.

I Artikel E använder vi teorin om Cohen--Macaulay ideal för att under tillräckligt allmänna situationer bevisa att idealet beskrivet i Artikel D är det definierande idealet för linjemultivyvarieten. Vi beräknar Gröbnerbaser och diskuterar i vilken utsträckning våra resultat överförs till fallet med kameror vars centra ligger på en linje.

I Artikel F löser vi problemet om hur man utför 3D-rekon- struktion så att incidensrelationer mellan punkter och linjer bevaras. I denna riktning introducerar vi förankrade multivyvarieteter. Baserat på dessa beskriver vi nya rekonstruktionsalgoritmer. På simulerade data jämför vi de olika tillvägagångssätten med individuell rekonstruktion av punkter och linjer. Vårt tillvägagångssätt ger jämförbar noggrannhet och betydande förbättring av hastighet. Denna hastighetsförbättring stöds teoretiskt av våra beräkningar av euklidiska avståndsgrader. Vi utnyttjar observationen att dessa förankrade multivyvarieteter är linjärt isomorfa med multivyvarieteter som uppstår från projektionen av punkter från plan och linjer.

 I Artikel G utforskar vi den ovanstående observationen från Artikel F i större detalj. Vi börjar med att bestämma alla möjliga förankrade multivyvarieteter som uppstår från projektioner av punkter och linjer i 1, 2 och 3-dimensionella projektiva rum. Vi säger att två sådana varieteter är ED-ekvivalenta om det finns en linjär isomorfi mellan dem som bevarar ED-kritiska punkter. Detta ger upphov till fjorton ekvivalensklasser; en multivyvarietetskatalog. I fallet med punkter presenterar vi också en studie av alla associerade resektionsvarieteter. Slutligen föreslår vi förmodanden om euklidiska avståndsgrader för alla varieteter som förekommer i vår omfattande lista.

I Artikel H presenterar vi en algebraisk studie av projektionen av plankurvor och vridna kubiska kurvor i rummet på flera bilder givet hålkameror. Zariski-slutna höljet av bilden av projektionen av andragradskurvor kallas en kägelsnittsmultivyvarietet. Vi utökar tidigare arbete för punkt- och linjemultivyvarieteter genom att arbeta med bakprojicerade koner. För två vyer ger vi de definierande idealen för kägelsnittsmultivyvarieteter. För godtyckligt antal vyer anger vi när den enklaste möjliga mängdteoretiska beskrivningen uppnås baserat på geometrin hos kamerornas centra. Slutligen ger vi en förmodan om den euklidiska avståndsgraden för kägelsnittsmultivyvarieteter givet två kameror.

I Artikel I introducerar vi en generalisering av multivyvarieteter som slutna höljet av bilder som erhålls genom att projicera delrum av en given dimension på flera vyer, från fotografiska och geometriska perspektiv. Vi undersöker när den associerade projektionsavbildningen är generellt injektiv, vilket är ett avgörande krav för framgångsrik triangulering. Vi ger en komplett karaktärisering av denna egenskap genom att bestämma två formler för dimensionerna hos dessa varieteter. På liknande sätt beskriver vi för vilka arrangemang av centra som kalibrering av kameraparametrar är möjlig. Vi bestämmer exakt när multivyvarieter är naturligt isomorfa med sin associerade uppblåsning, i fallet med generiska centra.

I slutet av denna avhandling bifogas fyra ytterligare artiklar och ett utökat abstrakt. Eftersom dessa inte ingår i temat om algebraiskt seende, beskriver vi dem inte här. De inkluderas i avhandlingen som en del av den kompletta samlingen av kandidatens arbeten.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2024. p. 487
Series
TRITA-SCI-FOU ; 2024:35
Keywords
3D reconstruction, algebraic vision, multiview varieties, 3D-rekonstruction, algebraiskt seende, multivyvarieteter
National Category
Mathematics Algebra and Logic Geometry
Research subject
Mathematics
Identifiers
urn:nbn:se:kth:diva-346681 (URN)978-91-8040-959-9 (ISBN)
Public defence
2024-06-14, D3, Lindstedtsvägen 5, Stockholm, 14:00 (English)
Opponent
Supervisors
Funder
Wallenberg AI, Autonomous Systems and Software Program (WASP), 660210
Note

QC2024-05-23

Available from: 2024-05-23 Created: 2024-05-21 Last updated: 2024-06-10Bibliographically approved

Open Access in DiVA

No full text in DiVA

Other links

Publisher's full text

Authority records

Rydell, Felix

Search in DiVA

By author/editor
Rydell, Felix
By organisation
Algebra, Combinatorics and Topology
MathematicsGeometry

Search outside of DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetric score

doi
urn-nbn
Total: 40 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf