kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Data Augmentation with NeRF-based models
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Driver monitoring systems constitute a key tool for ensuring road safety, with the ongoing automatization and extended assistance tools for the control of cars. In that sense, a great effort has been put in ensuring these systems are paired with reliable sensors that avoid distractions of the driver. These distractions are indicated by the attention patterns of the user, which can be measured based on the gaze position and head pose. However, extracting these features efficiently and with confidence becomes a challenging task for the most advanced system. Machine learning has been one of the solutions to this problem. To keep the necessary reliability and resilience to hard cases, it is key to use good quality and extensive datasets. To alleviate the load on the collection of data and to reduce the resources and cost of the same, we explore the effects of generating synthetic samples from real users by means of generative NeRF networks. We perform a series of experiments where we train a regression machine learning model with a dataset of real samples that have been extended with new generated images. Using architectures such as GazeNeRF allows us to control the position of the samples output, so that we can create a corpus of uniform samples covering a uniform data-space. We compare the performance of the model against a model trained using only real samples using an evaluation dataset. The results of our study show that the use of the extended dataset lead to an increase in the accuracy of the network. This effect can be noted also in the case of the most extreme camera views, where the network trained using the larger expanded dataset proves a reduction of the prediction error metrics for the outlying cases. These results prove that the use of generated data in the training of machine learning models can lead to noticeable performance increases as well as reduce the reliance on the data collection process to ensure the coverage of the most outlying samples

Abstract [sv]

Förarövervakningssystem utgör ett viktigt verktyg för att säkerställa väg- säkerhet med den pågående automatiseringen och utökade assistansverktyg för kontroll av bilar. I det avseendet har stor ansträngning lagts på att säkerställa att dessa system kombineras med pålitliga sensorer som undviker förarens distraktioner. Dessa distraktioner indikeras av användarens uppmärksamhetsmönster, som kan mätas baserat på blickposition och huvudposition. Att extrahera dessa funktioner effektivt och med säkerhet blir dock en utmanande uppgift för de mest avancerade systemen. Maskininlärning har varit en av lösningarna på detta problem. För att bibehålla den nödvändiga tillförlitligheten och motståndskraften mot svåra fall är det viktigt att använda högkvalitativa och omfattande dataset. För att minska belastningen på insamlingen av data och för att reducera resurser och kostnader utforskar vi effekterna av att generera syntetiska prover från riktiga användare med hjälp av generativa NeRF-nätverk. Vi genomför en serie experiment där vi tränar en regressionsmaskininlärningsmodell med ett dataset av verkliga prover som har utökats med nya genererade bilder. Genom att använda arkitekturer som GazeNeRF kan vi kontrollera provens position, så att vi kan skapa en uppsättning enhetliga prover som täcker ett enhetligt dataområde. Vi jämför modellens prestanda med en modell som tränats med enbart verkliga prover med hjälp av ett utvärderingsdataset. Resultaten av vår studie visar att användningen av det utökade datasetet ledde till en ökning av nätverkets noggrannhet. Denna effekt kan också noteras i fallet med de mest extrema kameraperspektiven, där nätverket som tränats med det större utökade datasetet visar en minskning av prediktionsfelen för de utstickande fallen.

Place, publisher, year, edition, pages
2024. , p. 73
Series
TRITA-EECS-EX ; 2024:812
Keywords [en]
Machine Learning, thesis, nerf Neural Radiance Fields (NeRF), Dataset Augmentation, Driver Monitoring System, Deep Learning, Novel View Synthesis, Synthetic Data Generation, Performance Improvement, Computer Vision, Artificial Intelligence, Safety Systems, Autonomous Vehicles
Keywords [sv]
Machine Learning, thesis, nerf Neurala strålningsfält, Datautvidgning, Förarsäkerhetssystem, Djupinlärning, Syntes av nya vyer, Generering av syntetisk data, Prestandaförbättring, Datorseende, Artificiell intelligens, Säkerhetssystem, Autonoma fordon
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360316OAI: oai:DiVA.org:kth-360316DiVA, id: diva2:1939977
External cooperation
Tobii AB
Supervisors
Examiners
Available from: 2025-02-27 Created: 2025-02-25 Last updated: 2025-02-27Bibliographically approved

Open Access in DiVA

fulltext(6065 kB)26 downloads
File information
File name FULLTEXT02.pdfFile size 6065 kBChecksum SHA-512
e00b60c49e444b06160e034b043ed391367600a63e9f9f515b7ccac63121ec860a6c572a149b6dace3fe27acb18d2454f64ab78aa70b3dde035bfa9f8f143c4e
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 26 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 355 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf