kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Bayesian optimization of computer vision architectures for satellite imagery applications: Relevance evaluation of tree-structured Parzen estimator algorithm for a real world computer vision application
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Bayesiansk optimering av datorseendemodeller för satellitbildstillämpningar : Relevansutvärdering av tree-structured Parzen estimator algoritm för en verklig tillämpning av datorseende (Swedish)
Abstract [en]

Modern computer vision models are characterized by intricate hyperparameter spaces and long training processes. These properties, coupled with the rapid evolution of deep learning research motivate the need to develop automated hyperparameter optimization algorithms. Among the available solutions, Bayesian optimization algorithms, notably the tree-structured Parzen estimator, stand out. While this algorithm's efficacy has been demonstrated in controlled environments like benchmarks and simple scenarios, its application in real-world contexts remains underexplored.

This study aims to fill this gap by investigating the efficiency of the tree-structured Parzen estimator algorithm in autonomously optimizing parameters of RetinaNet architecture on the RarePlanes satellite image object detection dataset. In particular, two sets of experiments were conducted, focusing respectively on post-processing parameters and hyperparameters. Each set of experiments was repeated multiple times to ensure the validity and reliability of the results. The extensive empirical results demonstrate the Bayesian optimization algorithm superiority over traditional grid and random search methods, achieving better solutions with fewer trials for both type of experiments. Especially, with only fifty trials the algorithm on average identifies a better performing solution than a three-hundred-trial random search. Additionally, these experiments also highlight the consistency of the tree-structured Parzen estimator to systematically locate similarly performing solutions across different algorithm settings. Lastly, in the context of hyperparameter tuning, the study reveals potential enhancements through integration with pruning schedulers such as multi-arm bandit inspired algorithms like hyperband, further bolstering hyperparameter optimization efficacy.

Abstract [sv]

Moderna datorseendemodeller har komplicerade inställningsparametrar och långa träningstider. Detta, tillsammans med den snabba utvecklingen inom forskning om djupa neurala nätverk, skapar ett behov för att utveckla automatiska algoritmer för att optimera dessa parametrar. Bland de befintliga lösningarna sticker Bayesianska optimeringsalgoritmer ut, särskilt den trädstrukturerade Parzen-estimator (TPE). Även om effektiviteten hos denna algoritm har visats fungera i kontrollerade miljöer, såsom tester och enkla scenarier, är dess användning i verkliga situationer fortfarande relativt outforskad.

Den här studien syftar till att fylla detta glapp genom att undersöka hur effektiv TPE-algoritmen är för att automatiskt optimera parametrarna för RetinaNet-arkitekturen på satellitbildsdatasetet RarePlanes för objektidentifiering. Två experimentuppsättningar genomfördes, med fokus på efterbehandlingsparametrar respektive hyperparametrar. Varje experimentuppsättning upprepades flera gånger för att säkerställa resultatens giltighet och tillförlitlighet. De omfattande empiriska resultaten visar att den Bayesianska optimeringsalgoritmen är överlägsen traditionella metoder baserade på rut- och slumpmässig sökning. TPE uppnådde bättre lösningar med färre försök för båda experimenttyperna. Remarkabelt nog kunde algoritmen i genomsnitt identifiera en bättre lösning med endast 50 försök jämfört med 300 försök med slumpmässig sökning. Experimenten lyfter också fram TPE:s förmåga att hitta liknande lösningar med bibehållen prestanda vid olika algoritminställningar. Slutligen avslöjar studien inom hyperparameteroptimering potentiella förbättringar genom integrering med schemaläggare för gallring, inspirerade av ”multi-armed bandit”-algoritmer som hyperband, vilket ytterligare stärker effektiviteten vid optimering av hyperparametrar.

Abstract [fr]

Les modèles modernes de vision par ordinateur sont caractérisés par des espaces d'hyperparamètres de plus en plus complexes et des temps d'apprentissage de plus en plus longs. Ces caractéristiques, associées à l'évolution rapide de la recherche sur l'apprentissage profond, rendent nécessaire le développement d'algorithmes d'optimisation automatiques des hyperparamètres. Parmi les solutions existantes, les algorithmes d'optimisation bayésienne, et notamment l'estimateur de Parzen à structure arborescente, sortent du lot. Bien que l'efficacité de cet algorithme ait été démontrée dans des environnements contrôlés (benchmarks et problèmes simples), son application à des cas d'usages rééels reste peu explorée.

Cette étude vise à combler ce vide en évaluant l'efficacité de l'estimateur de Parzen à structure arborescente pour optimiser automatiquement les paramètres d'un RetinaNet pour la détection d'objets sur le jeu de données d'images satellite RarePlanes. Plus précisément, deux séries d'expériences ont été menées, portant respectivement sur des paramètres de post-traitement et des hyperparamètres. Chaque série d'expériences a été répétée plusieurs fois pour garantir la validité et la fiabilité des résultats. Le fruit de ces expériences démontrent la supériorité de l'algorithme d'optimisation bayésienne sur les méthodes traditionnelles de recherche par grille et aléatoire. Il permet d'obtenir de meilleurs résultats avec moins d'essais pour les deux types d'expériences. En particulier, avec seulement cinquante essais, l'algorithme identifie en moyenne une solution plus performante qu'une recherche aléatoire à trois cents essais. De plus, ces expériences soulignent également la capacité de l'estimateur de Parzen à structure arborescente à systématiquement localiser des solutions aux performances similaires malgré des configurations algorithmiques différentes. Enfin, dans le cadre des experiences portant sur le peaufinage des hyperparamètres, l'étude révèle des améliorations potentielles grâce à l'intégration d'algorithmes d'élagage comme hyperband, un algorithme développé pour la résolution du problème du ”bandit à N bras”, qui renforce encore l'efficacité de l'optimisation des hyperparamètres.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 9174
Series
TRITA-EECS-EX ; 2024:519
Keywords [en]
Optimization, Bayesian optimization, Deep learning, Computer vision, Fine-tuning, Satellite imagery.
Keywords [fr]
Optimisation, Optimisation Bayesienne, Aprentissage profond, Vision par ordinateur, Peaufinage, Imagerie satellite.
Keywords [sv]
Optimering, Bayesiansk optimering, Deep learning, Datorseende, Finjustering, Satellitbilder.
National Category
Computer Sciences Computer Engineering Computer graphics and computer vision
Identifiers
URN: urn:nbn:se:kth:diva-352486OAI: oai:DiVA.org:kth-352486DiVA, id: diva2:1894323
External cooperation
Preligens
Subject / course
Computer Science
Presentation
2024-06-05, via Zoom https://kth-se.zoom.us/j/62902937796, Isafjordsgatan 22 (Kistagången 16), Stockholm, 11:00 (English)
Supervisors
Examiners
Available from: 2024-10-01 Created: 2024-09-03 Last updated: 2025-02-01Bibliographically approved

Open Access in DiVA

fulltext(3433 kB)186 downloads
File information
File name FULLTEXT01.pdfFile size 3433 kBChecksum SHA-512
3c77f5571fd860560db1efbed6981092fb86fa759747757583211a1a7c18b17e93a7381732cd4a9f34cd288929880252db94df45f0a31f9f1d895c63e466c1fb
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer SciencesComputer EngineeringComputer graphics and computer vision

Search outside of DiVA

GoogleGoogle Scholar
Total: 186 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 112 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf