Evolutionary architecture search for Hebbian deep learning
2024 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hp
Studentuppsats (Examensarbete)Alternativ titel
Evolutionär arkitektursökning för Hebbsk djupinlärning (Svenska)
Abstract [en]
Recent advancements in deep learning have enabled the effective training of large models using backpropagation. However, this process is costly and the question remains whether this is the most efficient way to train these networks. As a result, local Hebbian learning rules --- stemming from early work on artificial neural network models of the brain --- have recently experienced a resurgence of interest. Most of these Hebbian learning algorithms currently operate on fully connected networks that, unlike the brain, have no inherent structure. The brain is highly structured as a result of evolution, which presumably facilitates efficient (local) learning. Evolution, in turn, has inspired another class of algorithms called evolutionary neural architecture search, which is used to develop effective artificial neural networks. Oftentimes, these networks are used for computer vision and evolution is used to evolve modular networks comprising convolutions and other operations.
Being unsupervised, Hebbian learning relies on self-organization and may therefore benefit from adding some degree of structure while its locality and speed of convergence could allow us to evolve such structures at scale. To explore this idea, I propose to pair a Hebbian learning rule for convolutions with evolutionary architecture search. Each Hebbian convolution has several hyperparameters and with basic tuning after evolving the architecture, the resulting network matches the performance of the one used in the original paper proposing the learning rule. The algorithm has evolved parallel neural pathways (i.e., sequences of convolutions and other operations) that appear to focus on different aspects of the input image. Skip connections seem to provide low-level context by accentuating salient features of the input image (e.g., a deer's antlers), which may be beneficial for particular samples. While this work fixes the convolution hyperparameters during evolution and only performs basic tuning afterward, the convolutions appear to be quite sensitive to these hyperparameters. The experimental results suggest that this affects the evolution as well, which seems to partially tailor the architecture to these hyperparameters. Therefore, integrated evolution of both the architecture and convolution hyperparameters may be crucial for effective evolution.
Abstract [sv]
De senaste framstegen inom djupinlärning har möjliggjort effektiv träning av stora modeller som använder backpropagation. Denna process är dock kostsam och frågan kvarstår om detta är det mest effektiva sättet att träna dessa nätverk. Som ett resultat har lokala Hebbska inlärningsregler --- som härrör från tidigt arbete med artificiella neurala nätverksmodeller av hjärnan --- nyligen upplevt ett återuppvaknande intresse. De flesta av dessa Hebbska inlärningsalgoritmer fungerar för närvarande på fullt kopplade nätverk som, till skillnad från hjärnan, inte har någon inneboende struktur. Hjärnan är mycket strukturerad som ett resultat av evolutionen, vilket förmodligen underlättar ett effektivt (lokalt) lärande. Evolution har i sin tur inspirerat en annan klass av algoritmer som kallas evolutionär neural arkitektursökning, som används för att utveckla effektiva artificiella neurala nätverk. Ofta används dessa nätverk för datorseende och evolution används för att utveckla modulära nätverk som omfattar faltningar och andra operationer.
Eftersom det inte är övervakat, bygger Hebbsk inlärning på självorganisering och kan därför dra nytta av att lägga till en viss grad av struktur medan dess lokalitet och konvergenshastighet kan tillåta oss att utveckla sådana strukturer i stor skala. För att utforska denna idé, föreslår jag att para ihop en Hebbsk inlärningsregel för faltningar med evolutionär arkitektursökning. Varje Hebbsk faltning har flera hyperparametrar och med grundläggande justering efter att arkitekturen har utvecklats, matchar det resulterande nätverket prestandan för det som användes i den ursprungliga artikeln som föreslår inlärningsregeln. Algoritmen har utvecklat parallella neurala banor (d.v.s. sekvenser av faltningar och andra operationer) som verkar fokusera på olika aspekter av ingångsbilden. Hoppa över anslutningar tycks ge lågnivåkontext genom att framhäva framträdande egenskaper hos inmatningsbilden (t.ex. en hjorts horn), vilket kan vara fördelaktigt för särskilda prover. Även om detta arbete fixar faltningshyperparametrarna under evolutionen och endast utför grundläggande justering efteråt, verkar faltningarna vara ganska känsliga för dessa hyperparametrar. De experimentella resultaten tyder på att detta också påverkar evolutionen, vilket tycks delvis skräddarsy arkitekturen till dessa hyperparametrar. Därför kan integrerad utveckling av både arkitekturen och faltningshyperparametrarna vara avgörande för effektiv utveckling.
Ort, förlag, år, upplaga, sidor
Stockholm: KTH Royal Institute of Technology , 2024. , s. 51
Serie
TRITA-EECS-EX ; 2024:578
Nyckelord [en]
Hebbian learning, neural architecture search, evolutionary algorithms, convolutional neural networks, deep learning
Nyckelord [sv]
Hebbsk inlärning, neural arkitektursökning, evolutionära algoritmer, neurala faltningsnätverk, djupinlärning
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:kth:diva-353037OAI: oai:DiVA.org:kth-353037DiVA, id: diva2:1896706
Ämne / kurs
Datalogi
Presentation
2024-06-10, 13:00 (Engelska)
Handledare
Examinatorer
2024-10-022024-09-102024-10-02Bibliografiskt granskad