Adapter Retrieval and Merging for Domain Adaptation of Open-Vocabulary Semantic Segmentation Models
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Adapter Hämtning och Sammanslagning för Domänanpassning av Öppen-Ordförråd Semantiska Segmenteringsmodeller (Swedish)
Abstract [en]
Open-vocabulary semantic segmentation is a new approach in computer vision where a model assigns a label to each pixel of an image input using vision-aware textual vocabulary. Despite showing great generalization capabilities, zero-shot performance of models based on this approach is still lower than when they are specifically fine-tuned on downstream tasks and datasets. Currently, the size of these models can reach up to hundreds of millions of parameters so a full fine tuning is expensive. As a solution to this, Parameter Efficient Fine-Tuning (PEFT) methods such as Low-Rank Adaptation (LoRA) can be used. LoRA adapters are efficiently be activated during inference based on input. In this thesis, we lightweight and can explore adapter merging, where the weights of LoRA adapters applied to the same layers are averaged to create a new adapter. We also present a method to automatically retrieve relevant adapters to a given test input as well as select the weights for averaging that yield superior results over single adapters.
Our method consists of first calculating the centroid of embedding clusters, created using CLIP image encoder, of each available source domain. The centroids are then used as embedding for adapters trained on corresponding domain. Using the adapter embeddings, we retrieve adapters with smallest distance to the input embedding and use this distance to calculate weights to create a new adapter that is a weighted average of the retrieved adapters.
We evaluate our method using two datasets commonly used to benchmark domain adaptation capabilities of dense prediction models. Our result indicate that adapter merging is an efficient and effective method that can result in better performance than individual adapters when there is an access to a some datasets that are similar to the target domain. This work is, to best of our knowledge, the first to use adapter merging methods for dense prediction task and we hope it paves the way for further future work in the field.
Abstract [sv]
Open-vocabulary semantisk segmentering är en ny metod inom datorseende där en modell tilldelar en etikett till varje pixel i en bildindata med hjälp av synmedveten textuell vokabulär. Trots att det visar på stor generaliseringsförmåga är zero-shot prestandan för modeller baserade på denna metod fortfarande lägre än när de är specifikt finjusterade på uppgifter och dataset. För närvarande kan storleken på dessa modeller nå upp till hundratals miljoner parametrar, vilket gör en fullständig finjustering kostsam. Som en lösning på detta kan Parameter Efficient Fine-Tuning (PEFT)-metoder såsom Low-Rank Adaptation (LoRA) användas. LoRA-adaptrar är lätta och kan effektivt aktiveras under inferens baserat på indata. I denna avhandling utforskar vi adapter-sammanslagning, där genomsnittet av vikterna av LoRA-adaptrar aplicerade på samma lager används för att skapa en ny adapter. Vi presenterar också en metod för att automatiskt hämta relevanta adaptrar för en given testindata samt att välja vikter för beräkning av genomsnittet som resulterar i överlägsna resultat jämfört med enskilda adaptrar.
Vår metod består av att beräkna centroiden av inbäddningskluster, skapade med hjälp av CLIP-bildkodare, för varje tillgängligt källdomän. Centroiderna används sedan som inbäddning för adapterar tränad på respektive domän. Under inferens hämtar vi adaptrar med minst avstånd till indata-inbäddningen och använder detta avstånd för att beräkna vikter för att skapa en ny adapter som är ett viktat genomsnitt av de hämtade adaptrarna.
Vi utvärderar vår metod med hjälp av två dataset som vanligtvis används för att mäta domänanpassningsförmågan hos modeller för tät prediktion. Våra resultat indikerar att adapter-sammanslagning är en effektiv metod som kan resultera i högre prestanda än enskilda adaptrar när det finns tillgång till några dataset som är liknande måldomänen. Detta arbete är, så vitt vi vet, det första att använda adapter-sammanslagningsmetoder för tät prediktionsuppgift och vi hoppas att det banar väg för ytterligare framtida arbete inom området.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 72
Series
TRITA–EECS-EX ; 2024:685
Keywords [en]
Low-rank Adaptation, Domain Adaptation, Transfer Learning, Semantic Segmentation
Keywords [sv]
Lågrangsanpassning, Domänanpassning, Överföringsinlärning, Semantisk segmentering
National Category
Computer and Information Sciences Computer graphics and computer vision
Identifiers
URN: urn:nbn:se:kth:diva-356154OAI: oai:DiVA.org:kth-356154DiVA, id: diva2:1911809
External cooperation
Silo AI
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
2025-01-202024-11-082025-02-01Bibliographically approved