kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Adapter Retrieval and Merging for Domain Adaptation of Open-Vocabulary Semantic Segmentation Models
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Adapter Hämtning och Sammanslagning för Domänanpassning av Öppen-Ordförråd Semantiska Segmenteringsmodeller (Swedish)
Abstract [en]

Open-vocabulary semantic segmentation is a new approach in computer vision where a model assigns a label to each pixel of an image input using vision-aware textual vocabulary. Despite showing great generalization capabilities, zero-shot performance of models based on this approach is still lower than when they are specifically fine-tuned on downstream tasks and datasets. Currently, the size of these models can reach up to hundreds of millions of parameters so a full fine tuning is expensive. As a solution to this, Parameter Efficient Fine-Tuning (PEFT) methods such as Low-Rank Adaptation (LoRA) can be used. LoRA adapters are efficiently be activated during inference based on input. In this thesis, we lightweight and can explore adapter merging, where the weights of LoRA adapters applied to the same layers are averaged to create a new adapter. We also present a method to automatically retrieve relevant adapters to a given test input as well as select the weights for averaging that yield superior results over single adapters.

Our method consists of first calculating the centroid of embedding clusters, created using CLIP image encoder, of each available source domain. The centroids are then used as embedding for adapters trained on corresponding domain. Using the adapter embeddings, we retrieve adapters with smallest distance to the input embedding and use this distance to calculate weights to create a new adapter that is a weighted average of the retrieved adapters.

We evaluate our method using two datasets commonly used to benchmark domain adaptation capabilities of dense prediction models. Our result indicate that adapter merging is an efficient and effective method that can result in better performance than individual adapters when there is an access to a some datasets that are similar to the target domain. This work is, to best of our knowledge, the first to use adapter merging methods for dense prediction task and we hope it paves the way for further future work in the field.

Abstract [sv]

Open-vocabulary semantisk segmentering är en ny metod inom datorseende där en modell tilldelar en etikett till varje pixel i en bildindata med hjälp av synmedveten textuell vokabulär. Trots att det visar på stor generaliseringsförmåga är zero-shot prestandan för modeller baserade på denna metod fortfarande lägre än när de är specifikt finjusterade på uppgifter och dataset. För närvarande kan storleken på dessa modeller nå upp till hundratals miljoner parametrar, vilket gör en fullständig finjustering kostsam. Som en lösning på detta kan Parameter Efficient Fine-Tuning (PEFT)-metoder såsom Low-Rank Adaptation (LoRA) användas. LoRA-adaptrar är lätta och kan effektivt aktiveras under inferens baserat på indata. I denna avhandling utforskar vi adapter-sammanslagning, där genomsnittet av vikterna av LoRA-adaptrar aplicerade på samma lager används för att skapa en ny adapter. Vi presenterar också en metod för att automatiskt hämta relevanta adaptrar för en given testindata samt att välja vikter för beräkning av genomsnittet som resulterar i överlägsna resultat jämfört med enskilda adaptrar.

Vår metod består av att beräkna centroiden av inbäddningskluster, skapade med hjälp av CLIP-bildkodare, för varje tillgängligt källdomän. Centroiderna används sedan som inbäddning för adapterar tränad på respektive domän. Under inferens hämtar vi adaptrar med minst avstånd till indata-inbäddningen och använder detta avstånd för att beräkna vikter för att skapa en ny adapter som är ett viktat genomsnitt av de hämtade adaptrarna.

Vi utvärderar vår metod med hjälp av två dataset som vanligtvis används för att mäta domänanpassningsförmågan hos modeller för tät prediktion. Våra resultat indikerar att adapter-sammanslagning är en effektiv metod som kan resultera i högre prestanda än enskilda adaptrar när det finns tillgång till några dataset som är liknande måldomänen. Detta arbete är, så vitt vi vet, det första att använda adapter-sammanslagningsmetoder för tät prediktionsuppgift och vi hoppas att det banar väg för ytterligare framtida arbete inom området.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 72
Series
TRITA–EECS-EX ; 2024:685
Keywords [en]
Low-rank Adaptation, Domain Adaptation, Transfer Learning, Semantic Segmentation
Keywords [sv]
Lågrangsanpassning, Domänanpassning, Överföringsinlärning, Semantisk segmentering
National Category
Computer and Information Sciences Computer graphics and computer vision
Identifiers
URN: urn:nbn:se:kth:diva-356154OAI: oai:DiVA.org:kth-356154DiVA, id: diva2:1911809
External cooperation
Silo AI
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
Available from: 2025-01-20 Created: 2024-11-08 Last updated: 2025-02-01Bibliographically approved

Open Access in DiVA

fulltext(4020 kB)122 downloads
File information
File name FULLTEXT01.pdfFile size 4020 kBChecksum SHA-512
0e33ba0271fd30ec14d1dd36e02a2586c1018f1b9002cf2a44e521a6acc6a08331df60c580ace64f1366d4f133df86d1ab51b89c2ed39968ff159296ed7d9623
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information SciencesComputer graphics and computer vision

Search outside of DiVA

GoogleGoogle Scholar
Total: 122 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 618 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf