kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Adapter Retrieval and Merging for Domain Adaptation of Open-Vocabulary Semantic Segmentation Models
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2024 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)Alternativ titel
Adapter Hämtning och Sammanslagning för Domänanpassning av Öppen-Ordförråd Semantiska Segmenteringsmodeller (Svenska)
Abstract [en]

Open-vocabulary semantic segmentation is a new approach in computer vision where a model assigns a label to each pixel of an image input using vision-aware textual vocabulary. Despite showing great generalization capabilities, zero-shot performance of models based on this approach is still lower than when they are specifically fine-tuned on downstream tasks and datasets. Currently, the size of these models can reach up to hundreds of millions of parameters so a full fine tuning is expensive. As a solution to this, Parameter Efficient Fine-Tuning (PEFT) methods such as Low-Rank Adaptation (LoRA) can be used. LoRA adapters are efficiently be activated during inference based on input. In this thesis, we lightweight and can explore adapter merging, where the weights of LoRA adapters applied to the same layers are averaged to create a new adapter. We also present a method to automatically retrieve relevant adapters to a given test input as well as select the weights for averaging that yield superior results over single adapters.

Our method consists of first calculating the centroid of embedding clusters, created using CLIP image encoder, of each available source domain. The centroids are then used as embedding for adapters trained on corresponding domain. Using the adapter embeddings, we retrieve adapters with smallest distance to the input embedding and use this distance to calculate weights to create a new adapter that is a weighted average of the retrieved adapters.

We evaluate our method using two datasets commonly used to benchmark domain adaptation capabilities of dense prediction models. Our result indicate that adapter merging is an efficient and effective method that can result in better performance than individual adapters when there is an access to a some datasets that are similar to the target domain. This work is, to best of our knowledge, the first to use adapter merging methods for dense prediction task and we hope it paves the way for further future work in the field.

Abstract [sv]

Open-vocabulary semantisk segmentering är en ny metod inom datorseende där en modell tilldelar en etikett till varje pixel i en bildindata med hjälp av synmedveten textuell vokabulär. Trots att det visar på stor generaliseringsförmåga är zero-shot prestandan för modeller baserade på denna metod fortfarande lägre än när de är specifikt finjusterade på uppgifter och dataset. För närvarande kan storleken på dessa modeller nå upp till hundratals miljoner parametrar, vilket gör en fullständig finjustering kostsam. Som en lösning på detta kan Parameter Efficient Fine-Tuning (PEFT)-metoder såsom Low-Rank Adaptation (LoRA) användas. LoRA-adaptrar är lätta och kan effektivt aktiveras under inferens baserat på indata. I denna avhandling utforskar vi adapter-sammanslagning, där genomsnittet av vikterna av LoRA-adaptrar aplicerade på samma lager används för att skapa en ny adapter. Vi presenterar också en metod för att automatiskt hämta relevanta adaptrar för en given testindata samt att välja vikter för beräkning av genomsnittet som resulterar i överlägsna resultat jämfört med enskilda adaptrar.

Vår metod består av att beräkna centroiden av inbäddningskluster, skapade med hjälp av CLIP-bildkodare, för varje tillgängligt källdomän. Centroiderna används sedan som inbäddning för adapterar tränad på respektive domän. Under inferens hämtar vi adaptrar med minst avstånd till indata-inbäddningen och använder detta avstånd för att beräkna vikter för att skapa en ny adapter som är ett viktat genomsnitt av de hämtade adaptrarna.

Vi utvärderar vår metod med hjälp av två dataset som vanligtvis används för att mäta domänanpassningsförmågan hos modeller för tät prediktion. Våra resultat indikerar att adapter-sammanslagning är en effektiv metod som kan resultera i högre prestanda än enskilda adaptrar när det finns tillgång till några dataset som är liknande måldomänen. Detta arbete är, så vitt vi vet, det första att använda adapter-sammanslagningsmetoder för tät prediktionsuppgift och vi hoppas att det banar väg för ytterligare framtida arbete inom området.

Ort, förlag, år, upplaga, sidor
Stockholm: KTH Royal Institute of Technology , 2024. , s. 72
Serie
TRITA–EECS-EX ; 2024:685
Nyckelord [en]
Low-rank Adaptation, Domain Adaptation, Transfer Learning, Semantic Segmentation
Nyckelord [sv]
Lågrangsanpassning, Domänanpassning, Överföringsinlärning, Semantisk segmentering
Nationell ämneskategori
Data- och informationsvetenskap Datorgrafik och datorseende
Identifikatorer
URN: urn:nbn:se:kth:diva-356154OAI: oai:DiVA.org:kth-356154DiVA, id: diva2:1911809
Externt samarbete
Silo AI
Ämne / kurs
Datalogi
Utbildningsprogram
Civilingenjörsexamen - Datateknik
Handledare
Examinatorer
Tillgänglig från: 2025-01-20 Skapad: 2024-11-08 Senast uppdaterad: 2025-02-01Bibliografiskt granskad

Open Access i DiVA

fulltext(4020 kB)144 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 4020 kBChecksumma SHA-512
0e33ba0271fd30ec14d1dd36e02a2586c1018f1b9002cf2a44e521a6acc6a08331df60c580ace64f1366d4f133df86d1ab51b89c2ed39968ff159296ed7d9623
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för elektroteknik och datavetenskap (EECS)
Data- och informationsvetenskapDatorgrafik och datorseende

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 144 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 675 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf