kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Building Domain-Specific Sub-Models from Large Language Models using Pruning
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2024 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)Alternativ titel
Att bygga domänspecifika delmodeller från Large Language Models med hjälp av beskärning (Svenska)
Abstract [en]

Large Language Models (LLMs) represent the forefront of technological advancements, however, their widespread adoption is impeded by their substantial computational demands and resource-intensive nature. Pruning, as a compression technique, offers promises for mitigating these challenges. However, existing methods, focusing on general purpose models, often lack optimization for specific tasks, demanding more tailored approaches. This thesis investigates the feasibility of constructing domain-specific sub-models by pruning LLMs using Wanda pruning technique with task-specific calibration datasets. Wanda, a state-of-the-art technique, strategically prunes less critical areas of LLMs, thereby diminishing computational demands while preserving, to some extent, performance integrity. However, it primarily relies on a limited set of general English text as a calibration dataset to estimate input activations and “zero out” less important weights. This approach does not investigate the impact of different types of calibration samples on the post-pruning accuracy and structure of the models. This thesis aims to address this research gap by exploring the impact of employing different task-specific datasets as calibration sets in the pruning process. The evaluation results demonstrate overall improvements in accuracy and inference speed for domain-specific sub-models pruned with task-specific datasets, highlighting the practical utility of the approach. Moreover, interesting results are shown on the structural differences of the sub-models obtained. More specifically, the obtained results reveal that same-domain sub-models retain a higher proportion of similar weights compared to those derived from different domains.

Abstract [sv]

Large Language Models (LLM:er) representerar de senaste framstegen inom AI och naturligt språk-teknologi, men deras breda användning hämmas av deras betydande beräkningskrav och resursintensiva natur. Beskärning, som en komprimeringsteknik, erbjuder löften om att mildra dessa utmaningar. Emellertid saknar befintliga metoder, som fokuserar på allmänna modeller, ofta optimering för specifika uppgifter och kräver mer skräddarsydda tillvägagångssätt. Denna avhandling undersöker genomförbarheten att konstruera domänspecifika delmodeller genom att beskära LLM:er med Wanda-tekniken med uppgiftsspecifika kalibreringsdataset. Wanda, en state-of-the-art-teknik, beskär strategiskt mindre kritiska områden av LLM:er och minskar därmed beräkningskraven samtidigt som prestandan i viss utsträckning bevaras. Dock förlitar den sig främst på en begränsad uppsättning allmän engelsk text som en kalibreringsuppsättning för att uppskatta inmatningsaktiveringar och nollställa mindre viktiga vikter. Detta undersöker inte påverkan av olika typer av kalibreringsprover på efterbeskärningsnoggrannheten och strukturen hos modellerna. Denna avhandling adresserar detta forskningsproblem genom att utforska effekten av att använda olika uppgiftsspecifika dataset som kalibreringsuppsättningar i beskärningsprocessen. Utvärderingsresultaten visar övergripande förbättringar av noggrannhet och inferenshastighet för domänspecifika delmodeller som beskärs med uppgiftsspecifika dataset, vilket betonar metodens praktiska användbarhet. Detta arbete presenterar också intressanta insikter om de delar av en LLM som används för olika uppgifter. Mer specifikt visar de erhållna resultaten att delmodeller från samma domän behåller en högre proportion av liknande vikter jämfört med de som härstammar från olika domäner.

Ort, förlag, år, upplaga, sidor
2024. , s. 97
Serie
TRITA-EECS-EX ; 2024:432
Nyckelord [en]
Large Language Models, Pruning, Wanda, Domain-specific sub-models, Computational resource optimization, Compression.
Nyckelord [sv]
Large Language Models, Beskärning, Wanda, Domänspecifika delmodeller, Optimering av beräkningsresurse, Komprimering
Nationell ämneskategori
Data- och informationsvetenskap
Identifikatorer
URN: urn:nbn:se:kth:diva-351276OAI: oai:DiVA.org:kth-351276DiVA, id: diva2:1886979
Externt samarbete
RISE
Handledare
Examinatorer
Tillgänglig från: 2024-09-19 Skapad: 2024-08-05 Senast uppdaterad: 2024-09-19Bibliografiskt granskad

Open Access i DiVA

fulltext(12256 kB)1321 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 12256 kBChecksumma SHA-512
6b604057bfbe59a21b203974b268eed8f9b8cb83f09aae685eb17ee969d3ea27713137cefda7e64e91bcfcf645d0fbde458d4a2ea1f6c88cd8d49437f43812ac
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för elektroteknik och datavetenskap (EECS)
Data- och informationsvetenskap

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 1322 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 289 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf