Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Building Domain-Specific Sub-Models from Large Language Models using Pruning
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2024 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgaveAlternativ tittel
Att bygga domänspecifika delmodeller från Large Language Models med hjälp av beskärning (svensk)
Abstract [en]

Large Language Models (LLMs) represent the forefront of technological advancements, however, their widespread adoption is impeded by their substantial computational demands and resource-intensive nature. Pruning, as a compression technique, offers promises for mitigating these challenges. However, existing methods, focusing on general purpose models, often lack optimization for specific tasks, demanding more tailored approaches. This thesis investigates the feasibility of constructing domain-specific sub-models by pruning LLMs using Wanda pruning technique with task-specific calibration datasets. Wanda, a state-of-the-art technique, strategically prunes less critical areas of LLMs, thereby diminishing computational demands while preserving, to some extent, performance integrity. However, it primarily relies on a limited set of general English text as a calibration dataset to estimate input activations and “zero out” less important weights. This approach does not investigate the impact of different types of calibration samples on the post-pruning accuracy and structure of the models. This thesis aims to address this research gap by exploring the impact of employing different task-specific datasets as calibration sets in the pruning process. The evaluation results demonstrate overall improvements in accuracy and inference speed for domain-specific sub-models pruned with task-specific datasets, highlighting the practical utility of the approach. Moreover, interesting results are shown on the structural differences of the sub-models obtained. More specifically, the obtained results reveal that same-domain sub-models retain a higher proportion of similar weights compared to those derived from different domains.

Abstract [sv]

Large Language Models (LLM:er) representerar de senaste framstegen inom AI och naturligt språk-teknologi, men deras breda användning hämmas av deras betydande beräkningskrav och resursintensiva natur. Beskärning, som en komprimeringsteknik, erbjuder löften om att mildra dessa utmaningar. Emellertid saknar befintliga metoder, som fokuserar på allmänna modeller, ofta optimering för specifika uppgifter och kräver mer skräddarsydda tillvägagångssätt. Denna avhandling undersöker genomförbarheten att konstruera domänspecifika delmodeller genom att beskära LLM:er med Wanda-tekniken med uppgiftsspecifika kalibreringsdataset. Wanda, en state-of-the-art-teknik, beskär strategiskt mindre kritiska områden av LLM:er och minskar därmed beräkningskraven samtidigt som prestandan i viss utsträckning bevaras. Dock förlitar den sig främst på en begränsad uppsättning allmän engelsk text som en kalibreringsuppsättning för att uppskatta inmatningsaktiveringar och nollställa mindre viktiga vikter. Detta undersöker inte påverkan av olika typer av kalibreringsprover på efterbeskärningsnoggrannheten och strukturen hos modellerna. Denna avhandling adresserar detta forskningsproblem genom att utforska effekten av att använda olika uppgiftsspecifika dataset som kalibreringsuppsättningar i beskärningsprocessen. Utvärderingsresultaten visar övergripande förbättringar av noggrannhet och inferenshastighet för domänspecifika delmodeller som beskärs med uppgiftsspecifika dataset, vilket betonar metodens praktiska användbarhet. Detta arbete presenterar också intressanta insikter om de delar av en LLM som används för olika uppgifter. Mer specifikt visar de erhållna resultaten att delmodeller från samma domän behåller en högre proportion av liknande vikter jämfört med de som härstammar från olika domäner.

sted, utgiver, år, opplag, sider
2024. , s. 97
Serie
TRITA-EECS-EX ; 2024:432
Emneord [en]
Large Language Models, Pruning, Wanda, Domain-specific sub-models, Computational resource optimization, Compression.
Emneord [sv]
Large Language Models, Beskärning, Wanda, Domänspecifika delmodeller, Optimering av beräkningsresurse, Komprimering
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-351276OAI: oai:DiVA.org:kth-351276DiVA, id: diva2:1886979
Eksternt samarbeid
RISE
Veileder
Examiner
Tilgjengelig fra: 2024-09-19 Laget: 2024-08-05 Sist oppdatert: 2024-09-19bibliografisk kontrollert

Open Access i DiVA

fulltext(12256 kB)1319 nedlastinger
Filinformasjon
Fil FULLTEXT01.pdfFilstørrelse 12256 kBChecksum SHA-512
6b604057bfbe59a21b203974b268eed8f9b8cb83f09aae685eb17ee969d3ea27713137cefda7e64e91bcfcf645d0fbde458d4a2ea1f6c88cd8d49437f43812ac
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 1320 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 289 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf