kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Building Domain-Specific Sub-Models from Large Language Models using Pruning
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Att bygga domänspecifika delmodeller från Large Language Models med hjälp av beskärning (Swedish)
Abstract [en]

Large Language Models (LLMs) represent the forefront of technological advancements, however, their widespread adoption is impeded by their substantial computational demands and resource-intensive nature. Pruning, as a compression technique, offers promises for mitigating these challenges. However, existing methods, focusing on general purpose models, often lack optimization for specific tasks, demanding more tailored approaches. This thesis investigates the feasibility of constructing domain-specific sub-models by pruning LLMs using Wanda pruning technique with task-specific calibration datasets. Wanda, a state-of-the-art technique, strategically prunes less critical areas of LLMs, thereby diminishing computational demands while preserving, to some extent, performance integrity. However, it primarily relies on a limited set of general English text as a calibration dataset to estimate input activations and “zero out” less important weights. This approach does not investigate the impact of different types of calibration samples on the post-pruning accuracy and structure of the models. This thesis aims to address this research gap by exploring the impact of employing different task-specific datasets as calibration sets in the pruning process. The evaluation results demonstrate overall improvements in accuracy and inference speed for domain-specific sub-models pruned with task-specific datasets, highlighting the practical utility of the approach. Moreover, interesting results are shown on the structural differences of the sub-models obtained. More specifically, the obtained results reveal that same-domain sub-models retain a higher proportion of similar weights compared to those derived from different domains.

Abstract [sv]

Large Language Models (LLM:er) representerar de senaste framstegen inom AI och naturligt språk-teknologi, men deras breda användning hämmas av deras betydande beräkningskrav och resursintensiva natur. Beskärning, som en komprimeringsteknik, erbjuder löften om att mildra dessa utmaningar. Emellertid saknar befintliga metoder, som fokuserar på allmänna modeller, ofta optimering för specifika uppgifter och kräver mer skräddarsydda tillvägagångssätt. Denna avhandling undersöker genomförbarheten att konstruera domänspecifika delmodeller genom att beskära LLM:er med Wanda-tekniken med uppgiftsspecifika kalibreringsdataset. Wanda, en state-of-the-art-teknik, beskär strategiskt mindre kritiska områden av LLM:er och minskar därmed beräkningskraven samtidigt som prestandan i viss utsträckning bevaras. Dock förlitar den sig främst på en begränsad uppsättning allmän engelsk text som en kalibreringsuppsättning för att uppskatta inmatningsaktiveringar och nollställa mindre viktiga vikter. Detta undersöker inte påverkan av olika typer av kalibreringsprover på efterbeskärningsnoggrannheten och strukturen hos modellerna. Denna avhandling adresserar detta forskningsproblem genom att utforska effekten av att använda olika uppgiftsspecifika dataset som kalibreringsuppsättningar i beskärningsprocessen. Utvärderingsresultaten visar övergripande förbättringar av noggrannhet och inferenshastighet för domänspecifika delmodeller som beskärs med uppgiftsspecifika dataset, vilket betonar metodens praktiska användbarhet. Detta arbete presenterar också intressanta insikter om de delar av en LLM som används för olika uppgifter. Mer specifikt visar de erhållna resultaten att delmodeller från samma domän behåller en högre proportion av liknande vikter jämfört med de som härstammar från olika domäner.

Place, publisher, year, edition, pages
2024. , p. 97
Series
TRITA-EECS-EX ; 2024:432
Keywords [en]
Large Language Models, Pruning, Wanda, Domain-specific sub-models, Computational resource optimization, Compression.
Keywords [sv]
Large Language Models, Beskärning, Wanda, Domänspecifika delmodeller, Optimering av beräkningsresurse, Komprimering
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351276OAI: oai:DiVA.org:kth-351276DiVA, id: diva2:1886979
External cooperation
RISE
Supervisors
Examiners
Available from: 2024-09-19 Created: 2024-08-05 Last updated: 2024-09-19Bibliographically approved

Open Access in DiVA

fulltext(12256 kB)513 downloads
File information
File name FULLTEXT01.pdfFile size 12256 kBChecksum SHA-512
6b604057bfbe59a21b203974b268eed8f9b8cb83f09aae685eb17ee969d3ea27713137cefda7e64e91bcfcf645d0fbde458d4a2ea1f6c88cd8d49437f43812ac
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 514 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 274 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf