Unstructured pruning of pre-trained language models tuned for sentiment classification.
2022 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hp
Studentuppsats (Examensarbete)Alternativ titel
Ostrukturerade beskärningsmetoder tillämpade på förtränade språkmodeller finjusterade försentimentklassificering. (Svenska)
Abstract [en]
Transformer-based models are frequently used in natural language processing. These models are oftenlarge and pre-trained for general language understanding and then fine-tuned for a specific task. Becausethese models are large, they have a high memory requirement and have high inference time. Severalmodel compression techniques have been developed in order to reduce the mentioned disadvantageswithout significantly reducing the inference performance of the models. This thesis studies unstructuredpruning method, which are pruning methods that do not follow a predetermined pattern when removingparameters, to understand which parameters can be removed from language models and the impact ofremoving a significant portion of a model's parameters. Specifically, magnitude pruning, movementpruning, soft movement pruning, and $L_0$ regularization were applied to the pre-trained languagemodels BERT and M-BERT. The pre-trained models in turn were fine-tuned for sentiment classificationtasks, which refers to the task of classifying a given sentence to predetermined labels, such as positive ornegative. Magnitude pruning worked the best when pruning the models to a ratio of 15\% of the models'original parameters, while soft movement pruning worked the best for the weight ratio of 3\%. Formovement pruning, we were not able to achieve satisfying results for binary sentiment classification.From investigating the pruning patterns derived from soft movement pruning and $L_0$ regularization, itwas found that a large portion of the parameters from the last transformer blocks in the model architecturecould be removed without significantly reducing the model performance. An example of interestingfurther work is to remove the last transformer blocks altogether and investigate if an increase in inferencespeed is attained without significantly reducing the performance.
Abstract [sv]
Modeller baserade på transformer-arkitekturer används ofta i språkanalys inom maskininlärning. Dessamodeller är ofta stora och är tränade i förhand för en allmän språkförståelse och sedan finjusterade för enspecifik uppgift. Eftersom dessa modeller är stora har de höga minneskrav och inferenstid. Fleramodellkompressionstekniker har utvecklas för att minska de nämnda nackdeular utan att påtagligtförsämra modellernas inferensprestanda. I denna avhandling undersöks ostrukturerade "pruning"-metoderför att studera vilka parametrar som kan tas bort och effekten av att ta bort en betydande del av modellenstotala parametrar. Specifikt tillämpades magnitudpruning, rörelsepruning, mjuk rörelsepruning och $L_0$regularisering på de förtränade språkmodellerna BERT och M-BERT, som finjusterades för att klassificeraom en mening är positiv eller negativ. Magnitudpruning fungerade bäst vid pruning av modellerna till ettförhållande på 15\% av modellens ursprungliga vikt, medan mjuk rörelsepruning fungerade bäst förviktförhållandet 3\%. För rörelsepruning kunde vi ej uppnå tillfredsställande resultat försentimentklassificering. Från att undersöka pruningsmönstren som härrörde från mjuk rörelsepruning och$L_0$-regularisering, fann vi att en stor del av parametrarna från de sista transformatorblocken imodellarkitekturen kunde tas bort utan att nämnvärt påverka modellens prestanda. Exempel på intressantvidare arbete är att helt ta bort de sista transformerblocken och undersöka om en ökning avslutledningshastigheten kan uppnås utan att nämnvärt påverka prestandan.
Ort, förlag, år, upplaga, sidor
2022. , s. 58
Serie
TRITA-SCI-GRU ; 2022:315
Nyckelord [en]
Unstructured pruning, transformer, BERT, sentiment classification, natural language processing, neural networks, deep learning
Nyckelord [sv]
Ostrukturerad pruning, transformer, BERT, sentimentklassifikation, språkbehandling, neurala nätverk, djup inlärning
Nationell ämneskategori
Annan matematik
Identifikatorer
URN: urn:nbn:se:kth:diva-322564OAI: oai:DiVA.org:kth-322564DiVA, id: diva2:1720701
Externt samarbete
Sinch AB
Ämne / kurs
Matematik
Utbildningsprogram
Teknologie masterexamen - Tillämpad matematik och beräkningsmatematik
Handledare
Examinatorer
2023-02-022022-12-202023-02-15Bibliografiskt granskad