Designing a Pipeline for Creating and Evaluating Swedish Instruction Datasets for Large Language Models
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Formulering av en pipeline för att skapa och utvärdera svensk instruktionsdata för stora språkmodeller (Swedish)
Abstract [en]
GPT-models have shown remarkable capabilities in natural language gener- ation (NLG) tasks. Despite the advanced multilingual capabilities of chat assistants such as ChatGPT, these models can often exhibit an underlying American bias. This research is motivated by the need to enhance linguistic and cultural representativity in the Swedish language by exploring a pipeline for creating and evaluating Swedish instruction datasets. The pipeline developed in this thesis incorporates multiple stages, including data collection, curation, fine-tuning, and evaluation. Data collection involves translating existing instruction datasets from English to Swedish, generating synthetic data that is culturally relevant, and sourcing original Swedish content. The curation process emphasizes automatic annotation and cleaning using advanced tools, ensuring high-quality, diverse datasets. Fine-tuning is performed using the GPT-SW3 base model, a Nordic-centric LLM developed by AI Sweden. This model is fine-tuned with the collected datasets using instruction tuning to create a chat assistant. This is further extended by briefly exploring Direct Preference Optimization (DPO), an emerging technique for aligning models with human preferences without the need for reinforcement learning. The evaluation phase leverages benchmarks such as ScandEval to assess the performance of the fine-tuned models, as well as utilizing tasks from the Swedish SAT. The results of this study have demonstrated a somewhat increased ability in Swedish language tasks, such as identifying toxic content, question/answering, and reasoning. While the pipeline has demonstrated potential for improving the language capability of Swedish LLMs, future work should focus on more diverse methods for gathering Swedish data, as well as more robust evaluation pipelines.
Abstract [sv]
GPT-modeller har demonstrerat enorma förmågor i att generera naturligt språk. Trots att chattassistenter som ChatGPT besitter en avancerad flerspråkig förmåga, kan dessa modeller ofta uppvisa en underliggande amerikansk partiskhet. Denna forskning motiveras av behovet av att förbättra den språkliga och kulturella representativiteten i det svenska språket genom att utforska en pipeline för att skapa och utvärdera svenska instruktionsdataset. Den pipeline som har utvecklats i denna avhandling innehåller flera steg, inklusive datainsamling, datakurering, finjustering och utvärdering. Datainsamlingen omfattar översättning av befintliga instruktionsdataset från engelska till svenska, generering av syntetiska data som är kulturellt relevanta samt anskaffning av svenskt originalinnehåll. I kureringsprocessen betonas automatisk annotering och städning med hjälp av avancerade verktyg, vilket säkerställer högkvalitativa och mångsidiga dataset. Finjusteringen utförs med hjälp av basmodellen GPT-SW3, en nordisk-centrerad LLM som utvecklats av AI Sweden. Denna modell finjusteras med de insamlade dataseten med hjälp av instruktionsfinjustering för att skapa en chattassistent. Detta utökas ytterligare genom att kort utforska Direct Preference Optimization (DPO), en framväxande teknik för att anpassa modeller till mänskliga preferenser utan behov av Reinforcement Learning. Utvärderingsfasen utnyttjar benchmarks som ScandEval för att bedöma prestandan hos de finjusterade modellerna, samt använder uppgifter från svenska högskoleprovet. Resultaten av denna studie har visat en något ökad förmåga i svensksprå- kiga uppgifter, såsom identifiering av diskriminerande innehåll, frågor/svar och resonemang. Även om pipelinen har visat potential för att förbättra språkförmågan hos svenska LLM:er, bör framtida arbete fokusera på mer varierande metoder för att samla in svensk data, samt mer robusta utvärderings-pipelines.
Place, publisher, year, edition, pages
2024. , p. 69
Series
TRITA-EECS-EX ; 2024:889
Keywords [en]
Swedish Instruction Data, Model Fine-Tuning, Instruction Fine-Tuning, GPT, Large Language Model, Natural Language Processing, Artificial Intelligence
Keywords [sv]
Svensk Instruktionsdata, Modellfinjustering, Instruktionsfinjustering, GPT, Stor Språkmodell, Naturlig Språkbehandling, Artificiell Intelligens
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360857OAI: oai:DiVA.org:kth-360857DiVA, id: diva2:1942212
External cooperation
AI Sweden
Supervisors
Examiners
2025-03-112025-03-042025-03-11Bibliographically approved