kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Designing a Pipeline for Creating and Evaluating Swedish Instruction Datasets for Large Language Models
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Formulering av en pipeline för att skapa och utvärdera svensk instruktionsdata för stora språkmodeller (Swedish)
Abstract [en]

GPT-models have shown remarkable capabilities in natural language gener- ation (NLG) tasks. Despite the advanced multilingual capabilities of chat assistants such as ChatGPT, these models can often exhibit an underlying American bias. This research is motivated by the need to enhance linguistic and cultural representativity in the Swedish language by exploring a pipeline for creating and evaluating Swedish instruction datasets. The pipeline developed in this thesis incorporates multiple stages, including data collection, curation, fine-tuning, and evaluation. Data collection involves translating existing instruction datasets from English to Swedish, generating synthetic data that is culturally relevant, and sourcing original Swedish content. The curation process emphasizes automatic annotation and cleaning using advanced tools, ensuring high-quality, diverse datasets. Fine-tuning is performed using the GPT-SW3 base model, a Nordic-centric LLM developed by AI Sweden. This model is fine-tuned with the collected datasets using instruction tuning to create a chat assistant. This is further extended by briefly exploring Direct Preference Optimization (DPO), an emerging technique for aligning models with human preferences without the need for reinforcement learning. The evaluation phase leverages benchmarks such as ScandEval to assess the performance of the fine-tuned models, as well as utilizing tasks from the Swedish SAT. The results of this study have demonstrated a somewhat increased ability in Swedish language tasks, such as identifying toxic content, question/answering, and reasoning. While the pipeline has demonstrated potential for improving the language capability of Swedish LLMs, future work should focus on more diverse methods for gathering Swedish data, as well as more robust evaluation pipelines.

Abstract [sv]

GPT-modeller har demonstrerat enorma förmågor i att generera naturligt språk. Trots att chattassistenter som ChatGPT besitter en avancerad flerspråkig förmåga, kan dessa modeller ofta uppvisa en underliggande amerikansk partiskhet. Denna forskning motiveras av behovet av att förbättra den språkliga och kulturella representativiteten i det svenska språket genom att utforska en pipeline för att skapa och utvärdera svenska instruktionsdataset. Den pipeline som har utvecklats i denna avhandling innehåller flera steg, inklusive datainsamling, datakurering, finjustering och utvärdering. Datainsamlingen omfattar översättning av befintliga instruktionsdataset från engelska till svenska, generering av syntetiska data som är kulturellt relevanta samt anskaffning av svenskt originalinnehåll. I kureringsprocessen betonas automatisk annotering och städning med hjälp av avancerade verktyg, vilket säkerställer högkvalitativa och mångsidiga dataset. Finjusteringen utförs med hjälp av basmodellen GPT-SW3, en nordisk-centrerad LLM som utvecklats av AI Sweden. Denna modell finjusteras med de insamlade dataseten med hjälp av instruktionsfinjustering för att skapa en chattassistent. Detta utökas ytterligare genom att kort utforska Direct Preference Optimization (DPO), en framväxande teknik för att anpassa modeller till mänskliga preferenser utan behov av Reinforcement Learning. Utvärderingsfasen utnyttjar benchmarks som ScandEval för att bedöma prestandan hos de finjusterade modellerna, samt använder uppgifter från svenska högskoleprovet. Resultaten av denna studie har visat en något ökad förmåga i svensksprå- kiga uppgifter, såsom identifiering av diskriminerande innehåll, frågor/svar och resonemang. Även om pipelinen har visat potential för att förbättra språkförmågan hos svenska LLM:er, bör framtida arbete fokusera på mer varierande metoder för att samla in svensk data, samt mer robusta utvärderings-pipelines.

Place, publisher, year, edition, pages
2024. , p. 69
Series
TRITA-EECS-EX ; 2024:889
Keywords [en]
Swedish Instruction Data, Model Fine-Tuning, Instruction Fine-Tuning, GPT, Large Language Model, Natural Language Processing, Artificial Intelligence
Keywords [sv]
Svensk Instruktionsdata, Modellfinjustering, Instruktionsfinjustering, GPT, Stor Språkmodell, Naturlig Språkbehandling, Artificiell Intelligens
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360857OAI: oai:DiVA.org:kth-360857DiVA, id: diva2:1942212
External cooperation
AI Sweden
Supervisors
Examiners
Available from: 2025-03-11 Created: 2025-03-04 Last updated: 2025-03-11Bibliographically approved

Open Access in DiVA

fulltext(2843 kB)53 downloads
File information
File name FULLTEXT02.pdfFile size 2843 kBChecksum SHA-512
280753156bf4dbcc033416a631146aec151853a3d8c887c57507b3b04a33d19bf01f27381c815fbce8ac7a4953f256987b5c97382415d4864e65e665ee11fef6
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 53 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 455 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf