kth.sePublications KTH
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
From Fuþark to Essay: How well does the Viking LLM perform Grammatical Error Correction?
KTH, School of Electrical Engineering and Computer Science (EECS).
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Från fuþark till uppsats : Hur väl utför språkmodellen Viking grammatisk felrättning? (Swedish)
Abstract [en]

Grammatical Error Correction (GEC) is a subfield of Natural Language Processing (NLP) that regards correcting errors in text. The name GEC is somewhat misleading, as GEC corrects all kinds of language errors, but is still used for historical reasons. The field of GEC has mainly evolved through shared tasks, which can be described as competitions where participants collaborate to solve a given problem. Modern GEC also includes the notion of minimal edits and fluency edits, where a minimal edit is the smallest possible edit that makes a text grammatically correct and a fluency edit is a larger edit that makes the text more idiomatic. This project evaluated the Nordic-language LLM Viking by applying it to a GEC task. The LLM corrected texts from the Swedish-language SweLL-gold corpus, which was used in the MultiGEC-2025 shared task. MultiGEC-2025 is a text-level GEC shared task, which means that errors are corrected on a text-level instead of the classical sentence level. The SweLL-gold corpus, however, only included minimal-edit reference texts; this project thus also created fluency-edit reference texts for the SweLL-gold corpus. The edited texts were compared against texts corrected by a system from UAM-CSI, who scored best in MultiGEC-2025. The Viking systems performed better in most of the manual-evaluation metrics while the baseline UAM-CSI systems performed best in most of the automatic-evaluation metrics. The larger Viking-13B systems generally performed better than the smaller Viking-7B systems. The minimal-edit Viking systems generally performed better in one of the automatic-evaluation metric while the fluency-edit Viking systems generally performed better in another automatic-evaluation metric and the manual-evaluation metrics. The results highlight how the Viking LLM is competent in GEC, where the fluency-edit Viking-13B system generally performed the best. Future work should focus on improving text-level GEC evaluation, as none of the metrics used in the project were really adapted to text-level GEC.

Abstract [sv]

Grammatisk felrättning, eller Grammatical Error Correction (GEC) på engelska, är ett område inom språkteknologi som rättar fel i texter. Namnet grammatisk felrättning är något missvisande eftersom GEC rättar alla slags språkfel, men används ändå av historiska skäl. Forskningsområdet GEC har främst utvecklats genom så kallade shared tasks, vilket ungefär kan översättas till delade uppgifter på svenska och är en slags tävling där deltagarna samarbetar för att lösa ett givet problem. Modern GEC innefattar också begreppen minimala redigeringar och flytredigeringar, där en minimal redigering är den minsta möjliga redigeringen som krävs för att göra en text grammatiskt korrekt och en flytredigering är en större redigering som gör texten mer idiomatisk. Detta projekt utvärderade språkmodellen Viking, som behärskar de nordiska språken, genom att använda den i en GEC-uppgift. Språkmodellen rättade texter från den svenskspråkiga SweLL-gold-korpusen, som användes i den delade uppgiften MultiGEC-2025. MultiGEC-2025 är en en delad GEC-uppgift på textnivå, vilket innebär att felen rättas på textnivå istället för den traditionella meningsnivån. SweLL-gold-korpusen innehöll dock bara referenstexter rättade med minimala redigeringar och detta projekt skapade således också referenstexter rättade med flytredigeringar till SweLL-gold-korpusen. De redigerade texterna jämfördes med texter från ett system av UAM-CSI, som fick bäst poäng i MultiGEC-2025. Vikingsystemen presterade generellt bäst i de manuella utvärderingsmåtten medan jämförelsesystemet från UAM-CSI generellt presterade bäst i de automatiska utvärderingsmåtten. Systemen baserade på den större modellen Viking-13B presterade generellt bättre än systemen baserade på den mindre modellen Viking-7B. Vikingsystemen som utförde minimala redigeringar presterade generellt bättre i ett av de automatiska utvärderingsmåtten medan vikingsystemen som utförde flytredigeringar generellt presterade bättre i ett annat automatiskt utvärderingsmått och de manuella utvärderingsmåtten. Resultaten påvisar hur språkmodellen Viking är kompetent inom GEC, där modellen Viking-13B som utför flytredigeringar generellt presterade bäst. Framtida arbete borde fokusera på att förbättra utvärdering av GEC på textnivå, då inget av de använda måtten riktigt var anpassade för GEC på textnivå.

Place, publisher, year, edition, pages
2025. , p. 78
Series
TRITA-EECS-EX ; 2025:422
Keywords [en]
Corpus Creation, Grammatical Error Correction, Natural Language Processing, Second-Language Learning, Viking LLM
Keywords [sv]
Korpusskapande, Grammatisk felrättning, Naturligspråkbehandling, Andraspråksinlärning, Språkmodellen Viking
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-367837OAI: oai:DiVA.org:kth-367837DiVA, id: diva2:1986377
Supervisors
Examiners
Available from: 2025-08-10 Created: 2025-07-31 Last updated: 2025-08-10Bibliographically approved

Open Access in DiVA

fulltext(1213 kB)227 downloads
File information
File name FULLTEXT01.pdfFile size 1213 kBChecksum SHA-512
1cd6adea3e56944517c27ec943c34191b01bfdfc531ac529e2175964c4c8649de821403f0d9a220adaf235060e80c1b126946ef348a389488ada5b6f0138e5c1
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 227 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 470 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf