kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Linguistic Comparison of GPTgenerated summaries: A Comparison of Swedish and English prompts
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Språkvetenskaplig Jämförelse av GPT-genererade Sammanfattningar : En Jämförelse av Svenska och Engelska Prompts (Swedish)
Abstract [en]

The training data for generative artificial intelligence (AI) models is often in English, yet despite this, they excel in several languages. The exact variation of training data across different languages is unknown to the general public which leads to difficulties in determining whether to use the English language when using generative AI models or to use the language one is most proficient in. The purpose of this report is to investigate whether the quality differs when using the Swedish language compared to English through several studies to determine if models primarily trained in English is able to generate content of equal quality in Swedish. The investigations are conducted in collaboration with the company ILT Education, which aims to generate summaries of academic articles for educational purposes in both English and Swedish for their new service Trovy—a platform available for schools containing many English and Swedish articles in all school subjects. The tests aim to explore the effect of language adaptation in generative AI models, focusing on Generative Pre-trained Transformer (GPT) when confronted with Swedish and English prompts. The results indicate that both languages may be used depending on the content language, yet the English language is still superior in generating content, and language adaptation to Swedish could be improved to meet user needs and thereby increase the quality of the generated content

Abstract [sv]

Träningsdata för generativa artificiell inteligens (AI) modeller är ofta på engelska men trots detta behärskar de flera språk mycket bra. Exakt hur träningsdata på olika språk varierar är okänt för allmänheten, vilket leder till svårigheter med att veta om man bör använda sig av det engelska språket vid användning av generativa AI-modeller eller om man bör använda sig av språket man bäst behärskar. Syftet med denna rapport är att reda ut ifall kvalitéten skiljer sig åt vid användning av svenska språket jämfört med engelskan genom ett flertal undersökningar för att fastställa om modeller som mest är tränade på engelska kan generera lika kvalitativt innehåll på svenska. Undersökningarna sker i samband med Företaget Inläsningstjänst som har i mål att genereraar utav akademiska artiklar i utbildningssyfte på engelska och svenska för deras nya tjänst Trovy—en plattform tillgänglig för skolor som innehåller många engelska och svenska artiklar inom alla skolämnen. Undersökningarna går ut på att utforskade effekten av språkanpassning i generativa AI-modeller, med fokus på Generativ Förtränad Transformator (GPT), när de konfronteras med svenska och engelska uppmaningar. Resultaten indikerar att de båda språken kan användas men att det engelska språket ändå är överlägset bättre för att generera innehåll och att språkanpassningen till svenska kan förbättras för att möta användares behov och därigenom öka kvaliteten på det genererade innehållet.

Place, publisher, year, edition, pages
2024. , p. 40
Series
TRITA-EECS-EX ; 2024:204
Keywords [en]
Text summarization, Generative language models, Automatic evaluation, Multilingual text generation, Linguistic diversity, Model performance.
Keywords [sv]
Textsammanfattning, Generativa språkmodeller, Automatisk utvärdering, Flerspråkig textgenerering, Språklig mångfald, Modellprestanda.
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351805OAI: oai:DiVA.org:kth-351805DiVA, id: diva2:1888887
External cooperation
ILT Inläsningstjänst
Supervisors
Examiners
Available from: 2024-08-16 Created: 2024-08-14 Last updated: 2024-08-16Bibliographically approved

Open Access in DiVA

fulltext(1314 kB)197 downloads
File information
File name FULLTEXT01.pdfFile size 1314 kBChecksum SHA-512
2568f45b690a8036bf570f836ff40889be58cabfe9e7dab49a493657efd5da0cf23d0141018ab455165f70cce312ba2855dc6c97b52a27c84ecd894ea47122a8
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 197 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 619 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf