Linguistic Comparison of GPTgenerated summaries: A Comparison of Swedish and English prompts
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Språkvetenskaplig Jämförelse av GPT-genererade Sammanfattningar : En Jämförelse av Svenska och Engelska Prompts (Swedish)
Abstract [en]
The training data for generative artificial intelligence (AI) models is often in English, yet despite this, they excel in several languages. The exact variation of training data across different languages is unknown to the general public which leads to difficulties in determining whether to use the English language when using generative AI models or to use the language one is most proficient in. The purpose of this report is to investigate whether the quality differs when using the Swedish language compared to English through several studies to determine if models primarily trained in English is able to generate content of equal quality in Swedish. The investigations are conducted in collaboration with the company ILT Education, which aims to generate summaries of academic articles for educational purposes in both English and Swedish for their new service Trovy—a platform available for schools containing many English and Swedish articles in all school subjects. The tests aim to explore the effect of language adaptation in generative AI models, focusing on Generative Pre-trained Transformer (GPT) when confronted with Swedish and English prompts. The results indicate that both languages may be used depending on the content language, yet the English language is still superior in generating content, and language adaptation to Swedish could be improved to meet user needs and thereby increase the quality of the generated content
Abstract [sv]
Träningsdata för generativa artificiell inteligens (AI) modeller är ofta på engelska men trots detta behärskar de flera språk mycket bra. Exakt hur träningsdata på olika språk varierar är okänt för allmänheten, vilket leder till svårigheter med att veta om man bör använda sig av det engelska språket vid användning av generativa AI-modeller eller om man bör använda sig av språket man bäst behärskar. Syftet med denna rapport är att reda ut ifall kvalitéten skiljer sig åt vid användning av svenska språket jämfört med engelskan genom ett flertal undersökningar för att fastställa om modeller som mest är tränade på engelska kan generera lika kvalitativt innehåll på svenska. Undersökningarna sker i samband med Företaget Inläsningstjänst som har i mål att genereraar utav akademiska artiklar i utbildningssyfte på engelska och svenska för deras nya tjänst Trovy—en plattform tillgänglig för skolor som innehåller många engelska och svenska artiklar inom alla skolämnen. Undersökningarna går ut på att utforskade effekten av språkanpassning i generativa AI-modeller, med fokus på Generativ Förtränad Transformator (GPT), när de konfronteras med svenska och engelska uppmaningar. Resultaten indikerar att de båda språken kan användas men att det engelska språket ändå är överlägset bättre för att generera innehåll och att språkanpassningen till svenska kan förbättras för att möta användares behov och därigenom öka kvaliteten på det genererade innehållet.
Place, publisher, year, edition, pages
2024. , p. 40
Series
TRITA-EECS-EX ; 2024:204
Keywords [en]
Text summarization, Generative language models, Automatic evaluation, Multilingual text generation, Linguistic diversity, Model performance.
Keywords [sv]
Textsammanfattning, Generativa språkmodeller, Automatisk utvärdering, Flerspråkig textgenerering, Språklig mångfald, Modellprestanda.
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351805OAI: oai:DiVA.org:kth-351805DiVA, id: diva2:1888887
External cooperation
ILT Inläsningstjänst
Supervisors
Examiners
2024-08-162024-08-142024-08-16Bibliographically approved