kth.sePublications KTH
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Hallucination Detection with Large Language Models
KTH, School of Electrical Engineering and Computer Science (EECS), Computer Science, Software and Computer systems, SCS.ORCID iD: 0000-0002-9162-6433
Show others and affiliations
(English)Manuscript (preprint) (Other academic)
National Category
Natural Language Processing
Identifiers
URN: urn:nbn:se:kth:diva-355041OAI: oai:DiVA.org:kth-355041DiVA, id: diva2:1906901
Note

QC 20241021

Available from: 2024-10-21 Created: 2024-10-21 Last updated: 2025-02-07Bibliographically approved
In thesis
1. Multilingual Language Models: Studies of Pre-Training Approaches and Hallucination Detection
Open this publication in new window or tab >>Multilingual Language Models: Studies of Pre-Training Approaches and Hallucination Detection
2024 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

The performance of large language models has been improving steadily but varies considerably across languages. One strategy for improving this situation is to train multilingual models that enable cross-lingual transfer, such that knowledge from high-resource languages can be leveraged to improve performance on low-resource languages, but there are limits to the number of languages models can effectively support. Understanding the factors influencing cross-lingual transfer is crucial for building models that perform consistently across languages. This thesis investigates how the interaction between languages during pre-training affects model performance in different scenarios of training schemes, model architecture, and evaluation criteria. We first investigate the scalability of multilingual joint pre-training in the generative setting. We pre-train the first large-scale autoregressive language model for English and Swedish and find that its performance improves with increasing data volumes and number of parameters. Then, we study the forward cross-lingual transfer effects in the case of incremental language pre-training. Our experimental results of transferring monolingual encoder language models from a set of four languages to English demonstrate that forward transfer effects, measured in terms of downstream performance, are consistently positive. Building on this, we next analyze both forward and backward effects of incrementally pre-training autoregressive language models on a sequence of languages, with varying order. While forward transfer effects are again always positive, it is observed that backward transfer effects depend on the order and characteristics of languages. Our analysis of possible explanatory factors for backward transfer reveals the potentially important role of language contamination and syntactic similarity. Lastly, we conduct a comparative study of the performance of autoregressive models with varying language coverage on the task of detecting intrinsic hallucinations in paraphrase generation and machine translation scenarios, in different languages. Our experimental results show that models have consistent performance across languages, and also suggest that model-specific factors, such as model size and instruction tuning, have a large impact on the performance. These findings advance the understanding of cross-lingual transfer, providing the foundations for multilingual models with enhanced learning capacity and consistent performance across previously learned languages. Additionally, our work contributes to the evaluation of autoregressive multilingual language models, by providing resources and methods for studying the hallucination phenomenon in machine-generated text. 

Abstract [sv]

Stora språkmodeller blir kontinuerligt mer kraftfulla men deras förmåga varierar stort mellan olika språk. En sätt att hantera detta är att träna flerspråkiga modeller som möjliggör tvärspråklig transferinlärning, så att kunskap från högresursspråk kan utnyttjas för att förbättra förmågan för lågresursspråk. Det finns emellertid gränser för hur många språk modellerna kan stödja. Denna avhandling undersöker hur interaktionen mellan språk under förträning påverkar modellers förmåga i olika scenarier, med avseende på träningsupplägg, modellarkitektur och utvärderingskriterier. Vi undersöker först skalbarheten i samtidigt flerspråkig förträning av generativa modeller. Vi förtränar den första storskaliga autoregressiva språkmodellen för engelska och svenska och finner att dess förmåga förbättras med ökande datavolymer och antal parametrar. Därefter studerar vi framåtriktade tvärspråkliga transfer-effekter vid inkrementell förträning. Våra experiment med att överföra enspråkiga språkmodeller från fyra olika språk till engelska visar att framåtriktade transfer-effekter är genomgående positiva när man mäter modellernas förmåga i specifika tillämpningar. Från denna utgångspunkt analyserar vi sedan både framåtriktade och bakåtriktade effekter av inkrementell förträning av autoregressiva språkmodeller för olika sekvenser av språk. Medan framåtriktade transfer-effekter återigen alltid är positiva, visar sig bakåtriktade transfer-effekter bero av språkens ordning och egenskaper. Vår analys av möjliga förklaringsfaktorer för bakåtriktad transfer visar på en potentiellt viktig roll för språkkontaminering och syntaktisk likhet. Slutligen genomför vi en jämförande studie av autoregressiva modellers förmåga att upptäcka intrinsikala hallucinationer vid parafrasgenerering och maskinöversättning när de tränats med olika kombinationer av språk. Våra experiment visar att modellerna har en likvärdig förmåga för olika språk, samt att modellspecifika faktorer såsom modellstorlek och instruktionsträning har stor inverkan på resultatet. Avhandlingens resultat bidrar till att öka vår förståelse av tvärspråklig transferinlärning och lägger grunden för flerspråkiga modeller med förbättrad inlärningskapacitet och bibehållen förmåga för tidigare språk. Vårt arbete bidrar dessutom till utvärderingen av autoregressiva flerspråkiga språkmodeller genom att tillhandahålla resurser och metoder för att studera hallucinationsfenomenet i modellgenererad text.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2024. p. 67
Series
TRITA-EECS-AVL ; 2024:90
National Category
Natural Language Processing
Identifiers
urn:nbn:se:kth:diva-356567 (URN)978-91-8106-127-7 (ISBN)
Public defence
2024-12-16, https://kth-se.zoom.us/s/3719008936, Kollegiesalen, Brinellvägen 6, KTH Campus, Stockholm, 14:00 (English)
Opponent
Supervisors
Note

QC 20241119

Available from: 2024-11-19 Created: 2024-11-19 Last updated: 2025-12-03Bibliographically approved

Open Access in DiVA

No full text in DiVA

Authority records

Gogoulou, Evangelia

Search in DiVA

By author/editor
Gogoulou, Evangelia
By organisation
Software and Computer systems, SCS
Natural Language Processing

Search outside of DiVA

GoogleGoogle Scholar

urn-nbn

Altmetric score

urn-nbn
Total: 151 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf