Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Fine-Grained Evaluation on Factuality and Specificity for Large Language Models
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2024 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgaveAlternativ tittel
Finmaskig utvärdering av faktualitet och specificitet för stora språkmodeller (svensk)
Abstract [en]

As the capabilities of Large Language Models(LLMs) continue to improve, intelligent assistants like ChatGPT have become a major entry for people to obtain information. However, LLMs often output false information, which is known as the hallucination problem of large language models. In this project, we focus on the factuality hallucination of large language models. Several method have been proposed to improve the factuality. We observed that these methods often trade specificity for factuality. In order to measure and formalize this phenomenom, we propose a fine-grained evaluation framework for assessing the factuality and specificity for large language models. This framework improves upon the widely used FACTSCORE for evaluating the factuality of large language models. Additionally, we add the dimension of specificity and defined two metrics for it. We test different LLMs and compare methods for improving factuality through post-processing, inference interference and model fine-tuning. We observed a negative correlation between specificity and factuality. This suggests that focusing solely on factuality may reduce the helpfulness of LLMs and the factuality metric can be manipulated. This research aims to provide a more comprehensive and reliable evaluation method to provide guidance for LLMs generating responses that are both factual and specific.

Abstract [sv]

När kapaciteterna hos stora språkmodeller (Large Language Models, LLMs) fortsätter att förbättras,har intelligenta assistenter som ChatGPT blivit en viktig ingång för människor att få information. Dock ger LLMs ofta felaktig information, vilket är känt som hallucinationsproblemet för stora språkmodeller. I detta projekt fokuserar vi på faktualitets-hallucinationer hos stora språkmodeller. Flera metoder har föreslagits för att förbättra faktualiteten. Vi har observerat att dessa metoder ofta byter specifikhet mot faktualitet. För att mäta och formalisera detta fenomen föreslår vi ett finkornigt utvärderingsramverk för att bedöma faktualitet och specifikhet hos stora språkmodeller. Detta ramverk förbättrar den allmänt använda FACTSCORE för att utvärdera faktualiteten hos stora språkmodeller. Dessutom lägger vi till dimensionen specifikhet och definierar två mått för det. Vi testar olika LLMs och jämför metoder för att förbättra faktualiteten genom efterbearbetning, inferensinterferens och modellfinjustering. Vi observerade ett negativt samband mellan specifikhet och faktualitet. Detta tyder på att ett ensidigt fokus på faktualitet kan minska användbarheten hos LLMs och att faktualitetsmåttet kan manipuleras. Denna forskning syftar till att tillhandahålla en mer omfattande och tillförlitlig utvärderingsmetod för att ge vägledning för LLMs att generera svar som både är faktuella och specifika.

sted, utgiver, år, opplag, sider
2024. , s. 58
Serie
TRITA-EECS-EX ; 2024:767
Emneord [en]
Large Language Model, Evaluation, Factuality, Specificity
Emneord [sv]
Stor språkmodell, utvärdering, faktualitet, specificitet
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-360195OAI: oai:DiVA.org:kth-360195DiVA, id: diva2:1938959
Veileder
Examiner
Tilgjengelig fra: 2025-02-24 Laget: 2025-02-20 Sist oppdatert: 2025-02-24bibliografisk kontrollert

Open Access i DiVA

fulltext(1735 kB)95 nedlastinger
Filinformasjon
Fil FULLTEXT02.pdfFilstørrelse 1735 kBChecksum SHA-512
7d8f6e040d12a7df7e6449abfd72fbbf74685fbd029c5ad4dc91ca3e676692eb57d27c69c7ceab68d42f208361db1716880d331bd2f9ecc9e6bd955a61ebb154
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 95 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 450 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf