Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
En undersökning av fine-tuning, träffsäkerhet och acceptans av GPT-3.5 Turbo inom svensk matematikläxhjälp
KTH, Skolan för elektroteknik och datavetenskap (EECS).
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2024 (svensk)Independent thesis Basic level (degree of Bachelor), 10 poäng / 15 hpOppgaveAlternativ tittel
A study on fine-tuning, accuracy, and acceptance of GPT-3.5 Turbo in Swedish mathematics tutoring (engelsk)
Abstract [sv]

Till följd av den imponerande utvecklingen av stora språkmodeller har många organisationer börjat undersöka möjligheterna att implementera och använda dem. En sådan organisation är Mattecoach.se, som önskar att implementera stora språkmodeller till att assistera deras digitala läxhjälpare inom matematik. I syfte att hjälpa Mattecoach.se och utöka den akademiska kunskapen om stora språkmodeller inom denna kontext, undersöker denna studie hur fine-tuning och språk kan påverka den matematiska korrektheten GPT-3.5 Turbo har på svenska matematikfrågor. Resultaten kommer dessutom att användas för att utvärdera huruvida GPT-3.5 Turbo skulle accepteras och faktiskt användas av läxhjälparna hos Mattecoach.se. Detta testas genom att fine-tune:a GPT-3.5 Turbo på det engelska PRM800k-datasetet och jämföra denna fine-tune:ade modells prestation med basmodellen GPT-3.5 Turbo på gamla svenska nationella provfrågor, och slutligen utvärdera de genererade svaren utifrån The Technology Acceptance Model. Båda modellerna presterade bättre på frågor som var ställda på engelska, och den fine-tune:ade modellen hade en 9,6% lägre korrekthet än basmodellen som uppnådde den högsta korrektheten med 58,0%. Efter en analys av svaren från modellerna, identifierades påtagliga problem med hallucinationer som kan vara missvisande för användare. Slutsatsen är att GPT-3.5 Turbo, både som basmodell och efter fine-tuning, inte är redo att användas för att assistera svensk matematikläxhjälp.

Abstract [en]

Following the impressive development of Large Language Models, many organizations are exploring how they may be implemented efficiently. One of these organizations is Mattecoach.se, which wishes to implement an LLM as an assistant to aid in their free digital Swedish mathematical tutoring service. Aiming to assist Mattecoach.se and to expand the academic understanding of LLMs implemented in the Swedish mathematics tutoring assistance context, this study explores how fine-tuning and language can affect the mathematical accuracy of GPT-3.5 Turbo on Swedish mathematics questions, and if the model is ready to be accepted and used by the tutors. This is tested by fine-tuning GPT-3.5 Turbo with the English PRM800K step-by-step dataset, benchmarking the fine-tuned and base GPT-3.5 Turbo models on the Swedish national exams, and finally evaluating the answers using the Technology Acceptance Model (TAM). The fine-tuned model was shown to have 9.6% lower accuracy than the base model, which scored the highest accuracy of 58.0%, and both models performed worse on questions posed in Swedish rather than English. Analysis of the answers using the TAM identified a crucial issue with repeated hallucinations, which may have a harmful misleading effect on users. The study concludes that GPT-3.5 Turbo in both its base and fine-tuned form is not ready for deployment as a Swedish mathematics tutoring assistant.

sted, utgiver, år, opplag, sider
2024. , s. 11
Serie
TRITA-EECS-EX ; 2024:420
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-351238OAI: oai:DiVA.org:kth-351238DiVA, id: diva2:1886734
Veileder
Examiner
Tilgjengelig fra: 2024-09-19 Laget: 2024-08-03 Sist oppdatert: 2024-09-19bibliografisk kontrollert

Open Access i DiVA

fulltext(1038 kB)80 nedlastinger
Filinformasjon
Fil FULLTEXT01.pdfFilstørrelse 1038 kBChecksum SHA-512
77c68f8d71c5284853c355124499962f057941e1e874f79e9fda7de18dadefb2a85c19d82fefe8f28aa773cf149d1bcd9f3cd9840060d15bed71feeb6933050a
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 80 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 112 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf