kth.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
En undersökning av fine-tuning, träffsäkerhet och acceptans av GPT-3.5 Turbo inom svensk matematikläxhjälp
KTH, Skolan för elektroteknik och datavetenskap (EECS).
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2024 (Svenska)Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)Alternativ titel
A study on fine-tuning, accuracy, and acceptance of GPT-3.5 Turbo in Swedish mathematics tutoring (Engelska)
Abstract [sv]

Till följd av den imponerande utvecklingen av stora språkmodeller har många organisationer börjat undersöka möjligheterna att implementera och använda dem. En sådan organisation är Mattecoach.se, som önskar att implementera stora språkmodeller till att assistera deras digitala läxhjälpare inom matematik. I syfte att hjälpa Mattecoach.se och utöka den akademiska kunskapen om stora språkmodeller inom denna kontext, undersöker denna studie hur fine-tuning och språk kan påverka den matematiska korrektheten GPT-3.5 Turbo har på svenska matematikfrågor. Resultaten kommer dessutom att användas för att utvärdera huruvida GPT-3.5 Turbo skulle accepteras och faktiskt användas av läxhjälparna hos Mattecoach.se. Detta testas genom att fine-tune:a GPT-3.5 Turbo på det engelska PRM800k-datasetet och jämföra denna fine-tune:ade modells prestation med basmodellen GPT-3.5 Turbo på gamla svenska nationella provfrågor, och slutligen utvärdera de genererade svaren utifrån The Technology Acceptance Model. Båda modellerna presterade bättre på frågor som var ställda på engelska, och den fine-tune:ade modellen hade en 9,6% lägre korrekthet än basmodellen som uppnådde den högsta korrektheten med 58,0%. Efter en analys av svaren från modellerna, identifierades påtagliga problem med hallucinationer som kan vara missvisande för användare. Slutsatsen är att GPT-3.5 Turbo, både som basmodell och efter fine-tuning, inte är redo att användas för att assistera svensk matematikläxhjälp.

Abstract [en]

Following the impressive development of Large Language Models, many organizations are exploring how they may be implemented efficiently. One of these organizations is Mattecoach.se, which wishes to implement an LLM as an assistant to aid in their free digital Swedish mathematical tutoring service. Aiming to assist Mattecoach.se and to expand the academic understanding of LLMs implemented in the Swedish mathematics tutoring assistance context, this study explores how fine-tuning and language can affect the mathematical accuracy of GPT-3.5 Turbo on Swedish mathematics questions, and if the model is ready to be accepted and used by the tutors. This is tested by fine-tuning GPT-3.5 Turbo with the English PRM800K step-by-step dataset, benchmarking the fine-tuned and base GPT-3.5 Turbo models on the Swedish national exams, and finally evaluating the answers using the Technology Acceptance Model (TAM). The fine-tuned model was shown to have 9.6% lower accuracy than the base model, which scored the highest accuracy of 58.0%, and both models performed worse on questions posed in Swedish rather than English. Analysis of the answers using the TAM identified a crucial issue with repeated hallucinations, which may have a harmful misleading effect on users. The study concludes that GPT-3.5 Turbo in both its base and fine-tuned form is not ready for deployment as a Swedish mathematics tutoring assistant.

Ort, förlag, år, upplaga, sidor
2024. , s. 11
Serie
TRITA-EECS-EX ; 2024:420
Nationell ämneskategori
Data- och informationsvetenskap
Identifikatorer
URN: urn:nbn:se:kth:diva-351238OAI: oai:DiVA.org:kth-351238DiVA, id: diva2:1886734
Handledare
Examinatorer
Tillgänglig från: 2024-09-19 Skapad: 2024-08-03 Senast uppdaterad: 2024-09-19Bibliografiskt granskad

Open Access i DiVA

fulltext(1038 kB)78 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 1038 kBChecksumma SHA-512
77c68f8d71c5284853c355124499962f057941e1e874f79e9fda7de18dadefb2a85c19d82fefe8f28aa773cf149d1bcd9f3cd9840060d15bed71feeb6933050a
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för elektroteknik och datavetenskap (EECS)
Data- och informationsvetenskap

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 78 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 112 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf