En undersökning av fine-tuning, träffsäkerhet och acceptans av GPT-3.5 Turbo inom svensk matematikläxhjälp
2024 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
A study on fine-tuning, accuracy, and acceptance of GPT-3.5 Turbo in Swedish mathematics tutoring (English)
Abstract [sv]
Till följd av den imponerande utvecklingen av stora språkmodeller har många organisationer börjat undersöka möjligheterna att implementera och använda dem. En sådan organisation är Mattecoach.se, som önskar att implementera stora språkmodeller till att assistera deras digitala läxhjälpare inom matematik. I syfte att hjälpa Mattecoach.se och utöka den akademiska kunskapen om stora språkmodeller inom denna kontext, undersöker denna studie hur fine-tuning och språk kan påverka den matematiska korrektheten GPT-3.5 Turbo har på svenska matematikfrågor. Resultaten kommer dessutom att användas för att utvärdera huruvida GPT-3.5 Turbo skulle accepteras och faktiskt användas av läxhjälparna hos Mattecoach.se. Detta testas genom att fine-tune:a GPT-3.5 Turbo på det engelska PRM800k-datasetet och jämföra denna fine-tune:ade modells prestation med basmodellen GPT-3.5 Turbo på gamla svenska nationella provfrågor, och slutligen utvärdera de genererade svaren utifrån The Technology Acceptance Model. Båda modellerna presterade bättre på frågor som var ställda på engelska, och den fine-tune:ade modellen hade en 9,6% lägre korrekthet än basmodellen som uppnådde den högsta korrektheten med 58,0%. Efter en analys av svaren från modellerna, identifierades påtagliga problem med hallucinationer som kan vara missvisande för användare. Slutsatsen är att GPT-3.5 Turbo, både som basmodell och efter fine-tuning, inte är redo att användas för att assistera svensk matematikläxhjälp.
Abstract [en]
Following the impressive development of Large Language Models, many organizations are exploring how they may be implemented efficiently. One of these organizations is Mattecoach.se, which wishes to implement an LLM as an assistant to aid in their free digital Swedish mathematical tutoring service. Aiming to assist Mattecoach.se and to expand the academic understanding of LLMs implemented in the Swedish mathematics tutoring assistance context, this study explores how fine-tuning and language can affect the mathematical accuracy of GPT-3.5 Turbo on Swedish mathematics questions, and if the model is ready to be accepted and used by the tutors. This is tested by fine-tuning GPT-3.5 Turbo with the English PRM800K step-by-step dataset, benchmarking the fine-tuned and base GPT-3.5 Turbo models on the Swedish national exams, and finally evaluating the answers using the Technology Acceptance Model (TAM). The fine-tuned model was shown to have 9.6% lower accuracy than the base model, which scored the highest accuracy of 58.0%, and both models performed worse on questions posed in Swedish rather than English. Analysis of the answers using the TAM identified a crucial issue with repeated hallucinations, which may have a harmful misleading effect on users. The study concludes that GPT-3.5 Turbo in both its base and fine-tuned form is not ready for deployment as a Swedish mathematics tutoring assistant.
Place, publisher, year, edition, pages
2024. , p. 11
Series
TRITA-EECS-EX ; 2024:420
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351238OAI: oai:DiVA.org:kth-351238DiVA, id: diva2:1886734
Supervisors
Examiners
2024-09-192024-08-032024-09-19Bibliographically approved