kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
En undersökning av fine-tuning, träffsäkerhet och acceptans av GPT-3.5 Turbo inom svensk matematikläxhjälp
KTH, School of Electrical Engineering and Computer Science (EECS).
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
A study on fine-tuning, accuracy, and acceptance of GPT-3.5 Turbo in Swedish mathematics tutoring (English)
Abstract [sv]

Till följd av den imponerande utvecklingen av stora språkmodeller har många organisationer börjat undersöka möjligheterna att implementera och använda dem. En sådan organisation är Mattecoach.se, som önskar att implementera stora språkmodeller till att assistera deras digitala läxhjälpare inom matematik. I syfte att hjälpa Mattecoach.se och utöka den akademiska kunskapen om stora språkmodeller inom denna kontext, undersöker denna studie hur fine-tuning och språk kan påverka den matematiska korrektheten GPT-3.5 Turbo har på svenska matematikfrågor. Resultaten kommer dessutom att användas för att utvärdera huruvida GPT-3.5 Turbo skulle accepteras och faktiskt användas av läxhjälparna hos Mattecoach.se. Detta testas genom att fine-tune:a GPT-3.5 Turbo på det engelska PRM800k-datasetet och jämföra denna fine-tune:ade modells prestation med basmodellen GPT-3.5 Turbo på gamla svenska nationella provfrågor, och slutligen utvärdera de genererade svaren utifrån The Technology Acceptance Model. Båda modellerna presterade bättre på frågor som var ställda på engelska, och den fine-tune:ade modellen hade en 9,6% lägre korrekthet än basmodellen som uppnådde den högsta korrektheten med 58,0%. Efter en analys av svaren från modellerna, identifierades påtagliga problem med hallucinationer som kan vara missvisande för användare. Slutsatsen är att GPT-3.5 Turbo, både som basmodell och efter fine-tuning, inte är redo att användas för att assistera svensk matematikläxhjälp.

Abstract [en]

Following the impressive development of Large Language Models, many organizations are exploring how they may be implemented efficiently. One of these organizations is Mattecoach.se, which wishes to implement an LLM as an assistant to aid in their free digital Swedish mathematical tutoring service. Aiming to assist Mattecoach.se and to expand the academic understanding of LLMs implemented in the Swedish mathematics tutoring assistance context, this study explores how fine-tuning and language can affect the mathematical accuracy of GPT-3.5 Turbo on Swedish mathematics questions, and if the model is ready to be accepted and used by the tutors. This is tested by fine-tuning GPT-3.5 Turbo with the English PRM800K step-by-step dataset, benchmarking the fine-tuned and base GPT-3.5 Turbo models on the Swedish national exams, and finally evaluating the answers using the Technology Acceptance Model (TAM). The fine-tuned model was shown to have 9.6% lower accuracy than the base model, which scored the highest accuracy of 58.0%, and both models performed worse on questions posed in Swedish rather than English. Analysis of the answers using the TAM identified a crucial issue with repeated hallucinations, which may have a harmful misleading effect on users. The study concludes that GPT-3.5 Turbo in both its base and fine-tuned form is not ready for deployment as a Swedish mathematics tutoring assistant.

Place, publisher, year, edition, pages
2024. , p. 11
Series
TRITA-EECS-EX ; 2024:420
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351238OAI: oai:DiVA.org:kth-351238DiVA, id: diva2:1886734
Supervisors
Examiners
Available from: 2024-09-19 Created: 2024-08-03 Last updated: 2024-09-19Bibliographically approved

Open Access in DiVA

fulltext(1038 kB)73 downloads
File information
File name FULLTEXT01.pdfFile size 1038 kBChecksum SHA-512
77c68f8d71c5284853c355124499962f057941e1e874f79e9fda7de18dadefb2a85c19d82fefe8f28aa773cf149d1bcd9f3cd9840060d15bed71feeb6933050a
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 73 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 102 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf