GPT-4 as a TA: A Study on Automated Feedback for Introductory Programming Assignments
2024 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
GPT-4 som en lärarassistent : En studie om automatiserad feedback för inledande programmeringsuppgifter (Swedish)
Abstract [en]
The increasing enrollment rates in computer science programs have posed significant challenges, particularly in providing timely and effective feedback to students in introductory programming courses. This research investigates the potential of OpenAI’s GPT-4, a Large Language Model (LLM), to automate feedback generation for student assignments, thereby alleviating some of the burdens on teaching staff. By evaluating the model’s effectiveness across three metrics—accuracy, correctness, and lucidity—this study aims to determine the feasibility of integrating GPT-4 into educational tools. Student submissions from the course DD1338: Algorithms and Data Structures were selected and artificially injected with common errors. GPT-4 was then prompted to generate feedback based on these submissions using two different prompting methods: one with assignment instructions included and one without. The study found that GPT-4 can identify errors and provide correct advice effectively, with minor differences between the prompting methods. However, the model exhibited a propensity for hallucinations, especially when task instructions were included, thereby impacting the lucidity of the feedback. The results indicate that while GPT-4 shows promise in automating feedback for programming assignments, its tendency to generate hallucinations necessitates human review.
Abstract [sv]
De ökande inskrivningssiffrorna i datavetenskapsprogram har inneburit betydande utmaningar, särskilt när det gäller att tillhandahålla snabb och effektiv feedback till studenter i introduktionskurser i programmering. Denna forskning undersöker potentialen hos OpenAI:s GPT-4, en stor språkmodell (LLM), för att automatisera feedbackgenerering för studentuppgifter och därmed lindra en del av bördan på undervisningspersonalen. Genom att utvärdera modellens effektivitet över tre parametrar—noggrannhet, korrekthet och klarhet—syftar denna studie till att avgöra om det är genomförbart att integrera GPT-4 i utbildningsverktyg. Studentinlämningar från kursen DD1338: Algoritmer och Datastrukturer valdes ut och försågs artificiellt med vanliga fel. GPT-4 ombads sedan att generera feedback baserat på dessa inlämningar med hjälp av två olika metoder: en med uppgiftsinstruktioner inkluderade och en utan. Studien fann att GPT-4 effektivt kan identifiera fel och ge korrekt rådgivning, med mindre skillnader mellan metoderna. Modellen visade dock en benägenhet för hallucinationer, särskilt när uppgiftsinstruktioner inkluderades, vilket påverkade feedbackens klarhet. Resultaten indikerar att även om GPT-4 visar lovande möjligheter att automatisera feedback för programmeringsuppgifter, kräver dess tendens att generera hallucinationer mänsklig granskning.
Place, publisher, year, edition, pages
2024. , p. 25
Series
TRITA-EECS-EX ; 2024:380
Keywords [en]
Computer Science Education, Large Language Models (LLMs), GPT-4
Keywords [sv]
Datavetenskap utbildning, Stor språkmodell, GPT-4
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-351172OAI: oai:DiVA.org:kth-351172DiVA, id: diva2:1886397
Supervisors
Examiners
2024-08-302024-08-012024-08-30Bibliographically approved