Evaluating the Performance of Direct Preference Optimization in News Article Title Generation: A Comparative Analysis with Supervised Fine-Tuning
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
En utvärdering av prestandan av Direct Preference Optimization inom nyhetsartikeltitelgenerering : En jämförande analys med Supervised Fine-Tuning (Swedish)
Abstract [en]
Typically, Large Language Models (LLMs) are adapted to a specific task using large amounts of labeled training data. This process has been found to teach the LLM undesirable behavior, an issue that’s been effectively solved by a recent training method incorporating human preference, called Direct Preference Optimization (DPO). However, this method has largely been limited to instruction-based LLMs. This thesis seeks to evaluate the performance of Supervised Fine-Tuning (SFT) and DPO and several of its variations in a new, non-instruction-based context: news article title generation. However, due to the subjective nature of the task, simple objective measures are not enough, and the large number of DPO variations and hyperparameter values is infeasible to evaluate using only human evaluators. This thesis solves these issues by using a multi-step pipeline consisting of both objective and subjective metrics for model selection and evaluation. Using this method, this thesis finds that the most performant DPO variation as determined by objective measures did not perform significantly differently from the SFT variant of the same base model in either LLM or human evaluations. This indicates that either DPO was unable to learn the patterns of successful article titles better than SFT, or that the method used was unable to detect a difference that would have been found in real-world A/B testing. These results show that in some tasks no quality difference between DPO and SFT is detectable by human experts nor by an LLM. Hopefully, these conclusions will be helpful to future research in the area, and perhaps these conclusions could be confirmed or rejected using proper A/B testing.
Abstract [sv]
Typiskt anpassas stora språkmodeller (LLMs) till en specifik uppgift genom att använda stora mängder märkt träningsdata. Denna process har visat sig lära LLMs oönskade beteenden, ett problem som har lösts effektivt av en ny träningsmetod som inkorporerar mänskliga preferenser, kallad Direct Preference Optimization (DPO). Denna metod har dock huvudsakligen varit begränsad till instruktionbaserade LLMs. Denna uppsats syftar till att utvärdera prestandan hos SFT och DPO och flera av dess varianter i ett nytt, icke-instruktionsbaserat sammanhang: generering av nyhetsartikelrubriker. På grund av den uppgiftens subjektiva natur är dock objektiva mått inte tillräckliga och det stora antalet DPO-varianter och hyperparametervärden är inte rimligt att utvärdera enbart med mänskliga bedömare. Denna uppsats löser dessa problem genom att använda en flerstegs-process bestående av både objektiva och subjektiva mått för modellval och utvärdering. Med denna metod finner denna uppsats att den bäst presterande DPO-varianten, enligt objektiva mätningar, inte presterade signifikant annorlunda än SFT-varianten av samma basmodell i varken mänskliga eller LLM-utvärderingar. Detta indikerar antingen att DPO inte kunde lära sig mönstren för framgångsrika artikeltitlar bättre än SFT, eller att den använda metoden inte kunde upptäcka en skillnad som skulle ha upptäckts i verkliga A/B-tester. Dessa resultat visar att det i vissa uppgifter inte går att upptäcka någon kvalitetsskillnad mellan DPO och SFT av varken mänskliga experter eller av en LLM. Förhoppningsvis kommer dessa slutsatser att vara till hjälp för framtida forskning inom området, och kanske kan dessa slutsatser bekräftas eller avfärdas med hjälp av riktiga A/B-tester.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 80
Series
TRITA-EECS-EX ; 2024:545
Keywords [en]
Machine learning, Title generation, Fine-tuning, Human feedback, Alignment
Keywords [sv]
Maskininlärning, Rubrikgenerering, Finjustering, Mänsklig återkoppling, Anpassning
National Category
Computer Sciences Computer Engineering
Identifiers
URN: urn:nbn:se:kth:diva-352816OAI: oai:DiVA.org:kth-352816DiVA, id: diva2:1895800
External cooperation
Schibsted ASA
Subject / course
Computer Science
Presentation
2022-06-18, via Zoom https://kth-se.zoom.us/my/anders, Lindstedtsvägen 3, Stockholm, 13:15 (English)
Supervisors
Examiners
2024-10-012024-09-062024-10-01Bibliographically approved