kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Evaluating the Performance of Direct Preference Optimization in News Article Title Generation: A Comparative Analysis with Supervised Fine-Tuning
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
En utvärdering av prestandan av Direct Preference Optimization inom nyhetsartikeltitelgenerering : En jämförande analys med Supervised Fine-Tuning (Swedish)
Abstract [en]

Typically, Large Language Models (LLMs) are adapted to a specific task using large amounts of labeled training data. This process has been found to teach the LLM undesirable behavior, an issue that’s been effectively solved by a recent training method incorporating human preference, called Direct Preference Optimization (DPO). However, this method has largely been limited to instruction-based LLMs. This thesis seeks to evaluate the performance of Supervised Fine-Tuning (SFT) and DPO and several of its variations in a new, non-instruction-based context: news article title generation. However, due to the subjective nature of the task, simple objective measures are not enough, and the large number of DPO variations and hyperparameter values is infeasible to evaluate using only human evaluators. This thesis solves these issues by using a multi-step pipeline consisting of both objective and subjective metrics for model selection and evaluation. Using this method, this thesis finds that the most performant DPO variation as determined by objective measures did not perform significantly differently from the SFT variant of the same base model in either LLM or human evaluations. This indicates that either DPO was unable to learn the patterns of successful article titles better than SFT, or that the method used was unable to detect a difference that would have been found in real-world A/B testing. These results show that in some tasks no quality difference between DPO and SFT is detectable by human experts nor by an LLM. Hopefully, these conclusions will be helpful to future research in the area, and perhaps these conclusions could be confirmed or rejected using proper A/B testing.

Abstract [sv]

Typiskt anpassas stora språkmodeller (LLMs) till en specifik uppgift genom att använda stora mängder märkt träningsdata. Denna process har visat sig lära LLMs oönskade beteenden, ett problem som har lösts effektivt av en ny träningsmetod som inkorporerar mänskliga preferenser, kallad Direct Preference Optimization (DPO). Denna metod har dock huvudsakligen varit begränsad till instruktionbaserade LLMs. Denna uppsats syftar till att utvärdera prestandan hos SFT och DPO och flera av dess varianter i ett nytt, icke-instruktionsbaserat sammanhang: generering av nyhetsartikelrubriker. På grund av den uppgiftens subjektiva natur är dock objektiva mått inte tillräckliga och det stora antalet DPO-varianter och hyperparametervärden är inte rimligt att utvärdera enbart med mänskliga bedömare. Denna uppsats löser dessa problem genom att använda en flerstegs-process bestående av både objektiva och subjektiva mått för modellval och utvärdering. Med denna metod finner denna uppsats att den bäst presterande DPO-varianten, enligt objektiva mätningar, inte presterade signifikant annorlunda än SFT-varianten av samma basmodell i varken mänskliga eller LLM-utvärderingar. Detta indikerar antingen att DPO inte kunde lära sig mönstren för framgångsrika artikeltitlar bättre än SFT, eller att den använda metoden inte kunde upptäcka en skillnad som skulle ha upptäckts i verkliga A/B-tester. Dessa resultat visar att det i vissa uppgifter inte går att upptäcka någon kvalitetsskillnad mellan DPO och SFT av varken mänskliga experter eller av en LLM. Förhoppningsvis kommer dessa slutsatser att vara till hjälp för framtida forskning inom området, och kanske kan dessa slutsatser bekräftas eller avfärdas med hjälp av riktiga A/B-tester.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 80
Series
TRITA-EECS-EX ; 2024:545
Keywords [en]
Machine learning, Title generation, Fine-tuning, Human feedback, Alignment
Keywords [sv]
Maskininlärning, Rubrikgenerering, Finjustering, Mänsklig återkoppling, Anpassning
National Category
Computer Sciences Computer Engineering
Identifiers
URN: urn:nbn:se:kth:diva-352816OAI: oai:DiVA.org:kth-352816DiVA, id: diva2:1895800
External cooperation
Schibsted ASA
Subject / course
Computer Science
Presentation
2022-06-18, via Zoom https://kth-se.zoom.us/my/anders, Lindstedtsvägen 3, Stockholm, 13:15 (English)
Supervisors
Examiners
Available from: 2024-10-01 Created: 2024-09-06 Last updated: 2024-10-01Bibliographically approved

Open Access in DiVA

fulltext(2346 kB)194 downloads
File information
File name FULLTEXT01.pdfFile size 2346 kBChecksum SHA-512
7da7a79a08e8f753bf71dbde4761684b432e9a349132be92e4295618da49b1f61c40a34e90a3ea2c11bc6dbef264e9d285cb272c0ee7236a2422bb0e5e728d0c
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer SciencesComputer Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 194 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 232 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf