kth.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Comparison Between RLHF and RLAIF in Fine-Tuning a Large Language Model
KTH, School of Electrical Engineering and Computer Science (EECS).
KTH, School of Electrical Engineering and Computer Science (EECS).
2023 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Jämförelse mellan RLHF och RLAIF vid finjustering av en stor språkmodell (Swedish)
Abstract [sv]

Denna artikel undersöker fördelarna, nackdelarna och skillnaderna mellan förstärkningsinlärning från mänsklig återkoppling (RLHF) och förstärkningsinlärning från AI-återkoppling (RLAIF) i kontexten av finjustering av en stor språkmodell. RLHF har vanligtvis använts för att anpassa språkmodeller efter mänskliga preferenser genom att inkludera mänsklig feedback, medan RLAIF föreslår att man använder en AI-baserad metod för att ersätta mänsklig återkoppling. Studien fokuserar på resursanvändning, tidsåtgång och slutresultat genom att tillämpa dessa metoder på en språkmodell tränad inom området psykologi. Undersökningen jämför de två tillvägagångssätten baserat på deras förmåga att förbättra språkmodellen och anpassa den efter fördefinierade mänskliga preferenser. Ur ett samhälleligt och organisatoriskt perspektiv erbjuder RLAIF potentiella fördelar såsom ökad tids- och resurseffektivitet om det bevisas vara effektivt. Målet med denna forskning är att ge en omfattande förståelse för fördelarna, nackdelarna och skillnaderna mellan RLHF och RLAIF, så att de som är intresserade av att implementera någon av metoderna kan fatta informerade beslut baserade på sina mål och begränsningar. Utvärderingen beaktar resursanvändning och prestanda som uppnås genom att tillämpa dessa finjusteringsmetoder på en stor språkmodell. Undersökningen visade att användningen av AI-återkoppling i förstärkningsinlärning överträffade – dock utan statistisk signifikans – mänsklig återkoppling och gav bevis för att RLAIF är ett effektivt alternativ till RLHF. Genom att belysa dessa finjusteringsmetoder och deras effektivitetsparametrar bidrar denna forskning till den pågående utforskningen av optimala tillvägagångssätt för att förbättra stora språkmodeller och anpassa dem efter mänskliga preferenser.

Abstract [en]

This paper investigates the pros, cons, and distinctions between Reinforcement Learning from Human Feedback (RLHF) and Reinforcement Learning from AI Feedback (RLAIF) in the context of fine-tuning a large language model. RLHF has been commonly used to align language models with human preferences by incorporating human annotations, while RLAIF proposes using an AI-based approach to replace human feedback. The study focuses on resource utilization, time efficiency, and final results by applying these methods to a language model trained on psychology-related prompts. The research compares the two approaches based on their ability to improve the language model and align it with predefined human preferences. From a societal and organizational standpoint, RLAIF offers potential benefits such as increased time and resource efficiency if proven effective. The goal of this research is to provide a comprehensive understanding of the advantages, disadvantages, and distinctions between RLHF and RLAIF, anyone interested in implementing either method to make informed decisions based on their goals and constraints. The evaluation considers resource utilization and performance achieved by applying these fine-tuning methods to a large language model. The research found that the usage of AI feedback in reinforcement learning received a higher average score - albeit not statistically significant - than human feedback. This points towards RLAIF being an effective alternative to RLHF. By shedding light on these fine-tuning methods and their efficiency parameters, this research contributes to the ongoing exploration of optimal approaches for improving large language models and aligning them with human preferences.

Place, publisher, year, edition, pages
2023. , p. 9
Series
TRITA-EECS-EX ; 2023:455
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-331926OAI: oai:DiVA.org:kth-331926DiVA, id: diva2:1782683
Supervisors
Examiners
Available from: 2023-08-02 Created: 2023-07-15 Last updated: 2023-08-02Bibliographically approved

Open Access in DiVA

fulltext(411 kB)1693 downloads
File information
File name FULLTEXT01.pdfFile size 411 kBChecksum SHA-512
5b3ec8a772d085fc3d37a06cab5834de672045f70180e37c81063497eede7a553418dffcc785c36a929a0fc14ab534e1489e5bac3c89fcb6b58f9c2ad11ecbb5
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 1694 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 5183 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf