kth.sePublikationer KTH
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
VARIQuery: VAE Segment-Based Active Learning for Query Selection in Preference-Based Reinforcement Learning
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Robotik, perception och lärande, RPL. KTH, Skolan för elektroteknik och datavetenskap (EECS), Centra, Digital futures.ORCID-id: 0000-0002-3510-5481
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Robotik, perception och lärande, RPL. KTH, Skolan för elektroteknik och datavetenskap (EECS), Centra, Digital futures.ORCID-id: 0000-0001-5727-8140
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Robotik, perception och lärande, RPL. KTH, Skolan för elektroteknik och datavetenskap (EECS), Centra, Digital futures.ORCID-id: 0000-0001-7461-920X
KTH, Skolan för elektroteknik och datavetenskap (EECS), Intelligenta system, Robotik, perception och lärande, RPL. KTH, Skolan för elektroteknik och datavetenskap (EECS), Centra, Digital futures.ORCID-id: 0000-0003-4173-2593
Visa övriga samt affilieringar
2023 (Engelska)Ingår i: 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems, IROS 2023, Institute of Electrical and Electronics Engineers (IEEE) , 2023, s. 7878-7885Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Human-in-the-loop reinforcement learning (RL) methods actively integrate human knowledge to create reward functions for various robotic tasks. Learning from preferences shows promise as alleviates the requirement of demonstrations by querying humans on state-action sequences. However, the limited granularity of sequence-based approaches complicates temporal credit assignment. The amount of human querying is contingent on query quality, as redundant queries result in excessive human involvement. This paper addresses the often-overlooked aspect of query selection, which is closely related to active learning (AL). We propose a novel query selection approach that leverages variational autoencoder (VAE) representations of state sequences. In this manner, we formulate queries that are diverse in nature while simultaneously taking into account reward model estimations. We compare our approach to the current state-of-the-art query selection methods in preference-based RL, and find ours to be either on-par or more sample efficient through extensive benchmarking on simulated environments relevant to robotics. Lastly, we conduct an online study to verify the effectiveness of our query selection approach with real human feedback and examine several metrics related to human effort.

Ort, förlag, år, upplaga, sidor
Institute of Electrical and Electronics Engineers (IEEE) , 2023. s. 7878-7885
Nationell ämneskategori
Datavetenskap (datalogi) Robotik och automation
Identifikatorer
URN: urn:nbn:se:kth:diva-342645DOI: 10.1109/IROS55552.2023.10341795ISI: 001136907802029Scopus ID: 2-s2.0-85182523595OAI: oai:DiVA.org:kth-342645DiVA, id: diva2:1831239
Konferens
2023 IEEE/RSJ International Conference on Intelligent Robots and Systems, IROS 2023, Detroit, United States of America, October 1-5, 2023
Anmärkning

Part of ISBN 978-1-6654-9190-7

QC 20250922

Tillgänglig från: 2024-01-25 Skapad: 2024-01-25 Senast uppdaterad: 2025-09-22Bibliografiskt granskad
Ingår i avhandling
1. Improving Sample-efficiency of Reinforcement Learning from Human Feedback
Öppna denna publikation i ny flik eller fönster >>Improving Sample-efficiency of Reinforcement Learning from Human Feedback
2025 (Engelska)Doktorsavhandling, sammanläggning (Övrigt vetenskapligt)
Abstract [en]

With the rapid advancement of AI, the technology has moved out of the industrial and lab setting and into the hands of everyday people. Once AI and robot agents are placed in everyday households they need to be able to take into account human needs. With methods like Reinforcement Learning from Human Feedback (RLHF), the agent can learn desirable behavior by learning a reward function or optimizing a policy directly based on their feedback. Unlike vision models and large language models (LLM) which benefit from internet-scale data, RLHF is limited by the amount of feedback provided since it requires additional human effort. In this thesis, we look into how we can decrease the amount of feedback humans provide to reduce their burden when estimating a reward function without degrading the estimate. We investigate the fundamental trade-off between the informativeness and efficiency of feedback from a preference-based learning perspective. In this regard, we introduce multiple methods that can be categorized into two groups, implicit methods that increase the quality of the feedback without additional human effort, and explicit methods that aim to drastically increase the information content by using additional feedback types. To implicitly improve the efficiency of preference feedback, we look into how we can utilize Active Learning (AL) to improve the diversity of samples by strategically picking from different clusters in a learned representation through a Variational Autoencoder (VAE). Furthermore, we make use of the unique relationship between preference pairs to perform data synthesis by interpolation on the latent space of the VAE. While the implicit methods have the benefit of requiring no extra effort, they still suffer from the limited amount of information that preferences alone can provide. One limitation of preferences on trajectories is that there is no discounting which means that if a trajectory is preferred, the assumption is that the whole trajectory is preferred leading to casual confusion. Therefore, we introduce a new form of feedback called highlights that lets the user show on the trajectory, which part was good and which part was bad. Furthermore, leveraging LLMs we create a method for letting humans explain their preferences via natural language to deduce which parts were preferred. Overall, this thesis takes a step away from the assumption of internet-scale data and shows how we can achieve alignment from less human feedback.

Abstract [sv]

Med den snabba utvecklingen av AI har teknologin lämnat den industriella och laboratoriebaserade miljön och hamnat i händerna på vanliga människor. När AI- och robotagenter placeras i vardagliga hushåll måste de kunna ta hänsyn till mänskliga behov. Med metoder som Reinforcement Learning from Human Feedback (RLHF) kan en agent lära sig önskvärt beteende genom att antingen lära sig en belöningsfunktion eller optimera en policy direkt baserat på mänsklig feedback. Till skillnad från visionsmodeller och stora språkmodeller (LLM), som gynnas av internet-skaliga datamängder, är RLHF begränsat av mängden feedback som ges, eftersom det kräver ytterligare mänsklig insats.I denna avhandling undersöker vi hur man kan minska mängden feedback som människor behöver ge för att minska deras börda vid estimering av en belöningsfunktion, utan att försämra uppskattningen. Vi undersöker den fundamentala avvägningen mellan informationsinnehållet och effektiviteten i feedback från ett preferensbaserat inlärningsperspektiv. I detta avseende introducerar vi flera metoder som kan kategoriseras i två grupper: implicita metoder, som förbättrar kvaliteten på feedback utan extra mänsklig ansträngning, och explicita metoder, som syftar till att drastiskt öka informationsinnehållet genom att använda ytterligare typer av feedback.För att implicit förbättra effektiviteten av preferensfeedback undersöker vi hur Active Learning (AL) kan användas för att förbättra mångfalden av urval genom att strategiskt välja från olika kluster i en inlärd representation med hjälp av en Variational Autoencoder (VAE). Vidare utnyttjar vi den unika relationen mellan preferenspar för att utföra datasyntes genom interpolation i VAE:s latenta utrymme.Även om de implicita metoderna har fördelen att de inte kräver extra ansträngning, lider de fortfarande av den begränsade mängd information som preferenser ensamma kan ge. En begränsning med preferenser på trajektorier är att det saknas diskontering, vilket innebär att om en trajektori föredras, antas det att hela trajektorin föredras, vilket kan leda till kausal förvirring. Därför introducerar vi en ny form av feedback, kallad highlights, där användaren kan markera på trajektorier vilka delar som var bra och vilka som var dåliga. Vidare utnyttjar vi LLM:er för att skapa en metod där människor kan förklara sina preferenser genom naturligt språk för att dra slutsatser om vilka delar som föredrogs.Sammanfattningsvis tar denna avhandling ett steg bort från antagandet om internet-skaliga datamängder och visar hur vi kan uppnå anpassning med mindre mänsklig feedback.

Ort, förlag, år, upplaga, sidor
Stockholm: KTH Royal Institute of Technology, 2025. s. ix, 64
Serie
TRITA-EECS-AVL ; 2025:31
Nyckelord
RLHF, Reinforcement Learning from Human Feedback, Reinforcement Learning, Machine Learning
Nationell ämneskategori
Data- och informationsvetenskap
Forskningsämne
Datalogi
Identifikatorer
urn:nbn:se:kth:diva-360983 (URN)978-91-8106-221-2 (ISBN)
Disputation
2025-04-01, https://kth-se.zoom.us/j/62755931085, F3 (Flodis), Lindstedtsvägen 26, Stockholm, 14:00 (Engelska)
Opponent
Handledare
Anmärkning

QC 20250307

Tillgänglig från: 2025-03-07 Skapad: 2025-03-07 Senast uppdaterad: 2025-12-16Bibliografiskt granskad
2. Towards safe, aligned, and efficient reinforcement learning from human feedback
Öppna denna publikation i ny flik eller fönster >>Towards safe, aligned, and efficient reinforcement learning from human feedback
2025 (Engelska)Doktorsavhandling, sammanläggning (Övrigt vetenskapligt)
Abstract [en]

Reinforcement learning policies are becoming increasingly prevalent in robotics and AI-human interactions due to their effectiveness in tackling complex and challenging domains. Many of these policies—also referred to as AI agents—are trained using human feedback through techniques collectively known as Reinforcement Learning from Human Feedback (RLHF). This thesis addresses three key challenges—safety, alignment, and efficiency—that arise when deploying these policies in real-world applications involving actual human users. To this end, it proposes several novel methods. Ensuring the safety of human-robot interaction is a fundamental requirement for their deployment. While most prior research has explored safety within discrete state and action spaces, we investigate novel approaches for synthesizing safety shields from human feedback, enabling safer policy execution in various challenging settings, including continuous state and action spaces, such as social navigation. To better align policies with human feedback, contemporary works predominantly rely on single-reward settings. However, we argue for the necessity of a multi-objective paradigm, as most human goals cannot be captured by a single valued reward function. Moreover, most robotic tasks have baseline predefined goals related to task success, such as reaching a navigation waypoint. Accordingly, we first introduce a method to align policies with multiple objectives using pairwise preferences. Additionally, we propose a novel multi-modal approach that leverages zero-shot reasoning with large language models alongside pairwise preferences to adapt multi-objective goals for these policies. The final challenge addressed in this thesis is improving the sample efficiency and reusability of these policies, which is crucial when adapting policies based on real human feedback. Since requesting human feedback is both costly and burdensome—potentially degrading the quality of human-agent interactions—we propose two distinct methods to mitigate these issues. First, to enhance the efficiency of RLHF, we introduce an active learning method that combines unsupervised learning techniques with uncertainty estimation to prioritize the most informative queries for human feedback. Second, to improve the reusability of reward functions derived from human feedback and reduce the need for redundant queries in similar tasks, we investigate low-rank adaptation techniques for adapting pre-trained reward functions to new tasks.

Abstract [sv]

Reinforcement learning-policyer blir allt vanligare inom robotik och AI-mänsklig interaktion tack vare deras effektivitet i att hantera komplexa och utmanande domäner. Många av dessa policyer – även kallade AI-agenter – tränas med hjälp av mänsklig återkoppling genom tekniker som kollektivt benämns Reinforcement Learning from Human Feedback (RLHF). Denna avhandling tar upp tre centrala utmaningar – säkerhet, anpassning och effektivitet – som uppstår vid implementering av dessa policyer i verkliga tillämpningar som involverar faktiska mänskliga användare. För detta ändamål föreslås flera nya metoder. Att säkerställa säkerheten i människa-robot-interaktion är en grundläggande förutsättning för deras implementering. Medan tidigare forskning främst har undersökt säkerhet inom diskreta tillstånds- och aktionsrum, undersöker vi nya metoder för att syntetisera säkerhetssköldar utifrån mänsklig återkoppling, vilket möjliggör säkrare policyutförande i olika utmanande miljöer, inklusive kontinuerliga tillstånds- och aktionsrum, såsom social navigation. För att bättre anpassa policyer till mänsklig återkoppling förlitar sig moderna arbeten huvudsakligen på inställningar med enstaka belöningar. Vi argumenterar dock för behovet av ett multiobjektivparadigm, eftersom de flesta mänskliga mål inte kan fångas av en belöningsfunktion med ett enda värde. Dessutom har de flesta robotuppgifter fördefinierade basmål kopplade till uppgiftsframgång, såsom att nå en navigationspunkt. Följaktligen introducerar vi först en metod för att anpassa policyer till flera mål genom parvisa preferenser. Dessutom föreslår vi en ny multimodal metod som utnyttjar zeroshot-reasoning med stora språkmodeller tillsammans med parvisa preferenser för att anpassa multiobjektiva mål för dessa policyer. Den sista utmaningen som behandlas i denna avhandling är att förbättra sampeleffektiviteten och återanvändbarheten hos dessa policyer, vilket är avgörande vid anpassning av policyer baserat på verklig mänsklig återkoppling. Eftersom insamling av mänsklig återkoppling både är kostsamt och betungande – och potentiellt försämrar kvaliteten på människa-agent-interaktioner – föreslår vi två olika metoder för att minska dessa problem. För det första introducerar vi en aktiv inlärningsmetod för att förbättra effektiviteten av RLHF genom att kombinera osuperviserade inlärningstekniker med osäkerhetsuppskattning för att prioritera de mest informativa förfrågningarna om mänsklig återkoppling. För det andra undersöker vi low-rank-anpassningstekniker för att anpassa förtränade belöningsfunktioner till nya uppgifter, vilket förbättrar återanvändbarheten av belöningsfunktioner från mänsklig återkoppling och minskar behovet av redundanta förfrågningar i liknande uppgifter.

Ort, förlag, år, upplaga, sidor
Stockholm: KTH Royal Institute of Technology, 2025. s. xi, 77
Serie
TRITA-EECS-AVL ; 2025:49
Nationell ämneskategori
Datavetenskap (datalogi)
Forskningsämne
Datalogi
Identifikatorer
urn:nbn:se:kth:diva-363515 (URN)978-91-8106-275-5 (ISBN)
Disputation
2025-06-05, Q2, Malvinas väg 10, Stockholm, 15:00 (Engelska)
Opponent
Handledare
Forskningsfinansiär
Wallenberg AI, Autonomous Systems and Software Program (WASP)
Anmärkning

QC 20250519

Tillgänglig från: 2025-05-20 Skapad: 2025-05-19 Senast uppdaterad: 2025-06-30Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopus

Person

Marta, DanielHolk, SimonPek, ChristianTumova, JanaLeite, Iolanda

Sök vidare i DiVA

Av författaren/redaktören
Marta, DanielHolk, SimonPek, ChristianTumova, JanaLeite, Iolanda
Av organisationen
Robotik, perception och lärande, RPLDigital futures
Datavetenskap (datalogi)Robotik och automation

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 228 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf