Open this publication in new window or tab >>2025 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
Reinforcement learning policies are becoming increasingly prevalent in robotics and AI-human interactions due to their effectiveness in tackling complex and challenging domains. Many of these policies—also referred to as AI agents—are trained using human feedback through techniques collectively known as Reinforcement Learning from Human Feedback (RLHF). This thesis addresses three key challenges—safety, alignment, and efficiency—that arise when deploying these policies in real-world applications involving actual human users. To this end, it proposes several novel methods. Ensuring the safety of human-robot interaction is a fundamental requirement for their deployment. While most prior research has explored safety within discrete state and action spaces, we investigate novel approaches for synthesizing safety shields from human feedback, enabling safer policy execution in various challenging settings, including continuous state and action spaces, such as social navigation. To better align policies with human feedback, contemporary works predominantly rely on single-reward settings. However, we argue for the necessity of a multi-objective paradigm, as most human goals cannot be captured by a single valued reward function. Moreover, most robotic tasks have baseline predefined goals related to task success, such as reaching a navigation waypoint. Accordingly, we first introduce a method to align policies with multiple objectives using pairwise preferences. Additionally, we propose a novel multi-modal approach that leverages zero-shot reasoning with large language models alongside pairwise preferences to adapt multi-objective goals for these policies. The final challenge addressed in this thesis is improving the sample efficiency and reusability of these policies, which is crucial when adapting policies based on real human feedback. Since requesting human feedback is both costly and burdensome—potentially degrading the quality of human-agent interactions—we propose two distinct methods to mitigate these issues. First, to enhance the efficiency of RLHF, we introduce an active learning method that combines unsupervised learning techniques with uncertainty estimation to prioritize the most informative queries for human feedback. Second, to improve the reusability of reward functions derived from human feedback and reduce the need for redundant queries in similar tasks, we investigate low-rank adaptation techniques for adapting pre-trained reward functions to new tasks.
Abstract [sv]
Reinforcement learning-policyer blir allt vanligare inom robotik och AI-mänsklig interaktion tack vare deras effektivitet i att hantera komplexa och utmanande domäner. Många av dessa policyer – även kallade AI-agenter – tränas med hjälp av mänsklig återkoppling genom tekniker som kollektivt benämns Reinforcement Learning from Human Feedback (RLHF). Denna avhandling tar upp tre centrala utmaningar – säkerhet, anpassning och effektivitet – som uppstår vid implementering av dessa policyer i verkliga tillämpningar som involverar faktiska mänskliga användare. För detta ändamål föreslås flera nya metoder. Att säkerställa säkerheten i människa-robot-interaktion är en grundläggande förutsättning för deras implementering. Medan tidigare forskning främst har undersökt säkerhet inom diskreta tillstånds- och aktionsrum, undersöker vi nya metoder för att syntetisera säkerhetssköldar utifrån mänsklig återkoppling, vilket möjliggör säkrare policyutförande i olika utmanande miljöer, inklusive kontinuerliga tillstånds- och aktionsrum, såsom social navigation. För att bättre anpassa policyer till mänsklig återkoppling förlitar sig moderna arbeten huvudsakligen på inställningar med enstaka belöningar. Vi argumenterar dock för behovet av ett multiobjektivparadigm, eftersom de flesta mänskliga mål inte kan fångas av en belöningsfunktion med ett enda värde. Dessutom har de flesta robotuppgifter fördefinierade basmål kopplade till uppgiftsframgång, såsom att nå en navigationspunkt. Följaktligen introducerar vi först en metod för att anpassa policyer till flera mål genom parvisa preferenser. Dessutom föreslår vi en ny multimodal metod som utnyttjar zeroshot-reasoning med stora språkmodeller tillsammans med parvisa preferenser för att anpassa multiobjektiva mål för dessa policyer. Den sista utmaningen som behandlas i denna avhandling är att förbättra sampeleffektiviteten och återanvändbarheten hos dessa policyer, vilket är avgörande vid anpassning av policyer baserat på verklig mänsklig återkoppling. Eftersom insamling av mänsklig återkoppling både är kostsamt och betungande – och potentiellt försämrar kvaliteten på människa-agent-interaktioner – föreslår vi två olika metoder för att minska dessa problem. För det första introducerar vi en aktiv inlärningsmetod för att förbättra effektiviteten av RLHF genom att kombinera osuperviserade inlärningstekniker med osäkerhetsuppskattning för att prioritera de mest informativa förfrågningarna om mänsklig återkoppling. För det andra undersöker vi low-rank-anpassningstekniker för att anpassa förtränade belöningsfunktioner till nya uppgifter, vilket förbättrar återanvändbarheten av belöningsfunktioner från mänsklig återkoppling och minskar behovet av redundanta förfrågningar i liknande uppgifter.
Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2025. p. xi, 77
Series
TRITA-EECS-AVL ; 2025:49
National Category
Computer Sciences
Research subject
Computer Science
Identifiers
urn:nbn:se:kth:diva-363515 (URN)978-91-8106-275-5 (ISBN)
Public defence
2025-06-05, Q2, Malvinas väg 10, Stockholm, 15:00 (English)
Opponent
Supervisors
Funder
Wallenberg AI, Autonomous Systems and Software Program (WASP)
Note
QC 20250519
2025-05-202025-05-192025-06-30Bibliographically approved