Reinforcement learning is a machine learning field which has received revitalised interest in later years due to many success stories and advancements in deep reinforcement learning. A key part in reinforcement learning is the need for exploration of the environment so the agent can properly learn the best policy. This can prove a difficult task when reward is rarely found in hard exploration scenarios, and robustly solving these scenarios is a key problem in order to generalise reinforcement learning. Multi step learning is a tool often used in reinforcement learning in order to boost performance and has it’s roots in the early development of the field. This work investigates whether the multi step learning via n-step learning have a heightened effect in scenarios when reward is sparse, making the environment hard to explore. This due to the property of multi step learning to use more rewards and states per update, potentially better distributing reward when found. This was investigated by performing several experiments in a custom made environment where reward sparsity, n-step and exploration method is varied independently of each other. The results showed that the n-step had considerable effect on results in all cases. There was an optimal n higher than 1 and performance diverged when n was lowest. In low n-steps the agents displayed behavior of temporarily degrading performance while for higher n-steps performance improved consistently during all parts of training. Since the effect of n-step learning was universal in all scenarios and profoundly affected performance the conclusion to be made is that multi step learning does not have an elevated effect in low reward scenarios and thus does not need to considered especially when dealing with hard exploration scenarios more so than environments with higher reward densities. The conclusion is also that n-step learning is a very sensitive parameter which must considered in all scenarios.
Förstärkande inlärning är ett fält inom maskininlärning som har fått förnyat intresse på senare år attribuerat till de många framgångar och framsteg som har gjorts inom djup förstärkande inlärning. En nyckeldel inom förstärkande inlärning är behovet av att utforska miljön som agenten befinner sig i så att den kan hitta den bästa strategin. Detta kan vara väldigt svårt när belöning i systemet är väldigt sällsynt i svåra utforsknings scenarion. Att robust hantera dessa scenarion är ett viktigt problem för att förstärkande inlärning ska kunna generalisera till större problem. Multisteginlärning är ett verktyg ofta använt inom förstärkande inlärning för att öka prestanda, som har sina rötter i den tidiga utvecklingen av fältet. Detta verk undersöker om multisteginlärning genom n-steg inlärning har en förstärkt effekt i scenarion där belöning är glest fördelad, så att miljön blir svår att utforska. Detta för att multisteginlärning har en förmåga att potentiellt fördela fler belöningar i varje uppdatering till fler tillstånd. Detta undersöktes genom att genomföra flera experiment i en egen anpassad miljö där belöningsdensitet, n-steg och utforskningstrategi varierade oberoende av varandra. Resultaten visade att n-steg hade betydande effekt i alla fallen. Det fanns ett optimalt n-steg högre än 1, och prestanda divergerade när n-steget var lägst. I låga n-steg scenarion så visade agenterna ett beteende där de temporärt förlorade de framsteg de gjort, medans för högre n-steg så gjorde agenten konsistent framsteg under hela träningen. Eftersom effekten av n-steg var universell i all scenarion och hade betydande effekt på prestanda så är slutsatsen att multisteginlärning inte har en speciell betydelse i låg belöningsglesa scenarion och därför behöver man inte ta särskild hänsyn till detta när man hanterar svåra utforskningsmiljöer mer än andra miljöer med högre belöningsgleshet. Slutsatsen är också att n-steg är en känslig parameter som hänsyn måste tas till i alla scenarion.