Zlepšení PPO pomocí vnitřních odměn: Studie v prostředí NetHack
Název práce v češtině: Zlepšení PPO pomocí vnitřních odměn: Studie v prostředí NetHack
Název v anglickém jazyce: Enhancing PPO with Intrinsic Rewards: A Study in the NetHack Environment
Klíčová slova: zpětnovazebné učení|optimalizace politik|vnitřní odměny
Klíčová slova anglicky: reinforcement learning|policy optimization|intrinsic rewards
Akademický rok vypsání: 2023/2024
Typ práce: bakalářská práce
Jazyk práce:
Ústav: Katedra teoretické informatiky a matematické logiky (32-KTIML)
Vedoucí / školitel: Mgr. Roman Neruda, CSc.
Řešitel: Pavel Yanushonak - zadáno a potvrzeno stud. odd.
Datum přihlášení: 29.02.2024
Datum zadání: 16.03.2024
Datum potvrzení stud. oddělením: 16.03.2024
Zásady pro vypracování
Proximal Policy Optimization (PPO), a reinforcement learning algorithm, has shown promise in environments requiring strategic long-term planning. However, its effectiveness in environments with sparse rewards and long-term dependencies remains less explored. NetHack's challenging and dynamic environment – characterized by its procedural generation, multitude of entities, sparse rewards, and long-term dependencies – makes it an ideal testbed for enhancing PPO's performance in such settings.

This thesis will investigate the potential of reward-augmenting techniques to significantly improve the learning and performance of PPO agents in complex environments with sparse extrinsic rewards. Specifically, the student will focus on Never Give Up (NGU), Random Network Distillation (RND), and Intrinsic Curiosity Module (ICM), applying them within a challenging and procedurally generated game environment like NetHack.

Seznam odborné literatury
