Mettre en pratique les algorithmes de reinforcement learning sur des cas concrets :
- Dynamic Programming sur l'environnement GridWorld PolicyEvaluation / PolicyIteration Value Iteration
- Méthode de Monte-Carlo sur TicTacToe Monte-Carlo ES Monte-Carlo on-policy (first visit / every visit) Monte-Carlo off-policy (first visit / every visit)
- Temportal Difference Learning GridWorld SARSA Q-Learning
- Tous les algorithmes précédents sur SOKOBAN