Інтерактивна симуляція Q-learning у сітковому лабіринті 8×8. Агент отримує нагороди: ціль +10, вогонь −5, стіна −1, крок −0.1. Q-таблиця оновлюється через рівняння Беллмана. Теплова карта відображає максимальне Q-значення.Стрілки стратегії показують жадібну дію. ε-жадібне дослідження убуває з кожним епізодом.

← Машинне навчання

Навчання з підкріпленням 🎮

EN
Епізод0
Кроки/еп.0
ε (дослідж.)1.00
Нагорода0.00

↩ = старт
⭐ = ціль +10
🔥 = вогонь −5
Лабіринт
Параметри
ε (дослідж.)1.00
α (навч.)0.30
γ (дисконт)0.95
Швидкість