⚠️ Потрібен JavaScript

Ця інтерактивна симуляція потребує JavaScript для роботи.
Будь ласка, увімкніть його в налаштуваннях браузера.

Інтерактивна симуляція Q-learning у сітковому лабіринті 8×8. Агент отримує нагороди: ціль +10, вогонь −5, стіна −1, крок −0.1. Q-таблиця оновлюється через рівняння Беллмана. Теплова карта відображає максимальне Q-значення.Стрілки стратегії показують жадібну дію. ε-жадібне дослідження убуває з кожним епізодом.

← Машинне навчання

Навчання з підкріпленням 🎮

Епізод0

Кроки/еп.0

ε (дослідж.)1.00

Нагорода0.00

↩ = старт

⭐ = ціль +10

🔥 = вогонь −5

Лабіринт

Параметри

ε (дослідж.)1.00

α (навч.)0.30

γ (дисконт)0.95

Швидкість