Алгоритм Q-обучения
Алгоритм Q-обучения (Q-learning) – это алгоритм обучения, основанный на ценностях. Алгоритмы на основе значений обновляют функцию значений на основе уравнения (в частности, уравнения Беллмана). В то время как другой тип, основанный