Обучение с разницей во времени — класс безмодельного обучения с подкреплением, которое изучает начальная загрузка из текущей оценки функции ценности. Эти методы выбирают из среды, например методы Монте-Карло, и выполняют обновления на основе текущих оценок, например методы динамического программирования.
[Глоссарий искусственного интеллекта. (Электронный ресурс). Режим доступа: http:// hrwiki.ru›wiki/Glossary_of_artificial_intelligence/, свободный.]