Inverse Reinforcement Learning (обратное RL) – подход, где модель пытается вывести функцию вознаграждения эксперта по его поведению. Другими словами, по тому, как действовал опытный агент, система восстанавливает, что он пытался оптимизировать. Это полезно, когда трудно формализовать цели напрямую, но можно набрать примеры поведения «идеального» агента.
[Искусственный интеллект.Терминология IT. The Angmar Core.(Электронный ресурс). Режим доступа: http://habr.com›ru/articles /929130//, свободный.]