Proximal Policy Optimization (PPO) – популярный алгоритм обучения с подкреплением. Он оптимизирует стратегию агента плавно, не позволяя слишком «оторваться» от текущей политики. Это повышает стабильность обучения в стохастических средах.
[Искусственный интеллект.Терминология IT. The Angmar Core.(Электронный ресурс). Режим доступа: http://habr.com›ru/articles/929130//, свободный.]