Trust Region Policy Optimization (TRPO) – предшественник PPO: алгоритм RL, который гарантирует, что новая политика не слишком сильно отклоняется от старой (ограничивает «радиус доверия» изменений). Позволяет безопаснее обновлять стратегию, но сложнее вычислительно.
[Искусственный интеллект.Терминология IT. The Angmar Core.(Электронный ресурс). Режим доступа: http://habr.com›ru/articles /929130//, свободный.]