Proximal Policy Optimization
Proximal Policy Optimization (PPO) – популярный алгоритм обучения с подкреплением. Он оптимизирует стратегию агента плавно, не позволяя слишком «оторваться» от текущей политики. Это повышает стабильность обучения
Proximal Policy Optimization (PPO) – популярный алгоритм обучения с подкреплением. Он оптимизирует стратегию агента плавно, не позволяя слишком «оторваться» от текущей политики. Это повышает стабильность обучения
AlphaZero-style Training – метод итеративной самоигры с поиском (MCTS) и обучением нейросети. Агент с нуля учится сложным играм (шахматы, го) без заранее предоставленных данных: он играет
Model-free RL – классический подход RL, где агент прямо учится максимизировать награду без построения модели среды (например, Q-learning, Policy Gradients). Быстрее настраивается, но требует больше опытов,
Trust Region Policy Optimization (TRPO) – предшественник PPO: алгоритм RL, который гарантирует, что новая политика не слишком сильно отклоняется от старой (ограничивает «радиус доверия» изменений). Позволяет
Soft Actor-Critic (SAC) – RL-алгоритм, комбинирующий обучение с максимизацией энтропии (случайности) в действиях. Агент обучается выбирать не только наградо-оптимальные, но и «интересные» действия, что ускоряет обучение
Model-based RL – метод RL, где агент строит модель среды (прогноз переходов и наград) и планирует внутри неё. Это позволяет более эффективно учиться, используя предсказания. [Искусственный
World Models – идея, что агент создает внутреннюю «модель мира» (часто нейросеть), позволяющую симулировать среду и планировать в уме. Модель обучается предсказывать последствия действий (назад-прям) и
Самоигра (Self-Play) – агенты обучаются, играя сами с собой. В знаменитом AlphaZero, например, агент учился играть в шахматы, играя тысячи партий с собой и улучшая
Обучение по «учебной программе» (Curriculum Learning) – метод, при котором задачи усложняются постепенно, как в обучении человека: сначала простые пробы, затем сложнее. Например, робот сначала учится
Inverse Reinforcement Learning (обратное RL) – подход, где модель пытается вывести функцию вознаграждения эксперта по его поведению. Другими словами, по тому, как действовал опытный агент, система