Терминологический словарь автоматизации строительства и производственных процессов

Реестровая запись:
ЭЛ № ФС77-79395 от 02.11.2020

ISSN: 2782-1528

DOI 10.34660/c0727-6092-6372-a

Последнее обновление словаря: 15.12.2025 - 21:41
Категории

генерация поведения

Proximal Policy Optimization

Proximal Policy Optimization (PPO) – популярный алгоритм обучения с подкреплением. Он оптимизирует стратегию агента плавно, не позволяя слишком «оторваться» от текущей политики. Это повышает стабильность обучения

Читать далее

AlphaZero-style Training 

AlphaZero-style Training – метод итеративной самоигры с поиском (MCTS) и обучением нейросети. Агент с нуля учится сложным играм (шахматы, го) без заранее предоставленных данных: он играет

Читать далее

Model-free RL 

Model-free RL – классический подход RL, где агент прямо учится максимизировать награду без построения модели среды (например, Q-learning, Policy Gradients). Быстрее настраивается, но требует больше опытов,

Читать далее

Trust Region Policy Optimization

Trust Region Policy Optimization (TRPO) – предшественник PPO: алгоритм RL, который гарантирует, что новая политика не слишком сильно отклоняется от старой (ограничивает «радиус доверия» изменений). Позволяет

Читать далее

Soft Actor-Critic

Soft Actor-Critic (SAC) – RL-алгоритм, комбинирующий обучение с максимизацией энтропии (случайности) в действиях. Агент обучается выбирать не только наградо-оптимальные, но и «интересные» действия, что ускоряет обучение

Читать далее

Model-based RL

Model-based RL – метод RL, где агент строит модель среды (прогноз переходов и наград) и планирует внутри неё. Это позволяет более эффективно учиться, используя предсказания. [Искусственный

Читать далее

World Models

World Models – идея, что агент создает внутреннюю «модель мира» (часто нейросеть), позволяющую симулировать среду и планировать в уме. Модель обучается предсказывать последствия действий (назад-прям) и

Читать далее

Самоигра

Самоигра (Self-Play)  – агенты обучаются, играя сами с собой. В знаменитом AlphaZero, например, агент учился играть в шахматы, играя тысячи партий с собой и улучшая

Читать далее

Обучение по «учебной программе»

Обучение по «учебной программе» (Curriculum Learning) – метод, при котором задачи усложняются постепенно, как в обучении человека: сначала простые пробы, затем сложнее. Например, робот сначала учится

Читать далее

Inverse Reinforcement Learning

Inverse Reinforcement Learning (обратное RL) – подход, где модель пытается вывести функцию вознаграждения эксперта по его поведению. Другими словами, по тому, как действовал опытный агент, система

Читать далее