Терминологический словарь автоматизации строительства и производственных процессов

Реестровая запись:
ЭЛ № ФС77-79395 от 02.11.2020

ISSN: 2782-1528

DOI 10.34660/c0727-6092-6372-a

Последнее обновление словаря: 08.01.2026 - 14:50
Категории

Trust Region Policy Optimization

Trust Region Policy Optimization (TRPO) – предшественник PPO: алгоритм RL, который гарантирует, что новая политика не слишком сильно отклоняется от старой (ограничивает «радиус доверия» изменений). Позволяет безопаснее обновлять стратегию, но сложнее вычислительно.

[Искусственный интеллект.Терминология IT. The Angmar Core.(Электронный ресурс). Режим доступа: http://habr.com›ru/articles /929130//, свободный.]

49 просмотров

Правообладателям! В случае если свободный доступ к данному термину является нарушением авторских прав, составители готовы, по требованию правообладателя, убрать ссылку, либо сам термин (определение) с сайта. Для связи с администрацией воспользуйтесь формой обратной связи.