Терминологический словарь автоматизации строительства и производственных процессов

Свидетельство о регистрации СМИ:
ЭЛ № ФС77-79395 от 02.11.2020

ISSN: 2782-1528

DOI 10.34660/c0727-6092-6372-a

Последнее обновление словаря: 14.05.2024 - 12:54
Категории

Алгоритм Q-обучения

Алгоритм Q-обучения (Q-learning) – это алгоритм обучения, основанный на ценностях. Алгоритмы на основе значений обновляют функцию значений на основе уравнения (в частности, уравнения Беллмана). В то время как другой тип, основанный на политике, оценивает функцию ценности с помощью жадной политики, полученной из последнего улучшения политики. Табличное Q-обучение (при обучении с подкреплением) представляет собой реализацию Q-обучения с использованием таблицы для хранения Q-функций для каждой комбинации состояния и действия. «Q» в Q-learning означает качество. Качество здесь показывает, насколько полезно данное действие для получения вознаграждения в будущем.

[Чесалов А. Ю. Глоссариум по искусственному интеллекту: 2500 терминов/  А. Ю. Чесалов —  «Издательские решения» 2022 г., 670 стр.]

61 просмотров

Правообладателям! В случае если свободный доступ к данному термину является нарушением авторских прав, составители готовы, по требованию правообладателя, убрать ссылку, либо сам термин (определение) с сайта. Для связи с администрацией воспользуйтесь формой обратной связи.