Терминологический словарь автоматизации строительства и производственных процессов

Свидетельство о регистрации СМИ:
ЭЛ № ФС77-79395 от 02.11.2020

ISSN: 2782-1528

DOI 10.34660/c0727-6092-6372-a

Последнее обновление словаря: 14.05.2024 - 12:54
Категории

Обучение с подкреплением

Обучение с подкреплением (reinforcement learning) — машинное обучение, при котором используется функция вознаграждения для оптимизации функции поведения или функции общего подкрепления путем последовательного взаимодействия со средой.

Примечания.

1 Функция поведения или функция общего подкрепления отражает стратегию, которая была выучена в среде.

2 Средой может быть любая модель с отслеживанием состояния.

[ГОСТ Р (проект, первая редакция). Информационные технологии. Искусственный интеллект.]

Обучение с подкреплением — тип машинного обучения, при котором машины «обучаются» достижению своей целевой функции путем экспериментирования и вознаграждения. При обучении с подкреплением машина получает положительное подкрепление, когда его процессы приводят к желаемому результату, и отрицательное подкрепление, когда этого не происходит.

[Терминология искусственного интеллекта. (Электронный ресурс).  Режим доступа: http:// design-hero.ru›articles/468466//, свободный]

Обучение с подкреплением — это тип машинного обучения, при котором агент учится принимать решения на основе вознаграждений и наказаний. Пример: обучение с подкреплением используется в играх, робототехнике и автономном управлении транспортными средствами.

[50 терминов искусственного интеллекта. (Электронный ресурс).  Режим доступа: http:// pudie.ru›articles/704343/, свободный]

Обучение с подкреплением (RL) — область машинное обучение связано с тем, как программные агенты должны выполнять действия в среде, чтобы максимизировать некоторое понятие совокупного вознаграждения. Обучение с подкреплением является одной из трех основных парадигм машинного обучения, наряду с обучением с учителем и обучением без учителя. Оно отличается от обучения с учителем тем, что не требуется представлять помеченные пары ввода / вывода и не нужно явно корректировать неоптимальные действия. Вместо этого основное внимание уделяется поиску баланса между разведкой (неизведанной территории) и эксплуатацией (текущие знания).

[Глоссарий искусственного интеллекта. (Электронный ресурс). Режим доступа: http:// hrwiki.ru›wiki/Glossary_of_artificial_intelligence/, свободный.]

149 просмотров

Правообладателям! В случае если свободный доступ к данному термину является нарушением авторских прав, составители готовы, по требованию правообладателя, убрать ссылку, либо сам термин (определение) с сайта. Для связи с администрацией воспользуйтесь формой обратной связи.