Обучение с подкреплением (reinforcement learning) — машинное обучение, при котором используется функция вознаграждения для оптимизации функции поведения или функции общего подкрепления путем последовательного взаимодействия со средой.
Примечания.
1 Функция поведения или функция общего подкрепления отражает стратегию, которая была выучена в среде.
2 Средой может быть любая модель с отслеживанием состояния.
[ГОСТ Р (проект, первая редакция). Информационные технологии. Искусственный интеллект.]
Обучение с подкреплением — тип машинного обучения, при котором машины «обучаются» достижению своей целевой функции путем экспериментирования и вознаграждения. При обучении с подкреплением машина получает положительное подкрепление, когда его процессы приводят к желаемому результату, и отрицательное подкрепление, когда этого не происходит.
[Терминология искусственного интеллекта. (Электронный ресурс). Режим доступа: http:// design-hero.ru›articles/468466//, свободный]
Обучение с подкреплением — это тип машинного обучения, при котором агент учится принимать решения на основе вознаграждений и наказаний. Пример: обучение с подкреплением используется в играх, робототехнике и автономном управлении транспортными средствами.
[50 терминов искусственного интеллекта. (Электронный ресурс). Режим доступа: http:// pudie.ru›articles/704343/, свободный]
Обучение с подкреплением (RL) — область машинное обучение связано с тем, как программные агенты должны выполнять действия в среде, чтобы максимизировать некоторое понятие совокупного вознаграждения. Обучение с подкреплением является одной из трех основных парадигм машинного обучения, наряду с обучением с учителем и обучением без учителя. Оно отличается от обучения с учителем тем, что не требуется представлять помеченные пары ввода / вывода и не нужно явно корректировать неоптимальные действия. Вместо этого основное внимание уделяется поиску баланса между разведкой (неизведанной территории) и эксплуатацией (текущие знания).
[Глоссарий искусственного интеллекта. (Электронный ресурс). Режим доступа: http:// hrwiki.ru›wiki/Glossary_of_artificial_intelligence/, свободный.]