Терминологический словарь автоматизации строительства и производственных процессов

Реестровая запись:
ЭЛ № ФС77-79395 от 02.11.2020

ISSN: 2782-1528

DOI 10.34660/c0727-6092-6372-a

Последнее обновление словаря: 15.12.2025 - 21:41
Категории

RLHF

RLHF (Reinforcement Learning from Human Feedback) – обучение с подкреплением на основе человеческой обратной связи. Сначала собираются ответы модели и люди оценивают их (что звучит более «человечно», «вежливо», «точно» и т.д.). На основе этих оценок строится «reward-модель», которая превращает качества ответа в числовую награду. Затем саму генеративную модель дообучают, чтобы она максимизировала эту награду. Цель – заставить ИИ соответствовать человеческим предпочтениям. Например, при машинном переводе RLHF помогает выбирать не просто «правильный», но и «естественный» вариант перевода.

[Искусственный интеллект. Терминология IT. The Angmar Core.(Электронный ресурс). Режим доступа: http://habr.com›ru/articles/929130//, свободный.]

35 просмотров

Правообладателям! В случае если свободный доступ к данному термину является нарушением авторских прав, составители готовы, по требованию правообладателя, убрать ссылку, либо сам термин (определение) с сайта. Для связи с администрацией воспользуйтесь формой обратной связи.