RLHF (Reinforcement Learning from Human Feedback) – обучение с подкреплением на основе человеческой обратной связи. Сначала собираются ответы модели и люди оценивают их (что звучит более «человечно», «вежливо», «точно» и т.д.). На основе этих оценок строится «reward-модель», которая превращает качества ответа в числовую награду. Затем саму генеративную модель дообучают, чтобы она максимизировала эту награду. Цель – заставить ИИ соответствовать человеческим предпочтениям. Например, при машинном переводе RLHF помогает выбирать не просто «правильный», но и «естественный» вариант перевода.
[Искусственный интеллект. Терминология IT. The Angmar Core.(Электронный ресурс). Режим доступа: http://habr.com›ru/articles/929130//, свободный.]