GLEU, CHRF
GLEU, CHRF – метрики качества перевода и генерации. GLEU – модификация BLEU, более учитывающая порядок слов, CHRF – основана на совпадении n-грамм символов. Обе дают числовую
GLEU, CHRF – метрики качества перевода и генерации. GLEU – модификация BLEU, более учитывающая порядок слов, CHRF – основана на совпадении n-грамм символов. Обе дают числовую
Consistency Metrics (метрики согласованности) – измеряют, насколько модель последовательна в разных ответах или при незначительных изменениях вопроса. Например, если спросить модель дважды схожий вопрос и получить
Winogrande – датасет для оценки рассуждений над общим знанием и языковой логикой. Содержит предложения с неоднозначными местоимениями и требует контекстуального понимания. Метрика – доля правильно разрешённых
TruthfulQA – тестовый набор вопросов, на которые модель часто отвечает неправильно, демонстрируя «галлюцинации» или предвзятость. Метрика оценивает процент правдивых ответов. Помогает проверять, насколько ИИ-ассистент выдаёт надежные
BERTScore – метрика качества текстового вывода, основанная на эмбеддингах BERT: оценивает семантическое сходство генерируемого текста и эталона. Чем ближе векторные представления, тем выше оценка. Лучше отражает