Данные валидационные (Holdout data) или «выделенные, удержанные» данные, являющиеся частью Датасета (Dataset), предназначенного для тестирования, проверки работоспособности машинного обучения. Тестовые данные относятся к части предварительно размеченных данных, которые хранятся вне наборов данных, используемых для обучения и проверки контролируемых моделей машинного обучения. Их также можно назвать эталонными данными. Первым шагом в обучении с учителем является тестирование различных моделей на тестовых данных и оценка моделей на предмет прогнозируемой производительности. После того, как модель проверена и настроена с помощью набора проверочных данных, она тестируется с набором данных, чтобы выполнить окончательную оценку ее точности, чувствительности, специфичности и согласованности при прогнозировании правильных результатов.
[Чесалов А. Ю. Глоссариум по искусственному интеллекту: 2500 терминов/ А. Ю. Чесалов — «Издательские решения» 2022 г., 670 стр.]
Данные валидационные; проверочные данные (validation data, development data) — данные, используемые для сравнения показателей работы различных моделей-кандидатов.
Примечания.
1 Валидационные (проверочные) данные не пересекаются с тестовыми данными и, как правило, также и с обучающими данными. Однако в тех случаях, когда данных недостаточно для разделения их на три отдельных набора: обучающих, валидационных и тестовых данных, данные разделяются только на два набора: тестовый набор данных и обучающий (либо валидационный) набор данных. Кросс-валидация и обобщенная кросс-валидация (bootstrapping) являются распространенными методами, используемыми для последующего создания отдельных наборов данных для обучения и валидации из обучающего (либо валидационного) набора данных.
2 Валидационные данные могут использоваться для настройки гиперпараметров и для валидации определенных алгоритмических решений, вплоть до решений о включении заданного правила в экспертную систему.
[ГОСТ Р 71476-2024. Искусственный интеллект. Концепции и терминология искусственного интеллекта]
[ГОСТ Р ИСО/МЭК 22989–2022.Информационные технологии. Искусственный интеллект Концепции и терминология искусственного интеллекта]