Очистка данных (data cleansing) — процесс исправления или удаления неверных, поврежденных, неправильно отформатированных, дублированных или неполных данных в наборе данных.
[ГОСТ Р 59897-2021. Данные для систем искусственного интеллекта в образовании. Требования к сбору, хранению, обработке, передаче и защите данных]
Очистка данных (Data Cleansing) — обеспечение качества наборов данных. Для нахождения и исправления ошибочных записей данных в базе данных (базах данных), наборы данных тщательно проверяются.
[Глоссарий терминов машинного обучения. (Электронный ресурс). Режим доступа: http:// onff.ru›glossarij-terminov-mashinnogo-obucheniya/, свободный.]
Очистка данных — процесс повышения качества данных путём изменения их формы или содержания, например, путём удаления или исправления неверных значений. Этот этап обычно предшествует машинному обучению, хотя процесс выявления закономерностей может указывать на необходимость дальнейшей очистки и предлагать способы повышения качества данных. Например, если в выборке данных переписи населения в UCI обнаруживается, что закономерность «Жена подразумевает женщину» имеет несколько исключений, это может указывать на проблему с качеством.
[Рон Кохави, Фостер Провост. Специальный выпуск, посвящённый применению машинного обучения и процессу обнаружения знаний. (Электронный ресурс). Режим доступа: http://ai.stanford.edu› ~ronnyk/glossary.html /, свободный.]