Vision-Language Pre training (VLP) – стратегия совместного предобучения на парах «изображение–текст». Обычно модель обучается генерировать подписи к картинке или восстанавливать текст по изображению. Цель – создать общее представление, связывающее визуальные и языковые концепции. CLIP и DALL·E – примеры VLP-моделей.
[Искусственный интеллект. Терминология IT. The Angmar Core. (Электронный ресурс). Режим доступа: http://habr.com›ru/articles /929130//, свободный.]