Модели генерации описаний (Captioning Models) – модели, которые генерируют текстовые описания (подписи) к изображениям или видео. Например, DALL·E и Imagen могут не только создавать картинки, но и описывать, что изображено, поясняя предметы, действия, обстановку. Такие модели обучаются на парах «картинка–подпись».
[Искусственный интеллект.Терминология IT. The Angmar Core.(Электронный ресурс). Режим доступа: http://habr.com›ru/articles /929130//, свободный.]