Visual Question Answering (VQA) – задачи, где модель отвечает на вопросы по изображению. Например, показывают картинку и спрашивают «Сколько людей на фото?» или «Какой цвет машины?», а мульти модальная модель должна понять картинку и текст запроса. VQA тестирует способность моделей совместно обрабатывать визуальную информацию и естественный язык.
[Искусственный интеллект. Терминология IT. The Angmar Core. (Электронный ресурс). Режим доступа: http://habr.com›ru/articles /929130//, свободный.]