Модель мультимодальная (Multimodal model) – это текст и другие типы ввода (такие как графика, изображения и т. д.) и более специфичные для конкретной задачи. В мультимодальных средах модель преобразователей используется для создания прогнозов путем слияния текста и изображения. Различные входные данные объединяются, и поверх позиционных вложений добавляется встраивание сегмента, чтобы сообщить модели, какая часть входного вектора относится к тексту, а какая к изображению. Такая классификация возможна с предварительно обученной моделью.
[Чесалов А. Ю. Глоссариум по искусственному интеллекту: 2500 терминов/ А. Ю. Чесалов — «Издательские решения» 2022 г., 670 стр.]