Объединение мультимодальное (Multimodal Fusion) – объединение различных источников данных (видео, звук, текст, изображения) в одном модели. Например, при генерации подписи к видео учитывается как визуальная дорожка, так и звук. Это может быть простая конкатенация признаков или более сложные механизмы (cross-modal attention).
[Искусственный интеллект. Терминология IT. The Angmar Core. (Электронный ресурс). Режим доступа: http://habr.com›ru /articles /929130/ /, свободный.]