Механизм внимания кросс-модальный (Cross-modal Attention) – расширение self-attention, где внимание модель вычисляет между элементами разных модальностей. Например, в мультимодальном трансформере каждый «токен» изображения может обращать внимание на «токены» текста и наоборот. Это позволяет одному модулю «видеть» контекст другого.
[Искусственный интеллект.Терминология IT. The Angmar Core.(Электронный ресурс). Режим доступа: http://habr.com›ru/articles /929130//, свободный.]