ImageBind – архитектура (от Meta), связывающая разные модальности (картинки, текст, аудио, сенсоры) в единое представление. Модель учится связывать информацию из разных источников, что облегчает мультимодальные задачи: например, понимание речи по губам.
[Искусственный интеллект. Терминология IT. The Angmar Core. (Электронный ресурс). Режим доступа: http://habr.com›ru/articles /929130//, свободный.]