Multi-Agent Reinforcement Learning
Multi-Agent Reinforcement Learning (MARL) – обучение нескольких агентов в единой среде с учётом взаимодействия. Каждый агент учится принимать решения, учитывая возможные действия других. Применяется, например, в
Multi-Agent Reinforcement Learning (MARL) – обучение нескольких агентов в единой среде с учётом взаимодействия. Каждый агент учится принимать решения, учитывая возможные действия других. Применяется, например, в
Embodied AI – направление, связанное с реальными роботами и агентами в физическом мире. «Воплощённый» ИИ включает восприятие через датчики и действия в среде. Например, робота-наставника учат
Поиск мультимодальный (Multimodal Retrieval) – системы, которые по запросу из одной модальности (например, текст) ищут релевантный контент в другой (например, изображения). Например, запрос «красный автомобиль» должен
Модели генерации описаний (Captioning Models) – модели, которые генерируют текстовые описания (подписи) к изображениям или видео. Например, DALL·E и Imagen могут не только создавать картинки, но
Заякоривание визуальное (Visual Grounding) – задача связывания текста с элементами изображения. Например, если в описании сказано «человек слева красного цвета», модель должна указать именно этого человека
Механизм внимания кросс-модальный (Cross-modal Attention) – расширение self-attention, где внимание модель вычисляет между элементами разных модальностей. Например, в мультимодальном трансформере каждый «токен» изображения может обращать внимание
Vision-Language Pre training (VLP) – стратегия совместного предобучения на парах «изображение–текст». Обычно модель обучается генерировать подписи к картинке или восстанавливать текст по изображению. Цель – создать
Visual Question Answering (VQA) – задачи, где модель отвечает на вопросы по изображению. Например, показывают картинку и спрашивают «Сколько людей на фото?» или «Какой цвет машины?»,
Segment Anything Model (SAM) – универсальная модель сегментации изображений (Meta), способная находить и выделять объекты без дополнительной тренировки. Её обучили на огромной коллекции аннотированных изображений, чтобы
VAEs (Variational Autoencoders) – автоэнкодеры особого вида, которые дополнительно моделируют распределение признаков. Они кодируют данные в параметризованное распределение (обычно нормальное) и затем семплируют оттуда при генерации.