Терминологический словарь автоматизации строительства и производственных процессов

Реестровая запись:
ЭЛ № ФС77-79395 от 02.11.2020

ISSN: 2782-1528

DOI 10.34660/c0727-6092-6372-a

Последнее обновление словаря: 15.12.2025 - 21:41
Категории

Визуальные и мультимодальные модели

Multi-Agent Reinforcement Learning

Multi-Agent Reinforcement Learning (MARL) – обучение нескольких агентов в единой среде с учётом взаимодействия. Каждый агент учится принимать решения, учитывая возможные действия других. Применяется, например, в

Читать далее

Embodied AI 

Embodied AI – направление, связанное с реальными роботами и агентами в физическом мире. «Воплощённый» ИИ включает восприятие через датчики и действия в среде. Например, робота-наставника учат

Читать далее

Поиск мультимодальный

Поиск мультимодальный (Multimodal Retrieval) – системы, которые по запросу из одной модальности (например, текст) ищут релевантный контент в другой (например, изображения). Например, запрос «красный автомобиль» должен

Читать далее

Модели генерации описаний

Модели генерации описаний (Captioning Models) – модели, которые генерируют текстовые описания (подписи) к изображениям или видео. Например, DALL·E и Imagen могут не только создавать картинки, но

Читать далее

Заякоривание визуальное

Заякоривание визуальное (Visual Grounding) – задача связывания текста с элементами изображения. Например, если в описании сказано «человек слева красного цвета», модель должна указать именно этого человека

Читать далее

Механизм внимания кросс-модальный

Механизм внимания кросс-модальный (Cross-modal Attention) – расширение self-attention, где внимание модель вычисляет между элементами разных модальностей. Например, в мультимодальном трансформере каждый «токен» изображения может обращать внимание

Читать далее

Vision-Language Pre training

Vision-Language Pre training (VLP) – стратегия совместного предобучения на парах «изображение–текст». Обычно модель обучается генерировать подписи к картинке или восстанавливать текст по изображению. Цель – создать

Читать далее

Visual Question Answering

Visual Question Answering (VQA) – задачи, где модель отвечает на вопросы по изображению. Например, показывают картинку и спрашивают «Сколько людей на фото?» или «Какой цвет машины?»,

Читать далее

Segment Anything Model

Segment Anything Model (SAM) – универсальная модель сегментации изображений (Meta), способная находить и выделять объекты без дополнительной тренировки. Её обучили на огромной коллекции аннотированных изображений, чтобы

Читать далее

VAEs

VAEs (Variational Autoencoders) – автоэнкодеры особого вида, которые дополнительно моделируют распределение признаков. Они кодируют данные в параметризованное распределение (обычно нормальное) и затем семплируют оттуда при генерации.

Читать далее