Как работают модели Vision-Language-Action (VLA)

Математические основы моделей Vision-Language-Action (VLA) для гуманоидных роботов и многого другого

Как роботы понимают разницу между изюмом, зелёным перцем и солонкой? Ещё важнее — как они могут научиться складывать футболку?

В этом вся магия моделей Vision-Language-Action (VLA).

Данная статья представляет собой краткое резюме современных моделей визуального языка (VLA), составленное на основе метаанализа последних «передовых» моделей и связанных с ними математических концепций.

Вы узнаете:

Полезные предположения
Математические основы
Реальные архитектуры нейронных сетей
Как обучаются VLA

Предварительные знания

Если какие-либо из следующих концепций вам незнакомы, стоит потратить время на их изучение: они охватывают ключевые компоненты современного управления многомодальными роботами на основе данных (особенно VLA).

Трансформеры — доминирующие архитектурные паттерны современных VLA содержат основу модели визуального языка (VLM), которая представляет собой трансформер-кодировщик визуальной информации и языка
Обучение представлениям — прогресс в VLA сильно движется оптимизацией изученных представлений или проекций в скрытое пространство для политик управления
Обучение путём имитации — обучение политикам действий на основе демонстрационных данных, полученных от человеческого движения или телеуправляемых робототехнических траекторий
Оптимизация политики — высокопроизводительные политики управления роботами часто реализуют комбинацию обучения путём имитации и оптимизации политики, создавая стохастическую политику, способную обобщаться на новые домены и задачи

Полезные предположения

Это ни в коем случае не абсолютные законы. По моему мнению, эти предположения полезны для понимания (и создания) агентов, которые взаимодействуют с миром.

Обучение представлениям в скрытом пространстве может быть основой интеллекта

Хотя это не доказано и чрезвычайно упрощено здесь, я считаю это истинным, исходя из следующего:

LLM и другие трансформер-модели не изучают грамматику английского языка или любого другого языка. Они изучают встраивание: отображение, которое геометрически проецирует токены или квантованные наблюдения в семантически похожие представления в N-мерном скрытом пространстве.
Некоторые ведущие исследователи AI, такие как Янн ЛеКун (с его Joint Embedding Predictive Architecture или JEPA), утверждают, что ИИ человеческого уровня требует «мировых моделей» (LeCun et al., «A Path Towards Autonomous Machine Intelligence»). Модель мира редко предсказывает в пиксельном пространстве, а предсказывает в скрытом пространстве, делая причинно-следственное рассуждение и предсказание абстрактными и управляемыми. Это дает роботу чувство «Если я уроню стакан, он разобьётся».
Из биологии, нейробиологи и «принцип свободной энергии» (Карл Фристон, «The Free-Energy Principle: A Unified Brain Theory?»). Глубоко сложная тема со множеством ветвей. На высоком уровне предполагает, что мозг делает предсказания и минимизирует ошибку (вариационную свободную энергию) на основе внутренних «скрытых» моделей. Когда я говорю скрытое, я также опираюсь на гипотезу нейронного многообразия (Gallego et al., «A Unifying Perspective on Neural Manifolds and Circuits for Cognition») применённую к этому пространству

Я понимаю, что это очень глубокое и сложное предположение, которое можно обсуждать. Однако было бы сложно возражать против теории обучения представлениям, учитывая, что все последние VLA используют проекции скрытого пространства в качестве основного строительного блока в своих архитектурах.

Имитация является фундаментальной для энергоэффективной и надёжной робототехнической локомоции

Почему потребовалось так долго, чтобы добиться правильной ходьбы? Нет человеческих экспертных предварительных знаний. Вот пример локомоции, продемонстрированный Google Deepmind в сравнении с DeepMimic, очень влиятельной работой, которая продемонстрировала необычайную эффективность обучения совместно с экспертными демонстрациями. Хотя энергия не измерялась явно, сравнение этих двух показывает влияние имитации на эффективную локомоцию гуманоида.

Пример 1: Из работы Deepmind «Emergence of Locomotion Behaviours in Rich Environments» (Heess et al., 2017)

Хотя это демонстрирует возникающее поведение, мы ясно видим, что гуманоид изучает энергетически неэффективные паттерны локомоции, которые часто не обобщаются, особенно в сложных средах.

Пример 2: DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills (Peng et al., 2018)

Когда компонент потерь имитации добавляется к стандартной целевой функции вознаграждения, локомоция становится плавнее, а агенты более эффективно обобщаются на новые домены.

О телеуправлении

Если было какое-либо сомнение, что Optimus использует телеуправление для своих роботов — вот видео, где парень снимает гарнитуру и робот падает.

Абсолютно смешно, конечно.

Телеуправление явно видно при обучении последних гуманоидов и даже в последних демонстрациях управления роботами.

Но телеуправление — это не плохое слово. На самом деле это необходимо. Вот как телеуправление может помочь в формировании и оптимизации политики.

Вместо того, чтобы робот пытался генерировать управляющие выходы с нуля (например, неловкие рывки из первых успешных политик управления гуманоидом), мы дополнили бы оптимизацию политики выборками из хорошего гладкого набора данных, который представляет правильную траекторию действий, выполненную человеком при телеуправлении.

Это означает, что по мере того, как робот учится формировать внутренние представления визуальных наблюдений, эксперт может предоставить точные данные управления. Таким образом, когда я говорю «переместить x в y», робот не только может изучить стохастическую надёжную политику, изученную с помощью методов оптимизации политики, но и клонировать с приоритетами имитации.

Хотя эталонные данные не были телеуправляемым движением, человеческие приоритеты движения и обучение путём имитации используются компанией Figure AI в их последней VLA: Helix 02: A Unified Whole-Body Loco-Manipulation VLA, содержащей дополнительную систему (S0), которая была обучена на переобозначенных целевых приоритетах человеческого движения и используется для стабильной локомоции всего тела.

Объявления о вакансиях компании, включая вакансию Humanoid Robot Pilot, укрепляют этот аргумент.

Понимание представлений скрытого пространства и создание богатых, управляемых экспертами данных траекторий — оба чрезвычайно полезны в области современного управления роботами.

Математические основы

Опять же, это не исчерпывающее резюме каждой леммы и доказательства, которые являются основополагающими, но достаточно, чтобы удовлетворить ваш интерес со ссылками на подробное изучение, если вы захотите.

Несмотря на кажущуюся сложность VLA-модели, по сути она сводится к простой задаче обучения обусловленной политике. Под этим я имею в виду, что нам нужна функция f(x), обычно обозначаемая в форме политики π_θ, которая отображает то, что робот видит и слышит (на естественном языке), на то, что он должен делать.

Эта функция дает выход действия (над всеми действиями, которые может выполнять робот) для каждого наблюдения (того, что оно видит и слышит) для каждого временного состояния. Для современных VLA это разбивается на последовательности с частотой всего 50 Гц.

Как мы получаем этот выход?

Формально рассмотрим робота, работающего в частично наблюдаемом марковском процессе принятия решений (POMDP). На каждом временном шаге t:

Робот получает наблюдение o_t, обычно RGB-изображение (или набор изображений или видеокадр) плюс внутреннее проприоцептивное состояние (углы суставов, состояние захвата).
Ему дается языковая инструкция l: строка на естественном языке вроде «подними банку кока-колы и переместись влево».
Оно должно создать действие a_t ∈ A, обычно вектор дельт конечного эффектора и команду захвата.

Задача VLA — изучить политику:

π_θ(a_t|o_t,l)

которая максимизирует вероятность успешного выполнения задачи в разнообразных средах, инструкциях и воплощениях. Некоторые формулировки обусловлены историей наблюдений, а не одним кадром, но большинство современных VLA работают с текущим наблюдением (или коротким окном) вместе с токенами целей и текущим проприоцептивным состоянием робота.

Как работают модели Vision-Language-Action (VLA)

Предварительные знания

Полезные предположения

Обучение представлениям в скрытом пространстве может быть основой интеллекта

Имитация является фундаментальной для энергоэффективной и надёжной робототехнической локомоции

О телеуправлении

Математические основы

Похожие материалы

Визуальное объяснение линейной регрессии

Руководство по анализу выживаемости на Python: использование моделей time-to-event для прогнозирования lifetime value клиента

Будущее ИИ в продажах — разнообразное и распределённое

Почему ИИ обучается на собственном мусоре (и как это исправить)