ИИ-робот Грин от Сбера: новая эра технологий в России начинается
Технологии искусственного интеллекта (ИИ) и робототехники развиваются с каждым годом, и в последние годы России удалось значительно продвинуться в этом направлении. Одним из самых амбициозных проектов является робот, основанный на нейросети GigaChat, который способен не только взаимодействовать с людьми, но и выполнять реальные физические действия. Однако чтобы понять, как происходит взаимодействие текстовых команд и физических действий робота, важно разобраться в структуре и принципах работы этой уникальной технологии.
GigaChat — это не просто нейросеть, которая превращает текстовые команды в действия. Это целый ансамбль моделей, который включает как языковые модели, так и модели, работающие с визуальной информацией. Это и есть основа так называемой visual language модели (VLM). Суть заключается в том, что сначала текстовая нейросеть GigaChat понимает команду, после чего добавляется еще одна модель, которая воспринимает визуальные данные — что именно видит робот. Важно отметить, что на основе этих данных создается набор действий, которые могут быть трансформированы в конкретные движения робота.
Однако перед тем как нейросеть сможет трансформировать текстовую команду в физическое действие, необходимо пройти несколько этапов. Во-первых, текстовая модель GigaChat обрабатывает команду, а затем начинается процесс «перевода» этой команды в набор визуальных и физических действий. Это достигается благодаря интеграции visual language action модели, которая использует как информацию о мире, так и визуальные данные для формирования траекторий движения робота. Модель обучена управлять суставами (джойнтами) робота, что позволяет ему выполнять точные и скоординированные действия.
На данный момент эта технология является одной из самых передовых в мире, хотя в следующем году можно ожидать появление новых, еще более мощных решений. Однако одной из ключевых особенностей российской разработки является то, что она основана на GigaChat, базовой текстовой модели, которую команда специалистов постоянно дорабатывает и усовершенствует. Эта модель уже позволяет создавать более сложные и точные действия, а внедрение новых решений открывает возможности для еще большего прогресса.
Тем не менее, создание роботов на базе генеративного искусственного интеллекта не является простым процессом, и пришлось адаптировать многие существующие решения в робототехнике под новые задачи. Важно отметить, что вся работа в этой области не начинается с чистого листа. Специалисты опираются на исследования и разработки коллег по всему миру, которые публикуются в научных журналах, постоянно отслеживая новые идеи и интегрируя их в свою собственную технологическую платформу. Однако, когда речь идет о создании самого робота, пришлось начинать с нуля, так как существующие платформы не отвечали всем требованиям.
Например, робот Unitree G1, который в последние годы набрал популярность благодаря своим танцевальным движениям, прыжкам и сальто, оказался ограниченным в плане роста и функционала. Кроме того, в случае поломки этого робота его придется отправлять в сервисный центр, что может занять длительное время. В отличие от таких роботов, собственная антропоморфная платформа, созданная командой разработчиков, позволяет значительно ускорить процесс разработки и адаптации робота. Это открывает возможность быстрой модификации конечного продукта, что важно для быстрого реагирования на требования рынка.
Построение собственной аппаратной платформы, безусловно, добавляет определенные сложности, однако в конечном итоге это позволяет значительно улучшить функциональные возможности робота. В отличие от китайских производителей, для которых российский рынок не является основным, собственная платформа позволяет создавать кастомизированные решения, которые легко адаптируются под потребности конкретного пользователя.
Как бы ни развивалась эта технология, важно, что она позволяет роботу не просто выполнять заранее записанные действия, но и обучаться новым навыкам. На текущий момент многие из действий робота являются заранее записанными траекториями, которые нейросеть стабилизирует и воспроизводит. Однако дальнейшее развитие направлено на то, чтобы робот мог не только воспроизводить движения, но и обучаться новым действиям в процессе взаимодействия с людьми и окружающим миром.
В будущем разработчики планируют достичь уровня эмерджентности, когда новые навыки и поведение робота будут возникать из совокупности уже изученных данных. Такой подход позволит роботу с каждым новым обучением становиться все более гибким и адаптивным к изменениям внешней среды. Главной целью является создание такого технологического пайплайна, который позволит роботу не только выполнять предсказуемые задачи, но и генерировать новые действия в ответ на неожиданные ситуации.
Технология GigaChat в робототехнике — это не только очередной шаг в развитии ИИ, но и основа для создания более умных, гибких и автономных роботов, способных эффективно взаимодействовать с людьми и адаптироваться к окружающему миру. Уже сегодня такие роботы демонстрируют потрясающие результаты, но в будущем их возможности будут только расширяться.

