Больше, чем зрение: TacUMI совершенствует манипуляции роботов с помощью мультимодальной тактильной обратной связи

Breaking News Robotics
Close-up of a robotic gripper with soft sensors holding a textured sphere, highlighted by dramatic studio lighting.
4K Quality
Хотя роботы научились эффективно обрабатывать визуальную информацию, они часто испытывают трудности с высокоточными задачами, требующими тонкого осязания. Новая система TacUMI устраняет этот пробел, интегрируя тактильные и силомоментные датчики в ручной демонстрационный интерфейс, что позволяет роботам обучаться сложной сборке электроники на примере действий человека.

В меняющемся ландшафте промышленной автоматизации роботы продемонстрировали выдающиеся способности в выполнении повторяющихся высокоскоростных задач под управлением сложных систем компьютерного зрения. Однако при столкновении со сценариями, «насыщенными контактами» — такими как продевание тонкого провода в разъем или сборка хрупких электронных компонентов — даже самые продвинутые визуальные системы часто достигают предела своих возможностей. Эти задачи требуют не только зрения; они нуждаются в тонком чувстве осязания и понимании физического сопротивления. Чтобы восполнить этот сенсорный пробел, исследовательская группа под руководством Tailai Cheng, Fan Wu и Kejia Chen разработала TacUMI — мультимодальный ручной интерфейс, предназначенный для фиксации сложного взаимодействия силы и тактильной обратной связи во время демонстраций человеком, что дает новый план того, как роботы могут обучаться сложным физическим взаимодействиям.

Ограничения робототехники, основанной только на зрении

Фундаментальная проблема современного обучения роботов заключается в «черном ящике» физического взаимодействия. Хотя существующие фреймворки, такие как Diffusion Policy и ACT, показали успех в задачах с коротким горизонтом планирования, они часто рассматривают демонстрацию как монолитный блок данных. Для сложных задач с длинным горизонтом, таких как монтаж кабеля, визуальных наблюдений и проприоцептивных данных робота — внутреннего ощущения положения собственных конечностей — часто оказывается недостаточно. Например, когда оператор-человек растягивает кабель для создания натяжения перед тем, как вставить его в слот, визуальные изменения могут быть незначительными, однако физическое состояние задачи существенно меняется. Не имея возможности «чувствовать» это натяжение, робот с трудом определяет переход между различными этапами операции, что приводит к сбоям в исполнении, когда окружающая среда даже незначительно отклоняется от обучающих данных.

Представляем TacUMI: мультимодальный прорыв

Опираясь на базовый Universal Manipulation Interface (UMI), исследователи из Technical University of Munich, Agile Robots SE и их партнеры из университетов Nanjing и Shanghai представили TacUMI. Эта система представляет собой компактный, совместимый с роботами захват, предназначенный для высокоточного сбора данных. В отличие от своих предшественников, которые в значительной степени полагались на камеры и оценку позы на основе SLAM (Simultaneous Localization and Mapping), TacUMI объединяет комплекс специализированных датчиков: сенсоры ViTac на кончиках пальцев для тактильного картирования высокого разрешения, шестиосевой (6D) силомоментный датчик на запястье и высокоточный трекер 6D-позы. Этот ансамбль позволяет синхронно получать визуальные, силовые и тактильные модальности, создавая богатый многомерный набор данных о ловкости человеческих рук.

Улавливая человеческое прикосновение

Конструкция оборудования TacUMI специально разработана для устранения «шума», обычно связанного с ручными демонстрационными устройствами. Одной из отличительных особенностей является механизм захвата с возможностью непрерывной блокировки. В традиционных ручных устройствах сила, прикладываемая человеком для удержания захвата, может мешать датчикам записывать фактические силы взаимодействия между инструментом и объектом. Позволяя оператору заблокировать захват после фиксации объекта, TacUMI гарантирует, что силомоментные датчики записывают только «чистые» данные о взаимодействии в рамках самой задачи. Это позволяет людям естественно демонстрировать деликатные задачи, в то время как устройство фиксирует взаимодействия с высоким натяжением — такие, как при манипулировании деформируемыми линейными объектами (DLO) — без проскальзывания или искажения данных датчиков.

Семантическая сегментация и декомпозиция задач

Основным вкладом исследования является разработка системы мультимодальной сегментации, использующей временные модели, в частности сеть двунаправленной долгой краткосрочной памяти (BiLSTM). Цель этого фреймворка — разложить демонстрации с длинным горизонтом на семантически значимые «навыки» или модули. Обрабатывая синхронизированные потоки тактильных, силовых и визуальных данных, модель может обнаруживать границы событий: точный момент захвата кабеля, момент приложения натяжения и момент его успешной фиксации. Такая декомпозиция имеет решающее значение для иерархического обучения, при котором робот сначала осваивает отдельные двигательные навыки, а затем обучается высокоуровневому координатору для их эффективного выстраивания в последовательность, что делает процесс обучения более масштабируемым и интерпретируемым, чем подходы сквозного обучения (end-to-end).

Практический пример: освоение тонкой сборки электроники

Чтобы подтвердить эффективность TacUMI, исследователи оценили систему на сложной задаче монтажа кабеля — обязательном элементе сборки электроники, который остается трудным для автоматизации. Эксперимент требовал от оператора взять кабель, перемещаться в загроможденной среде, создать определенное натяжение и вставить разъем в точное гнездо. Результаты были впечатляющими: система достигла точности сегментации более 90 процентов. Важно отметить, что исследование выявило значительное улучшение показателей по мере добавления новых модальностей. В то время как модели, основанные только на зрении, часто не могли отличить фазу «натяжения» от фазы «вставки», включение тактильных и силовых данных позволило модели с высокой точностью определять границы переходов, доказывая, что мультимодальное сенсорное восприятие необходимо для понимания задач, насыщенных контактами.

Роль межведомственного сотрудничества

Разработка TacUMI представляет собой результат значительного сотрудничества нескольких престижных институтов. Ведущий автор Tailai Cheng, связанный как с Technical University of Munich, так и с Agile Robots SE, работал вместе с Kejia Chen, Lingyun Chen и другими коллегами над совершенствованием интеграции аппаратного и программного обеспечения. Вклад Fan Wu из Shanghai University и Zhenshan Bing из Nanjing University сыграл важную роль в разработке алгоритмической базы, позволяющей системе обобщать данные, полученные различными методами сбора. Интересно, что исследователи продемонстрировали: модель, обученная на данных, собранных с помощью TacUMI, может быть развернута на наборах данных, полученных с помощью традиционного дистанционного управления роботами (телеоперации), достигая сопоставимой точности и демонстрируя универсальность системы для различных воплощений роботов.

Будущие направления обучения роботов по демонстрации

Успех интерфейса TacUMI открывает несколько новых путей для области обучения роботов по демонстрации (LfD). Предоставляя практическую основу для масштабируемого сбора высококачественных мультимодальных данных, система приближает нас к достижению человекоподобной тактильной чувствительности в автономных системах. Исследователи предполагают, что следующие шаги будут включать адаптацию TacUMI для еще более разнообразных и непредсказуемых промышленных применений, таких как работа с мягкими материалами и сложная сборка с использованием нескольких инструментов. По мере того как роботы выходят из жестких заводских условий в более динамичные среды, способность «чувствовать» свой путь через выполнение задачи — обеспечиваемая такими устройствами, как TacUMI — вероятно, станет столь же фундаментальной, как и способность видеть.

Значение для робототехнической отрасли

Для робототехнической отрасли в целом TacUMI знаменует собой отход от зависимости от дорогих и громоздких систем телеоперации. Снижая барьер для сбора сложных тактильных данных, этот ручной интерфейс позволяет быстрее проводить итерации в обучении роботов. В таких секторах, как производство электроники и бытовое обслуживание, где цена ошибки высока, а сложность задач огромна, возможность разбивать долгосрочные действия на обучаемые модули, учитывающие тактильную информацию, может резко сократить время, необходимое для внедрения автономных решений. Как отмечают Fan Wu и исследовательская группа, интеграция этих сенсорных модальностей — это не просто техническое обновление; это необходимая эволюция для роботов, предназначенных для работы в физическом мире, определяемом осязанием и сопротивлением.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Что такое манипуляционный интерфейс TacUMI?
A TacUMI — это портативный интерфейс сбора данных следующего поколения, расширяющий семейство Universal Manipulation Interface (UMI) за счет интеграции мультимодальных сенсорных возможностей. Он включает синхронизированную тактильную чувствительность с помощью сенсоров ViTac на кончиках пальцев, установленный на запястье датчик силы-момента (F/T) и бездрейфовое отслеживание положения в 6 степенях свободы (6-DoF) в компактном корпусе захвата, совместимого с роботами. Это обеспечивает высококачественное получение мультимодальных демонстраций для задач манипулирования с интенсивным контактом и длительным горизонтом планирования, таких как монтаж кабелей, благодаря механизму непрерывной фиксации для стабильного захвата и получения чистых данных о внешнем взаимодействии. Интерфейс поддерживает управление одной рукой и облегчает точную сегментацию задач с использованием временных моделей, достигая точности более 90% при тестировании.
Q Как тактильные датчики улучшают обучение роботов?
A Тактильные датчики улучшают обучение роботов, предоставляя богатую контактную информацию, такую как текстура, трение, проскальзывание и давление, что позволяет лучше воспринимать свойства объектов, которые невозможно определить только с помощью зрения. Они повышают эффективность задач манипулирования за счет стратегий активного исследования, обучения через подражание на основе человеческих демонстраций с эффективным использованием данных и мультимодальной интеграции со зрением. Это приводит к более высоким показателям успеха, например, 95% при захвате различных объектов и улучшению более чем на 40% в задачах с интенсивным контактом, таких как зажигание спичек. Такая обратная связь позволяет роботам адаптировать захват, распознавать состояния и обобщать навыки для новых сценариев с минимальным объемом обучающих данных.
Q Могут ли роботы выполнять сложные задачи по монтажу кабелей?
A Да, роботы могут выполнять сложные задачи по монтажу кабелей, используя специализированные системы, такие как ИИ-системы 3D-зрения для распознавания трасс кабелей и их продевания через панели, мягкие захваты с тактильными датчиками для манипулирования гибкими кабелями и параллельные роботы с тросовым приводом для точной работы с крупными конструкциями. Эти технологии обеспечивают точную прокладку, вставку и сборку автомобильных жгутов проводов, промышленного оборудования и строительных конструкций, повышая эффективность и безопасность по сравнению с ручными методами. Представленная статья о TacUMI дополнительно подтверждает это, демонстрируя улучшение робототехнических манипуляций за счет мультимодальной тактильной обратной связи для подобных задач.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!