超越视觉:TacUMI 通过多模态触觉反馈提升机器人操作能力

Breaking News 机器人技术
Close-up of a robotic gripper with soft sensors holding a textured sphere, highlighted by dramatic studio lighting.
4K Quality
虽然机器人已经能够熟练处理视觉信息,但在处理需要细腻触觉的高精度任务时往往表现不佳。全新的 TacUMI 系统通过将触觉和力-扭矩传感器集成到手持演示接口中,弥补了这一差距,使机器人能够通过模仿人类触觉来学习复杂的电子组装任务。

在不断发展的工业自动化领域,机器人已经在复杂的计算机视觉引导下,表现出了执行重复性、高速任务的卓越能力。然而,当面对“接触丰富”(contact-rich)的场景时——例如将细导线穿入连接器或组装精密的电子元件——即使是最先进的视觉系统也往往会遇到瓶颈。这些任务需要的不仅仅是视觉,还需要细微的触感和对物理阻力的理解。为了弥补这一感官鸿沟,由 Tailai Cheng、Fan Wu 和 Kejia Chen 领导的研究团队开发了 TacUMI,这是一种多模态手持接口,旨在捕捉人类演示过程中力与触觉反馈的复杂交互,为机器人如何学习复杂的物理交互提供了新的蓝图。

仅限视觉机器人的局限性

现代机器人学习面临的核心挑战在于物理交互的“黑盒”。虽然目前的框架(如 Diffusion Policy 和 ACT)在短程任务中取得了成功,但它们通常将演示视为一个整体的数据块。对于电缆安装等复杂的长程任务,视觉观测和机器人的本体感觉数据(机器人对自身肢体位置的内部感知)往往是不够的。例如,当人类操作员在将电缆插入插槽前拉伸电缆以产生张力时,视觉上的变化可能微乎其微,但任务的物理状态已经发生了显著转变。由于无法“感受到”这种张力,机器人很难识别操作不同阶段之间的转换,导致当环境与训练数据发生微小偏差时,执行就会失败。

TacUMI 简介:多模态突破

基于通用操作接口(UMI)的基础,来自 Technical University of Munich、Agile Robots SE(思灵机器人)以及南京大学和上海大学的合作伙伴的研究人员推出了 TacUMI。该系统是一个紧凑且与机器人兼容的夹持器,专为高保真数据采集而设计。与其严重依赖摄像头和基于 SLAM(即时定位与地图构建)位姿估计的前代产品不同,TacUMI 集成了一套专门的传感器:指尖上的 ViTac 传感器用于高分辨率触觉映射,腕部的六自由度 (6D) 力/力矩传感器,以及高精度 6D 位姿追踪器。这一组合实现了视觉、力和触觉模态的同步采集,创建了一个丰富的人类灵巧操作多维数据集。

捕捉人类的触感

TacUMI 的硬件设计专门用于消除手持演示设备中常见的“噪声”。其核心亮点之一是连续可锁定的夹爪机构。在传统的手持设备中,人类操作员为保持抓取而施加的力会干扰传感器记录工具与物体之间实际交互力的能力。通过允许操作员在物体固定后锁定夹持器,TacUMI 确保力/力矩传感器仅记录任务本身的纯净交互数据。这使得人类能够自然地演示精细任务,同时设备可以捕捉高张力交互——例如在可变形线性物体 (DLO) 操作中发现的交互——而不会出现滑动或传感器干扰。

语义分割与任务分解

该研究的核心贡献是开发了一个利用时间模型(特别是双向长短期记忆网络 BiLSTM)的多模态分割框架。该框架的目标是将长程演示分解为具有语义意义的“技能”或模块。通过处理同步的触觉、力和视觉数据流,该模型可以检测事件边界——抓取电缆的确切时刻、施加张力的时刻以及成功就位的时刻。这种分解对于分层学习至关重要,机器人首先学习单个动作技能,然后学习高级协调器来有效地对它们进行排序,使学习过程比端到端方法更具可扩展性和可解释性。

案例研究:精通精密电子组装

为了验证 TacUMI 的有效性,研究人员在一项具有挑战性的电缆安装任务上对系统进行了评估,这是电子组装中的一项重要内容,但目前仍难以实现自动化。实验要求操作员拿起电缆,在杂乱的环境中导航,产生特定的张力,并将连接器插入精确的底座。结果令人瞩目:系统实现了超过 90% 的分割准确率。至关重要的是,研究强调了随着更多模态的加入,性能得到了显著提升。虽然仅限视觉的模型通常无法区分“张紧”和“插入”阶段,但加入触觉和力数据后,模型能够以高精度锁定转换边界,证明了多模态感知对于理解接触丰富任务至关重要。

多机构协作的作用

TacUMI 的开发代表了多个著名机构之间的重要合作。第一作者 Tailai Cheng(隶属于 Technical University of Munich 和 Agile Robots SE)与 Kejia Chen、Lingyun Chen 以及其他同事共同完善了软硬件集成。来自上海大学的 Fan Wu 和南京大学的 Zhenshan Bing 的贡献,对于开发允许系统在不同数据采集方法之间进行泛化的算法框架起到了关键作用。有趣的是,研究人员证明,在 TacUMI 采集的数据上训练的模型,可以部署在通过传统机器人远程操作采集的数据集上,并获得相当的准确性,展示了该系统在不同机器人形态上的通用性。

从演示中学习机器人的未来方向

TacUMI 接口的成功为机器人从演示中学习 (LfD) 领域开辟了数条新途径。通过为大规模采集高质量、多模态数据提供实践基础,该系统使自主系统在实现类人触觉灵敏度方面更进一步。研究人员建议,接下来的步骤包括将 TacUMI 扩展到更多样化、更不可预测的工业应用中,例如软材料处理和复杂的工具组合装配。随着机器人走出僵化的工厂环境,进入更动态的环境,这种通过 TacUMI 等设备辅助的、在任务中“摸索”前进的能力,可能会变得与视觉能力一样基础。

对机器人行业的启示

对于更广泛的机器人行业而言,TacUMI 标志着一种转变,即摆脱对昂贵、笨重的远程操作设置的依赖。通过降低收集复杂触觉数据的门槛,这种手持接口允许机器人训练进行更快速的迭代。在电子制造和家庭服务等失败成本高且任务复杂性巨大的领域,将长程动作分解为可学习的、基于触觉感知的模块的能力,可以极大地缩短部署自主解决方案所需的时间。正如 Fan Wu 和研究团队指出的,这些感官模态的整合不仅是技术升级;对于旨在由触觉和阻力定义的物理世界中运行的机器人来说,这是一种必然的进化。

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q TacUMI 操控界面是什么?
A TacUMI 是一款下一代手持式数据采集界面,它通过将多模态传感能力集成到紧凑的机器人兼容夹爪设计中,扩展了通用操作界面(UMI)家族。其集成的传感能力包括通过指尖 ViTac 传感器实现的同步触觉感知、腕部安装的力/力矩(F/T)传感器以及无漂移的 6 自由度(6-DoF)位姿追踪。这使得它能够为接触密集型、长跨度操作任务(如电缆安装)获取高质量的多模态演示数据,并利用连续锁定机制确保稳定的抓取和纯净的外部交互数据。它支持单手操作,并有助于利用时间模型进行精确的任务分割,在评估中实现了超过 90% 的准确率。
Q 触觉传感器如何改进机器人学习?
A 触觉传感器通过提供丰富的接触信息(如纹理、摩擦力、滑动和压力),改进了机器人学习,使其能够更好地感知仅凭视觉无法检测到的物体属性。它们通过主动探索策略、基于人类演示的数据高效模仿学习以及与视觉的多模态集成,增强了操作任务的表现,使抓取多样化物品的成功率达到 95%,并在划火柴等接触密集型任务中提升了 40% 以上的性能。这种反馈允许机器人调整抓握方式、识别状态,并能以极少的训练数据泛化到新场景。
Q 机器人可以执行复杂的电缆安装任务吗?
A 是的,机器人可以使用专用系统执行复杂的电缆安装任务,例如用于识别电缆路径和穿过面板的 AI 3D 视觉系统、配备触觉传感器以操作柔性电缆的软体夹爪,以及用于精确处理大型结构的电缆驱动并联机器人。这些技术能够在汽车线束、工业设备和建筑领域实现精确的布线、插接和组装,比手动方法提高了效率和安全性。提供的关于 TacUMI 的文章通过为此类任务增强多模态触觉反馈的机器人操作,进一步支持了这一观点。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!