为什么康奈尔大学的 WatchHand 能将普通智能手表变为精准的手部追踪器

科技
Why Cornell’s WatchHand turns ordinary smartwatches into precise hand-trackers
康奈尔大学和韩国科学技术院(KAIST)的研究人员利用不可听见的声呐脉冲和设备端 AI,将安卓智能手表转变为实时手势追踪器。这是一种保护隐私且低成本的摄像头替代方案,但在用户行走或跑步时存在明显的局限性。

在伊萨卡(Ithaca)的一个实验室里,一名志愿者在空中双击拇指和食指,而戴在另一只手腕上的 Android 手表静静地记录下了这一动作并切换了歌曲。这次演示——作为 Cornell University 与 KAIST 合作的一项名为 WatchHand 的研究项目的一部分——仅使用了手表内置的扬声器和麦克风、人耳听不见的微声纳脉冲以及在设备上运行的小型机器学习模型。这项技术之所以引人注目,其核心事实在于:在普通市售智能手表上应用声纳技术,可以在不改变硬件或牺牲本地隐私的情况下,实现可用且连续的手部追踪。

这项技术的创新之处不在于利用声音测量距离,而在于研究人员将信号设计、声学建模和精密工程结合在一起,使现成设备能够实时重建手指和手腕的三维姿态。这一成果至关重要,因为它将先进的手势控制从实验室原型推向了数百万人已经佩戴的设备中,有望带来辅助交互界面、不显眼的 AR 控制,并为那些不信任摄像头的用户和监管机构提供了一条替代路径。

声纳技术引领普通智能手表走向隐私优先的控制模式

WatchHand 的首要卖点是它完全避开了视觉系统。该系统从手表扬声器发出简短的、人耳听不见的声纳脉冲;麦克风捕捉回波,然后由本地运行的神经网络将回波特征解码为关节角度和手指姿势。由于所有的音频感知和推理都发生在智能手表上,因此不会录制视频,不需要云端往返,敏感图像也永远不会离开设备。与基于摄像头的方案相比,这是一个真正的隐私优势——而这正是吸引欧洲监管机构和注重隐私的消费者的论点。

但隐私保护也伴随着权衡。声纳的空间分辨率比高端深度摄像头更粗糙,且在杂乱的房间中容易受到声学多径效应的影响;它还取决于手表是否戴在正确的手腕上且距离手部较近。尽管如此,对于许多任务——如手势快捷键、为灵活性有限的用户提供辅助控制,或者作为低能耗的 AR 输入方式——该系统在功能和隐私之间提供了一个极具吸引力的平衡。

声纳技术在普通硬件上实现手势追踪的奥秘

这项工程从材料清单上看似乎简单得近乎不可思议,但在执行上却十分复杂。WatchHand 利用手表原有的扬声器发出频率高于人类听力范围的微声纳脉冲。这些脉冲在手指和手部反射,带着微小的延迟和幅度变化返回到手表麦克风。研究人员训练了一个机器学习模型,将这些回波模式映射到三维手部姿态。至关重要的是,他们优化了模型和信号协议,使其能够适应当代 Android 智能手表的计算能力和功耗预算。

那么,声纳是如何在普通智能手表上实现手部追踪的呢?这是一种主动感知形式:手表通过主动探测周围环境而非被动观察。回波的飞行时间、相位和频率偏移携带了空间信息;机器学习模型则学习这些声学特征与手指关节角度之间复杂的非线性关系。在不增加新硬件的情况下实现这一突破,得益于紧凑的信号设计、消除环境噪声的鲁棒预处理,以及小到足以在设备端进行推理的神经模型。

这也解释了另一个 PAA 问题:在不增加新硬件的情况下实现这一切,并非声学领域的奇迹,而是实用的工程学——对扬声器/麦克风对的仔细校准、现有组件可以再现的不可见频段,以及将性能压榨进有限内存和 CPU 循环的定制化机器学习技术。

性能、局限与现实世界的权衡

团队邀请了约 40 名参与者,在多个手表型号、手腕侧向和噪声环境下,通过大约 36 小时的手势数据验证了 WatchHand。作为首个消费级原型,其结果令人印象深刻:在静态测试和典型的室内设置中,该系统能够可靠地识别广泛的手指配置和手腕旋转。它的延迟足够低,可以实现流畅的交互,并且在处理中等背景噪声时不会导致模型崩溃。

不过也有一些重要的注意事项。当佩戴者行走或处于其他运动状态时,准确性会下降,因为身体运动会引入多普勒频移,并改变回波的几何结构,其变化速度超过了模型训练时所能处理的范围。连续、全天候的追踪会消耗电池:短时爆发式感知和占空比循环可以缓解这一问题,但智能手表在运行全时高保真声纳时,电池续航不可避免地会受到影响。与摄像头相比,声纳通常比连续视频捕捉消耗更少的电量,并避免了繁重的 GPU 工作负载,但它并非完全没有消耗——设计者必须仔细选择占空比和交互模型,以平衡响应速度和电池耐用性。

应用场景:隐形打字、辅助控制和 AR 快捷键

WatchHand 的优势在于高价值的短促手势,而非完全取代键盘。团队演示了诸如通过拇指与食指敲击来控制媒体、利用细微的手指姿态进行菜单导航,以及通过手腕旋转进行滚动等指令。对于存在运动障碍或语言受限的用户,这些映射可以转化为辅助通信工具。在 AR 和 VR 领域,基于手表的声纳控制器消除了佩戴手套或携带外部追踪器的需要,为沉浸式交互提供了一条低阻力的切入路径。

开发人员还可以将声纳与手表的惯性传感器(IMU)相结合,构建在移动中更具鲁棒性的多模态分类器。这种混合方法解决了试验中发现的主要局限之一,也可能是产品团队首先会采取的实际路线:利用声纳获取细节,利用 IMU 处理大幅度动作。

欧洲工业和监管角度——为什么德国应该关注

对于欧洲的供应商和政策制定者来说,WatchHand 具有双重意义:它创造了对运行在通用硬件上的智能软件栈的需求,并避开了曾阻碍欧盟某些消费功能的摄像头隐私争议。德国制造商在低功耗系统、嵌入式机器学习和工业音频组件方面具有优势,可以在“隐私设计(privacy-by-design)”的旗帜下,引领此类功能进入消费设备。

此外还涉及竞争和标准问题。如果手表制造商采用基于声纳的 API,互操作性和信号标准将变得至关重要。欧盟的设备与信任议程(devices-and-trust agenda)在这里可以成为一项资产:坚持本地处理、数据使用的透明度和可审计性,将与 WatchHand 的工程选择完美契合。反之,如果 Android 厂商之间出现碎片化或封闭生态,可能会减缓其普及速度,除非跨行业努力定义通用的接口和功耗规范。

该技术下一步可能的落脚点

预计将会看到渐进式、保守的产品化过程:首先是短促手势、媒体控制和辅助功能;稍后是在专门应用中实现完整的连续手部追踪。WatchHand 目前运行在 Android 智能手表上——扩展到其他生态系统将需要访问底层的音频 API 以及厂商的密切配合。实际路径将结合芯片供应商优化音频链、原始设备制造商(OEM)开放安全 API,以及标准机构制定占空比和隐私保护指南。

这对行业有一个更广泛的启示。手表声纳并非取代摄像头的万灵药,而是一种互补的感知模式,填补了在隐私、弱光环境和成本方面的空白。对于产品团队来说,真正的决策不在于声纳是否可行,而在于如何将其应用在物理特性和功耗配置符合用户需求的地方。

短期内,用户可以期待实验性应用和研究用 SDK;中期来看,制造商可能会在手表操作系统(watch OS)版本中加入调优后的声纳模式。如果你从事欧洲硬件或标准政策工作,现在是时候勾勒护栏了:能耗限制、数据本地化保证,以及确保该功能既对消费者友好又符合监管要求的互操作性方案。

有点讽刺的是:欧洲擅长隐私规则,德国擅长机械工程,而最终率先发布能在舞台上大放异彩的声纳打字功能的,很可能是欧洲以外的某个人。这是进步,但伴随着繁琐的手续。

Sources

  • Cornell University (WatchHand research team and preprint)
  • Korea Advanced Institute of Science and Technology (KAIST) collaboration materials
  • arXiv preprint (WatchHand: AI‑powered micro sonar hand‑pose tracking on smartwatches)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q 声呐是如何在现有的智能手表上实现手部追踪的?
A 声呐通过利用设备内置的扬声器发射人类听不到的声波,使其在用户手上反弹并作为回声返回麦克风,从而在现有智能手表上实现手部追踪。手表上的机器学习算法实时分析这些回声特征,以估算 3D 手部姿态,包括手指运动和手腕转动。该方法在多种智能手表型号和环境下进行了测试,实现了可靠的追踪,20 个手指关节的平均误差控制在 8 毫米以内。
Q 为什么这种手部追踪技术的突破能在不增加新硬件的情况下,在现有手表上实现?
A WatchHand 通过利用现有手表的标准扬声器和麦克风作为微型声呐,实现了手部追踪,从而消除了对摄像头或深度传感器等额外硬件的需求。一种由人工智能驱动的算法在设备本地处理回声特征,以重建 3D 手部姿态。与之前需要笨重附加组件的原型相比,这一突破大大降低了技术门槛。
Q 基于声呐的智能手表手部追踪有哪些潜在应用?
A 潜在应用包括针对行动或语言障碍用户的辅助技术、替代键盘、鼠标和触摸屏的手势控制,以及在增强现实和虚拟现实环境中充当控制器。它能够实现连续的实时手部姿态追踪,将智能手表转变为多功能输入设备。该系统支持超越微小屏幕的交互,例如空中手势。
Q 与可穿戴设备上的摄像头或深度传感器方法相比,基于声呐的手部追踪表现如何?
A 与需要额外组件且不适合日常佩戴的摄像头或深度传感器方法不同,WatchHand 的声呐追踪利用现有的扬声器和麦克风发射听不见的声波,避免了笨重的硬件。它以低延迟在本地实现精确的 3D 姿态估算,在嘈杂环境下表现可靠,但在走路等运动状态下表现欠佳。与基于视觉的系统相比,这使得它在现有设备上更具可行性。
Q 智能手表声呐手部追踪是否存在隐私或电池续航方面的顾虑?
A 由于所有手部姿态数据和处理都在手表本地完成,防止了个人数据外泄,因此隐私担忧极小。文中未明确提及电池续航问题,尽管持续使用声呐意味着一定的功耗;本地处理在不依赖云端的情况下最大限度地减少了延迟。虽然存在步行期间准确性降低等局限性,但并未强调直接的电池问题。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!