晶圆级 AI 解决大语言模型数据传输瓶颈

Breaking News 科技
Macro shot of a silicon wafer surface with intricate gold and copper circuit pathways illuminated by dramatic blue light.
4K Quality
随着大语言模型(LLM)规模的不断扩大,AI 训练的主要瓶颈已从原始算力转向了芯片间数据移动的物理限制。最近关于“晶圆对晶圆”(Wafer-on-Wafer)混合键合的研究提出了一种突破性解决方案,通过将多个光罩区域集成到单个巨大的超级芯片中,有效消除了芯片边界的带宽墙。

晶圆级 AI 集成通过将数十万个处理器核心和海量分布式内存整合到单个连续的硅表面上,解决了大语言模型(LLM)中的数据移动瓶颈。这种架构转变消除了传统多 GPU 集群中存在的“带宽墙”问题,在传统集群中,当数据跨越芯片边界时,通信速度会大幅下降。通过利用晶圆对晶圆(WoW)混合键合技术,研究人员实现了超高带宽互连,允许数据在整个系统中无缝流动,从而支持现代大语言模型(LLM)所需的大规模并行处理。

现代 AI 中的数据移动瓶颈

扩展大语言模型的主要瓶颈已从原始计算吞吐量转向芯片间数据移动的物理限制。在传统的性能计算集群(例如使用 NVIDIA DGX 系统的集群)中,单个 GPU 受限于与相邻处理器通信所需的物理引脚和布线。这创造了一道“通信墙”,其中芯片间移动数据的能量成本和延迟成为训练时间和推理效率的决定性因素。

在基于 Transformer 的模型训练同步阶段,互连延迟会产生显著的开销。随着模型增长到数万亿参数,频繁进行“All-reduce”操作(即在所有处理节点间共享梯度)的需求使传统网络硬件承压。这催生了“后 GPU”时代的研究,计算机科学家正寻求将整个硅晶圆视为一个统一的超级芯片,以维持下一代生成式 AI 所需的高速数据流。

什么是 Cerebras 晶圆级引擎,它是如何工作的?

Cerebras 晶圆级引擎(WSE)是一个巨大的晶圆级系统,它将数十万个 AI 优化核心和数 GB 的片上 SRAM 集成到单块硅片上。通过绕过将晶圆切割成微小独立芯片的传统工艺,WSE 在整个 215mm x 215mm 的表面上保留了硅制造工艺固有的高带宽布线。这种设计实现了一种网格架构(mesh architecture),支持超低延迟通信,这对于大规模执行大语言模型推理等受限于内存的操作至关重要。

WSE 通过利用专门的并行策略(如 MeshGEMM 和 MeshGEMV)来优化分布式内存访问。在标准 GPU 中,高带宽内存(HBM)位于处理器外部,形成了瓶颈;然而,晶圆级方法将内存直接放置在计算核心旁边。这种架构使系统能够管理模型预填充和 Token 生成所需的海量数据移动,而无需从外部组件获取数据的高能耗且缓慢的过程,从而为 AI 工作负载带来数个数量级的性能提升。

晶圆级集成与混合键合详解

晶圆对晶圆(WoW)混合键合是一种前沿制造技术,它垂直堆叠两个硅晶圆以创建高密度 3D 互连。与使用微凸点或焊料连接芯片的传统封装方法不同,混合键合直接将两个晶圆的铜焊盘融合在一起。这极大地增加了每平方毫米的连接点数量,有效地将处理单元(PE)之间的可用通信面积增加了一倍或两倍,并允许在 Wafer-Scale AI 系统中实现更复杂的网络拓扑。

  • 增加的互连密度:混合键合允许在晶圆表面建立数百万个垂直连接。
  • 降低寄生电容:直接的铜对铜界面降低了传输比特所需的电阻和能量。
  • 增强热管理:结合先进的液冷技术,堆叠晶圆可以改善散热路径。
  • 曝光场集成:该工艺允许在构成晶圆的矩形“曝光场(reticles)”(芯片制造的基本单位)之间进行无缝通信。

物理曝光场布局如何影响晶圆级芯片的网络拓扑?

物理曝光场(reticle)的放置决定了可实现的网络拓扑,它定义了高速片上布线必须转换为场间或晶圆间链路的边界。在标准的 Wafer-Scale AI 设计中,光刻工艺限制了单个功能单元(曝光场)的大小,需要步进模式来覆盖整个晶圆。包括 Luca BeniniTorsten HoeflerMaciej Besta 在内的研究人员发现,这些曝光场的排列方式(无论是完美堆叠还是错位偏移)决定了数据必须经过的路径,从而直接影响延迟和吞吐量。

复杂的放置策略可以显著减少远程处理核心之间的“跳数(hop count)”。研究团队调查了四种主要配置:Aligned(对齐)Interleaved(交错)Rotated(旋转)Contoured(轮廓)。通过在混合键合过程中战略性地移动或旋转曝光场,他们能够创建在标准 2D 网格中不可能实现的快捷路径。例如,“Contoured”布局允许网络遵循晶圆自然的圆形形状,优化边缘硅片的使用,并为深度学习任务创建更高效的全局通信网络。

拓扑优化:四种曝光场放置策略

晶圆级网络的基准通常是 2D 网格,它受限于其僵化的网格状连通性。虽然 2D 网格可以运行,但当数据必须从晶圆的一侧传输到另一侧时,它会面临高延迟。为了解决这个问题,Hoefler 及其同事提出的研究表明,可以操纵晶圆的物理排列来为数据创建“快速通道”。AlignedInterleaved 策略侧重于简化两个键合晶圆之间的垂直连接,以确保每个处理核心在相对层上都有一个直接伙伴。

像 Rotated 和 Contoured 这样先进的配置代表了高性能网络设计的突破。Rotated 策略涉及在键合前将一个晶圆旋转 90 度,这将物理布局转换为高基数(high-radix)网络。这种配置允许跨越晶圆的“长程”跳跃,而无需增加额外的物理布线。这些优化的拓扑结构确保网络能够处理稀疏 AI 模型中常见的零散数据模式,提供了一种能够适应不同神经网络架构的灵活基础设施。

量化收益:性能与效率

与传统的 2D 网格基准相比,优化后的曝光场放置策略使网络吞吐量大幅提升了 250%。这种性能飞跃主要归功于网络拥塞的减少;通过为数据提供更多直接路径,系统可以同时移动更大容量的信息。对于大语言模型,这意味着通常会拖慢训练进度的“All-reduce”和“All-to-all”通信模式可以在更短的时间内完成。

除了原始速度外,该研究还强调了在延迟和能源可持续性方面的显著改进。

  • 延迟降低:通信延迟缩减了高达 36%,从而实现了更快的模型权重同步。
  • 能源效率:每传输一个字节所需的能量降低了高达 38%,这是衡量 AI 环境影响的关键指标。
  • 系统可靠性:通过减少跳数和数据必须经过的电气距离,研究人员还提高了通信架构的整体稳健性。

行业影响:从 Cerebras 到未来的超级芯片

这项研究为半导体制造的未来提供了路线图,跨越了单个 GPU 芯片的限制。虽然像 Cerebras Systems 这样的公司已经证明了晶圆级引擎的可行性,但 Torsten Hoefler 及其在 ETH Zurich 的团队的工作表明,我们才刚刚开启无限可能。通过利用晶圆对晶圆键合和先进的拓扑设计,未来的超级芯片可以在单个封装中容纳数万亿个晶体管,为训练比 GPT-4 大得多的模型提供必要的硬件基础。

向集成晶圆级 AI 的转变可能会重新定义 AI 硬件市场的竞争。随着对 LLM 的需求持续飙升,在最大化吞吐量的同时最小化能耗的能力将成为核心竞争优势。从构建“芯片集群”向“晶圆级系统”的转变,代表了我们思考计算机架构方式的根本改变,预示着一个物理硬件尺寸将成为模型智能唯一限制的未来。

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q 晶圆级集成如何解决大语言模型(LLM)中的数据传输瓶颈?
A 晶圆级集成通过在单个晶圆上集成数十万个 AI 核心,并配备大容量分布式片上内存(数十 GB)和超高片上带宽(数十 PB/s),解决了 LLM 中的数据传输瓶颈,从而消除了从 GPU 上 HBM 等较慢外部内存中重复获取数据的需求。与多 GPU 集群相比,这种方式减少了延迟和通信开销,而在多 GPU 集群中,片间链路限制了 LLM 推理过程中 GEMM 和 GEMV 等操作的可扩展性。其分布式网格架构支持内存受限型任务的高效并行处理,克服了高吞吐量 Token 生成所需的数百 TB/s 带宽限制。
Q 什么是 Cerebras 的晶圆级引擎,它是如何工作的?
A Cerebras 的晶圆级引擎是一个巨大的晶圆上系统(system-on-wafer),它在网格架构中集成了数十万个 AI 核心,并具有分布式片上内存和超高带宽。它通过利用晶圆级制造在单个芯片内提供低延迟、高带宽的互连,并通过 MeshGEMM 和 MeshGEMV 等专门的并行策略实现 LLM 推理的高效扩展。这种设计针对分布式内存访问进行了优化,解决了模型管理、预填充 GEMM 和解码 GEMV 等需要高数据传输量的操作中的挑战。
Q 物理掩模版布局如何影响晶圆级芯片的网络拓扑?
A 晶圆级芯片中的物理掩模版(reticle)布局是指制造过程中由光刻掩模版施加的固定边界,这些边界决定了处理单元(PE)在晶圆上的排列方式。这种布局创建了一个非均匀的网格拓扑,由于距离随晶圆尺寸和掩模版的步进模式而显著变化,PE 之间具有高度波动的延迟。由此产生的网络拓扑需要专门的同步和通信策略,以管理不规则的数据传输并确保数百万个核心之间的高效协同。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!