NVIDIA 研究人员正式发布了 Nemotron-Cascade 2,这是一个突破性的 300 亿参数混合专家 (MoE) 模型,其推理能力达到了全球顶尖 AI 系统的水平。通过使用仅在推理期间激活 30 亿参数的高效架构,该模型在 2025 年 国际数学奥林匹克竞赛 (IMO)、国际信息学奥林匹克竞赛 (IOI) 和 ICPC 编程竞赛全球总决赛中展现出了金牌级别的表现。这项由 Grace Lam、Bryan Catanzaro 和 Mohammad Shoeybi 共同发表的发现,代表了向“智能密度”的重大转变——即紧凑型模型在性能上可以媲美参数量多出 20 倍的前沿模型。
历史上,追求人工智能的高级推理能力一直是大规模参数的竞争。直到最近,达到顶级数学和编程竞赛所需的逻辑精度通常只有像 DeepSeekV3.2 这样拥有 6710 亿参数的“前沿”模型才能实现。NVIDIA 团队启动了 Nemotron-Cascade 项目来挑战这一范式,旨在证明通过架构效率和复杂的后训练技术,可以在更小的体积内产生“精英级”智能。这项研究解决了对高性能 AI 日益增长的需求,使其能够部署在延迟受限的环境中(如边缘计算或专业工业智能体),而无需牺牲大型数据中心模型所具备的推理深度。
Nemotron-Cascade 2 与 DeepSeekV3.2 相比如何?
Nemotron-Cascade 2 与 DeepSeekV3.2 相比,在 IMO 和 IOI 等顶级竞赛中提供了等同的金牌推理性能,同时保持了显著更小的体积。虽然 DeepSeekV3.2 是一个拥有 6710 亿参数的巨型模型,但 NVIDIA 的架构采用了 300 亿参数的 MoE 结构,推理时仅激活 30 亿参数,在逻辑能力相当的情况下实现规模缩减达 20 倍。
这两个模型之间的对比分析彰显了 AI 效率的新时代。虽然 DeepSeekV3.2-Speciale-671B-A37B 曾是第一个在全竞赛中获得如此高荣誉的开放权重模型,但 Nemotron-Cascade 2 现在成为了第二个,且其对硬件的要求仅为前者的一小部分。这种参数量的减少不仅仅是技术上的探索尝试,它直接转化为更低的运营成本和更快的推理速度。对于开发者而言,这意味着可以在以前只能处理基础对话任务的本地硬件上运行“金牌级”逻辑。
AI 训练中的智能密度是什么?
AI 中的智能密度是指单位推理时间内产生的智能量,强调在延迟受限环境下的高效智能输出。它平衡了峰值智能(即每个 token 的推理质量)与吞吐量,确保像 Nemotron-Cascade 2 这样的模型能够提供精英级的逻辑,而不会产生传统上与前沿规模大语言模型相关的计算开销。
智能密度的概念正成为下一代 AI 开发的主要衡量标准。正如 Bryan Catanzaro 和 NVIDIA 团队所指出的,目标是最大化每个激活参数的效用。通过关注密度,研究人员可以确保模型的“脑力”集中在最关键的地方:复杂的问题解决和多步逻辑。这一转变使行业从“大即是好”的理念转向一种更可持续、更易获得的 AI 进步模式,在这种模式下,训练数据的质量和强化学习过程的复杂程度比单纯的参数规模更为重要。
竞争性推理:在 IMO、IOI 和 ICPC 中的成功
“精英级”推理的基准通常由世界上最难的学术竞赛来定义。Nemotron-Cascade 2 在三个主要领域证明了自己的实力,达到了金牌级别的表现:
- 2025 年国际数学奥林匹克竞赛 (IMO):解决需要非线性思维的复杂几何和代数证明。
- 国际信息学奥林匹克竞赛 (IOI):展示了高水平的算法设计和编码熟练度。
- ICPC 编程竞赛全球总决赛:在严格的逻辑约束下管理大规模竞争性编程任务。
在这些领域的成功证明了该模型的高智能密度。在竞赛数学中,一个逻辑错误就可能导致整个解法失效;因此,模型必须保持极高的“推理保真度”。NVIDIA 的研究表明,通过在后训练阶段专注于数学和编程推理,该模型能够弥合紧凑型模型与万亿参数模型之间通常存在的差距。这使得 Nemotron-Cascade 2 成为科学研究和高风险软件工程应用的首选。
为什么 Nemotron-Cascade 2 更适合智能体任务?
Nemotron-Cascade 2 在智能体任务中表现出色,这得益于其扩展的 Cascade RL 框架,该框架专门为处理多步推理和自主决策而设计。通过训练模型处理复杂的、特定领域的流程,研究人员确保了它在需要与外部工具和动态环境交互的长程任务中能够保持一致性和准确性。
智能体能力使 AI 能够从聊天机器人转变为可以“执行任务”的功能助手。在 Nemotron-Cascade 2 的背景下,这意味着模型可以自主编写代码、进行测试并根据错误进行迭代——这是通过其在 IOI 和 ICPC 领域的训练磨炼出的技能。由于模型体积紧凑,这些智能体循环的运行速度比大型模型快得多,从而缩短了识别问题与执行解决方案之间的延迟。这种效率对于自动调试或实时金融建模等现实应用至关重要。
Cascade RL 如何在后训练 LLM 中发挥作用?
Cascade RL 的工作原理是通过使用多领域同策略蒸馏,在不断扩大的领域范围内迭代优化模型的推理能力。在 Nemotron-Cascade 2 中,该过程涉及通过提供高质量信号的“教师”模型来教导模型,使 30B 模型能够在整个强化学习阶段高效地修复性能倒退并持续获得推理增益。
Cascade RL 的技术创新在于它能够处理模型在微调新数据时经常出现的“灾难性遗忘”。通过使用同策略蒸馏,NVIDIA 研究人员确保模型能够向针对每个特定领域最出色的中间教师学习。例如,如果模型正在接受编码训练,它会接收来自当前编码性能处于巅峰的教师模型的蒸馏信号。这种知识的“级联”(cascade)使得 Nemotron-Cascade 2 能够将多个专业系统的优势吸收进一个统一、紧凑的架构中,从而形成一个通用且高度智能的最终检查点。
技术突破:SFT 与蒸馏
Nemotron-Cascade 2 的基础是在精心策划的有监督微调 (SFT) 阶段奠定的。与之前的迭代不同,研究人员从一开始就关注更广泛的推理和智能体领域。这种初始基础为模型提供了必要的逻辑“词汇”,随后通过 Cascade RL 过程进行完善。多领域同策略蒸馏的使用起到了一种修正作用,确保当模型在数学方面变得更加精通时,不会失去其在编程或自然语言理解方面的优势。
此外,混合专家 (MoE) 架构在这种效率中发挥了关键作用。对于任何特定任务,300 亿个总参数中仅激活 30 亿个,模型的功能就像一个专门专家的集合。当面对数学问题时,只有接受过数学逻辑训练的“专家”才会被启用。这使得 Nemotron-Cascade 2 能够维持庞大的知识库,同时将单次“思考”的计算成本保持在极低水平。Mohammad Shoeybi 及其团队认为,这种平衡是实现智能扩展而无需扩展硬件要求的关键。
启示:高效 AI 的未来
Nemotron-Cascade 2 作为开放权重模型的发布,对于高级 AI 的普及具有重要意义。传统上,“金牌级”智能被锁定在大型科技巨头的 API 墙后,或者需要耗资数百万美元的服务器集群才能运行。通过提供一个在 30B/3B 规模下实现前沿推理的模型,NVIDIA 让更广泛的研究人员和初创公司能够尝试精英级逻辑。这可能会导致从医疗诊断到高级物理模拟等各种专用 AI 智能体的激增。
这一研究方向的下一步包括进一步提高智能密度并扩大 Cascade RL 的应用领域。Nemotron-Cascade 2 的成功表明,我们距离将智能压缩到小型模型中的理论极限还相去甚远。随着训练数据变得更加精炼,蒸馏技术更加成熟,行业可能很快就会看到 1B 甚至 1B 以下参数的模型在全球人类智能舞台上竞争,将精英级推理带到地球上的每一部智能手机和边缘设备。
Comments
No comments yet. Be the first!