Малая модель, гениальный интеллект: как новая Nemotron-Cascade 2 на 30 млрд параметров от NVIDIA сравнялась с лучшими олимпиадниками мира

Breaking News Технологии
A glowing green microchip with intricate geometric patterns and dense neural pathways on a dark obsidian surface.
4K Quality
Исследователи NVIDIA представили Nemotron-Cascade 2 — модель на базе архитектуры Mixture-of-Experts (MoE) с 30 миллиардами параметров, которая демонстрирует способности к логическому рассуждению на уровне крупнейших флагманских систем. Несмотря на компактность, она показала результаты уровня золотой медали на Международной математической олимпиаде, подтверждая тренд на повышение эффективности ИИ-архитектур.

Исследователи NVIDIA официально представили Nemotron-Cascade 2 — революционную модель с архитектурой Mixture-of-Experts (MoE) и 30 миллиардами параметров, которая демонстрирует возможности рассуждения, эквивалентные крупнейшим в мире системам ИИ. Благодаря высокоэффективной архитектуре, активирующей всего 3 миллиарда параметров во время инференса, модель показала результаты уровня золотой медали на Международной математической олимпиаде (IMO) 2025 года, Международной олимпиаде по информатике (IOI) и в финале ICPC World Finals. Это открытие, авторами которого стали Grace Lam, Bryan Catanzaro и Mohammad Shoeybi, знаменует собой важнейший переход к «плотности интеллекта» (Intelligence Density), когда компактные модели соответствуют по производительности передовым (frontier) моделям, имеющим в 20 раз больше параметров.

Стремление к высокоуровневому рассуждению в области искусственного интеллекта исторически было вопросом масштаба. До недавнего времени достижение логической точности, необходимой для элитных соревнований по математике и программированию, было прерогативой «передовых» моделей, таких как DeepSeekV3.2, использующая 671 миллиард параметров. Команда NVIDIA инициировала проект Nemotron-Cascade, чтобы бросить вызов этой парадигме и доказать, что архитектурная эффективность и сложные методы постобучения позволяют создать «элитный» интеллект при гораздо меньших ресурсах. Это исследование отвечает растущей потребности в высокопроизводительном ИИ, который можно развертывать в средах с ограничениями по задержке, таких как пограничные вычисления (edge computing) или специализированные промышленные агенты, без потери глубины рассуждений, характерной для массивных моделей в дата-центрах.

Как Nemotron-Cascade 2 соотносится с DeepSeekV3.2?

Nemotron-Cascade 2 сопоставима с DeepSeekV3.2, обеспечивая аналогичные результаты уровня золотой медали в таких элитных соревнованиях, как IMO и IOI, при значительно меньшем объеме. В то время как DeepSeekV3.2 представляет собой массивную модель с 671 млрд параметров, архитектура NVIDIA использует структуру MoE на 30 млрд параметров, из которых при инференсе активируется всего 3 млрд, что означает 20-кратное сокращение размера при сопоставимой логике.

Сравнительный анализ этих двух моделей знаменует новую эру эффективности ИИ. Если DeepSeekV3.2-Speciale-671B-A37B была первой моделью с открытыми весами, получившей столь высокие награды в мировых соревнованиях, то Nemotron-Cascade 2 стала второй, при этом требуя лишь малую часть аппаратных мощностей. Такое сокращение количества параметров — не просто технический курьез; оно напрямую конвертируется в снижение операционных расходов и ускорение инференса. Для разработчиков это означает возможность запускать логику «золотой медали» на локальном оборудовании, которое раньше справлялось только с базовыми задачами чат-ботов.

Что такое «плотность интеллекта» в обучении ИИ?

Плотность интеллекта (Intelligence density) в ИИ относится к количеству интеллекта, производимого на единицу времени инференса, с акцентом на эффективный вывод в средах с ограничениями по задержке. Она балансирует пиковый интеллект — качество рассуждений на один токен — с пропускной способностью, гарантируя, что такие модели, как Nemotron-Cascade 2, обеспечивают элитную логику без вычислительных затрат, традиционно связанных с гигантскими языковыми моделями.

Концепция плотности интеллекта становится основной метрикой для разработки ИИ следующего поколения. Как отметили Bryan Catanzaro и команда NVIDIA, цель состоит в том, чтобы максимизировать полезность каждого активируемого параметра. Сосредоточившись на плотности, исследователи могут гарантировать, что «умственные способности» модели сконцентрированы там, где они важнее всего: в решении сложных задач и многоэтапной логике. Этот сдвиг уводит индустрию от философии «чем больше, тем лучше» к более устойчивой и доступной модели прогресса ИИ, где качество обучающих данных и сложность процесса обучения с подкреплением выходят на первый план, вытесняя чистый объем параметров.

Конкурентное рассуждение: успехи в IMO, IOI и ICPC

Эталон «элитного» рассуждения часто определяется сложнейшими мировыми академическими соревнованиями. Nemotron-Cascade 2 доказала свою эффективность, достигнув результатов уровня золотой медали на трех крупных аренах:

  • Международная математическая олимпиада 2025 года (IMO): решение сложных геометрических и алгебраических доказательств, требующих нелинейного мышления.
  • Международная олимпиада по информатике (IOI): демонстрация высокоуровневого проектирования алгоритмов и мастерства кодирования.
  • ICPC World Finals: выполнение крупномасштабных задач по спортивному программированию в условиях строгих логических ограничений.
Эти достижения ставят 30B-модель в редкий ряд систем ИИ, способных к мышлению «системы 2» — осознанному, логическому рассуждению, которое выходит за рамки простого сопоставления с шаблоном.

Успех в этих областях является свидетельством высокой плотности интеллекта модели. В олимпиадной математике одна логическая ошибка может сделать недействительным все решение, поэтому модель должна поддерживать высокую «точность рассуждений». Исследование NVIDIA показывает, что, сосредоточившись на математическом и программном рассуждении на этапе постобучения, модель смогла преодолеть разрыв, который обычно отделяет компактные модели от их аналогов с триллионами параметров. Это делает Nemotron-Cascade 2 основным кандидатом для научных исследований и критически важных задач программной инженерии.

Почему Nemotron-Cascade 2 лучше подходит для агентных задач?

Nemotron-Cascade 2 превосходит другие модели в агентных задачах благодаря расширенному фреймворку Cascade RL, который был специально разработан для обработки многоэтапных рассуждений и автономного принятия решений. Обучая модель ориентироваться в сложных, специфических для предметной области рабочих процессах, исследователи обеспечили сохранение последовательности и точности при выполнении долгосрочных задач, требующих взаимодействия с внешними инструментами и динамическими средами.

Агентные способности — это то, что позволяет ИИ превратиться из чат-бота в функционального помощника, который может «действовать». В контексте Nemotron-Cascade 2 это означает, что модель может автономно писать код, тестировать его и итерировать на основе ошибок — навык, отточенный в ходе тренировок в доменах IOI и ICPC. Поскольку модель компактна, эти агентные циклы могут происходить намного быстрее, чем с более крупной моделью, что сокращает задержку между обнаружением проблемы и выполнением решения. Эта эффективность критически важна для реальных приложений, таких как автономная отладка или финансовое моделирование в реальном времени.

Как работает Cascade RL в постобучении LLM?

Cascade RL работает путем итеративного совершенствования способностей модели к рассуждению в расширяющемся спектре областей с использованием многодоменной on-policy дистилляции. В Nemotron-Cascade 2 этот процесс включает обучение модели с помощью моделей-«учителей», которые предоставляют высококачественные сигналы, что позволяет 30B-модели эффективно восстанавливать регрессии производительности и сохранять успехи в рассуждении на протяжении всей фазы обучения с подкреплением.

Техническая инновация Cascade RL заключается в способности справляться с «катастрофическим забыванием», которое часто происходит при тонкой настройке модели на новых данных. Используя on-policy дистилляцию, исследователи NVIDIA гарантируют, что модель учится у наиболее способных промежуточных учителей, доступных для каждой конкретной области. Например, если модель обучается программированию, она получает сигналы дистилляции от модели-учителя, которая в данный момент находится на пике производительности в кодинге. Этот «каскад» знаний позволяет Nemotron-Cascade 2 впитывать сильные стороны нескольких специализированных систем в одну единую компактную архитектуру, что приводит к созданию универсальной и высокоинтеллектуальной финальной версии (checkpoint).

Технические прорывы: SFT и дистилляция

Фундамент Nemotron-Cascade 2 был заложен в ходе тщательно выверенной фазы контролируемого тонкого обучения (SFT). В отличие от предыдущих итераций, исследователи с самого начала сосредоточились на более широком спектре доменов рассуждения и агентных задач. Эта начальная база наделила модель необходимым «словарным запасом» логики, который позже был усовершенствован в процессе Cascade RL. Использование многодоменной on-policy дистилляции действовало как корректирующая сила, гарантируя, что по мере того, как модель становилась более опытной в математике, она не теряла преимущества в программировании или понимании естественного языка.

Более того, архитектура Mixture-of-Experts (MoE) играет решающую роль в этой эффективности. Активируя только 3 миллиарда из 30 миллиардов параметров для любой конкретной задачи, модель функционирует как набор специализированных экспертов. Когда ей предъявляется математическая задача, задействуются только те «эксперты», которые обучены математической логике. Это позволяет Nemotron-Cascade 2 поддерживать огромную базу знаний, сохраняя при этом вычислительную стоимость каждой отдельной «мысли» на удивительно низком уровне. Этот баланс Mohammad Shoeybi и его команда называют ключом к масштабированию интеллекта без масштабирования требований к аппаратному обеспечению.

Последствия: будущее эффективного ИИ

Выпуск Nemotron-Cascade 2 как модели с открытыми весами имеет значительные последствия для демократизации ИИ высокого уровня. Традиционно интеллект уровня «золотой медали» был заблокирован за API-стенами гигантских технологических конгломератов или требовал серверных кластеров стоимостью в миллионы долларов. Предоставляя модель, которая обеспечивает рассуждения передового уровня в масштабе 30B/3B, NVIDIA позволяет более широкому кругу исследователей и стартапов экспериментировать с логикой элитного уровня. Это может привести к всплеску создания специализированных ИИ-агентов для самых разных областей — от медицинской диагностики до продвинутого моделирования в физике.

Дальнейшее развитие этого направления исследований предполагает дальнейшее повышение плотности интеллекта и расширение областей применения Cascade RL. Успех Nemotron-Cascade 2 говорит о том, что мы еще далеко не достигли теоретического предела того, насколько много интеллекта можно упаковать в небольшую модель. По мере того как обучающие данные становятся еще более качественными, а методы дистилляции — более совершенными, отрасль вскоре может увидеть модели с 1 млрд или даже менее чем 1 млрд параметров, способные конкурировать на мировой арене человеческого интеллекта, неся элитное рассуждение в каждый смартфон и на каждое пограничное устройство на планете.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Как Nemotron-Cascade 2 соотносится с DeepSeekV3.2?
A В предоставленных источниках отсутствует прямое сравнение Nemotron-Cascade 2 от NVIDIA и DeepSeekV3.2. Результаты поиска обсуждают общую производительность моделей ИИ, но не содержат конкретных бенчмарков или метрик для этих моделей.
Q Что такое плотность интеллекта (Intelligence Density) в обучении ИИ?
A Плотность интеллекта в ИИ означает количество интеллекта, производимого на единицу времени инференса (вывода), а не на один токен, что подчеркивает эффективность интеллектуальной отдачи в условиях ограниченной задержки. Она балансирует пиковый интеллект — качество рассуждений на токен — с пропускной способностью, или количеством токенов, генерируемых в секунду. Эта метрика смещает акцент с максимизации размера модели на оптимизацию реальной скорости и производительности.
Q Благодаря чему Nemotron-Cascade 2 лучше подходит для агентских задач?
A Конкретные детали того, почему Nemotron-Cascade 2 превосходит другие модели в агентских задачах, в результатах поиска не представлены. Агентские задачи обычно требуют высокой плотности интеллекта для быстрого и эффективного принятия решений в динамичных средах, однако преимущества данной конкретной модели не детализированы.
Q Как работает Cascade RL в пост-обучении больших языковых моделей (LLM)?
A В предоставленных результатах поиска нет явного описания Cascade RL для пост-обучения больших языковых моделей. Обучение с подкреплением в целом позволяет агентам оптимизировать действия для получения вознаграждения, но детали механизма Cascade RL здесь отсутствуют.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!