Forskare vid NVIDIA har officiellt släppt Nemotron-Cascade 2, en banbrytande Mixture-of-Experts-modell (MoE) med 30 miljarder parametrar som uppnår resonemangsförmåga motsvarande världens största AI-system. Genom att använda en högeffektiv arkitektur som endast aktiverar 3 miljarder parametrar vid inferens, har modellen uppvisat prestanda på guldmedalsnivå i 2025 års International Mathematical Olympiad (IMO), International Olympiad in Informatics (IOI) och ICPC World Finals. Denna upptäckt, författad av Grace Lam, Bryan Catanzaro och Mohammad Shoeybi, representerar ett avgörande skifte mot "Intelligence Density" (intelligensdensitet), där kompakta modeller matchar prestandan hos ledande modeller med 20 gånger fler parametrar.
Jakten på avancerade resonemang inom artificiell intelligens har historiskt sett handlat om massiv skala. Tills nyligen var den logiska precision som krävs för matematisk och programmering på elitnivå förbehållen "frontier"-modeller som DeepSeekV3.2, som använder 671 miljarder parametrar. NVIDIA-teamet initierade Nemotron-Cascade-projektet för att utmana detta paradigm och bevisa att arkitektonisk effektivitet och sofistikerade tekniker för efterträning kan producera "elitintelligens" med ett mycket mindre fotavtryck. Denna forskning adresserar det växande behovet av högpresterande AI som kan användas i miljöer med begränsad latens, såsom edge computing eller specialiserade industriella agenter, utan att offra det resonemangsdjup som återfinns i massiva modeller för datacenter.
Hur står sig Nemotron-Cascade 2 jämfört med DeepSeekV3.2?
Nemotron-Cascade 2 står sig väl mot DeepSeekV3.2 genom att leverera motsvarande resonemangsprestanda på guldmedalsnivå i elittävlingar som IMO och IOI, samtidigt som den bibehåller ett betydligt mindre fotavtryck. Medan DeepSeekV3.2 är en massiv modell med 671 miljarder parametrar, använder NVIDIA:s arkitektur en 30B MoE-struktur med endast 3 miljarder parametrar aktiverade under inferens, vilket innebär en 20 gånger mindre storlek för jämförbar logik.
Den jämförande analysen mellan dessa två modeller belyser en ny era av AI-effektivitet. Medan DeepSeekV3.2-Speciale-671B-A37B var den första modellen med öppna vikter att uppnå sådana utmärkelser i globala tävlingar, är Nemotron-Cascade 2 nu den andra, och den gör det med en bråkdel av hårdvarukraven. Denna minskning av antalet parametrar är inte bara en teknisk kuriositet; den översätts direkt till lägre driftskostnader och snabbare inferenshastigheter. För utvecklare innebär detta möjligheten att köra "guldmedalslogik" på lokal hårdvara som tidigare endast kunde hantera enkla konversationsuppgifter.
Vad är Intelligence Density vid AI-träning?
Intelligence density (intelligensdensitet) inom AI syftar på mängden intelligens som produceras per enhet inferenstid, med betoning på effektiv intelligensproduktion i miljöer med begränsad latens. Den balanserar toppintelligens – kvaliteten på resonemang per token – med genomströmning, vilket säkerställer att modeller som Nemotron-Cascade 2 tillhandahåller logik på elitnivå utan den beräkningsmässiga overhead som traditionellt förknippas med stora språkmodeller i frontier-skala.
Konceptet intelligence density håller på att bli ett primärt mätvärde för nästa generations AI-utveckling. Som Bryan Catanzaro och NVIDIA-teamet har noterat är målet att maximera nyttan av varje aktiverad parameter. Genom att fokusera på densitet kan forskare säkerställa att en modells "hjärnkraft" koncentreras där den betyder mest: komplex problemlösning och logik i flera steg. Detta skifte flyttar branschen bort från filosofin om att "större är bättre" mot en mer hållbar och tillgänglig modell för AI-framsteg, där kvaliteten på träningsdata och sofistikeringen i förstärkningsinlärningen står i centrum snarare än ren parametervolym.
Konkurrenskraftiga resonemang: Framgångar i IMO, IOI och ICPC
Riktmärket för "elitresonemang" definieras ofta av världens svåraste akademiska tävlingar. Nemotron-Cascade 2 har bevisat sitt värde genom att uppnå prestanda på guldmedalsnivå inom tre stora arenor:
- 2025 International Mathematical Olympiad (IMO): Lösning av komplexa geometriska och algebraiska bevis som kräver icke-linjärt tänkande.
- International Olympiad in Informatics (IOI): Uppvisande av algoritmisk design på hög nivå och skicklighet i kodning.
- ICPC World Finals: Hantering av storskaliga programmeringsuppgifter under strikta logiska begränsningar.
Framgångarna inom dessa domäner är ett bevis på modellens höga intelligensdensitet. Inom tävlingsmatematik kan ett enda logiskt fel göra en hel lösning ogiltig; därför måste modellen bibehålla en hög "resonemangstrohet". Forskningen från NVIDIA indikerar att genom att fokusera på matematiska och kodningsrelaterade resonemang under efterträningsfasen, kunde modellen överbrygga det gap som vanligtvis skiljer kompakta modeller från deras motsvarigheter med biljoner parametrar. Detta gör Nemotron-Cascade 2 till en primär kandidat för vetenskaplig forskning och krävande tillämpningar inom programvaruteknik.
Vad gör Nemotron-Cascade 2 bättre för agentbaserade uppgifter?
Nemotron-Cascade 2 briljerar i agentbaserade uppgifter tack vare sitt utökade Cascade RL-ramverk, som specifikt utformats för att hantera resonemang i flera steg och autonomt beslutsfattande. Genom att träna modellen att navigera i komplexa, domänspecifika arbetsflöden har forskarna säkerställt att den kan bibehålla konsekvens och noggrannhet under långsiktiga uppgifter som kräver interaktion med externa verktyg och dynamiska miljöer.
Agentkapabiliteter är det som gör att en AI kan gå från att vara en chatbot till en funktionell assistent som kan "göra" saker. I fallet med Nemotron-Cascade 2 innebär detta att modellen autonomt kan skriva kod, testa den och iterera baserat på fel – en färdighet som förfinats genom dess träning inom IOI- och ICPC-domänerna. Eftersom modellen är kompakt kan dessa agentbaserade loopar ske mycket snabbare än de skulle göra med en större modell, vilket minskar latensen mellan att ett problem identifieras och en lösning utförs. Denna effektivitet är avgörande för verkliga tillämpningar som autonom felsökning eller finansiell modellering i realtid.
Hur fungerar Cascade RL vid efterträning av LLM:er?
Cascade RL fungerar genom att iterativt förfina en modells resonemangsförmåga över ett växande spektrum av domäner med hjälp av multi-domäns on-policy-destillering. I Nemotron-Cascade 2 innebär processen att modellen undervisas via "lärarmodeller" som tillhandahåller högkvalitativa signaler, vilket gör det möjligt för 30B-modellen att effektivt återhämta prestandaförluster och bibehålla framsteg i resonemang under hela förstärkningsinlärningsfasen.
Den tekniska innovationen i Cascade RL ligger i dess förmåga att hantera "katastrofal glömska" som ofta uppstår när en modell finjusteras på ny data. Genom att använda on-policy-destillering säkerställer forskare vid NVIDIA att modellen lär sig från de mest kapabla mellanliggande lärarna som finns tillgängliga för varje specifik domän. Om modellen till exempel tränas på kodning får den destilleringssignaler från en lärarmodell som för närvarande presterar på topp inom kodning. Denna "kaskad" av kunskap gör det möjligt för Nemotron-Cascade 2 att absorbera styrkorna från flera specialiserade system till en enhetlig, kompakt arkitektur, vilket resulterar i en mångsidig och högintelligent slutpunkt.
Tekniska genombrott: SFT och destillering
Grunden för Nemotron-Cascade 2 lades under en noggrant utvald fas av övervakad finjustering (SFT). Till skillnad från tidigare versioner fokuserade forskarna på ett bredare spektrum av resonemang och agentbaserade domäner från början. Denna initiala förankring gav modellen det nödvändiga "logiska ordförråd" som senare förfinades genom Cascade RL-processen. Användningen av multi-domäns on-policy-destillering fungerade som en korrigerande kraft, vilket säkerställde att när modellen blev skickligare i matematik, förlorade den inte sitt försprång i programmering eller naturlig språkförståelse.
Vidare spelar Mixture-of-Experts (MoE)-arkitekturen en avgörande roll för denna effektivitet. Genom att endast aktivera 3 miljarder av de totalt 30 miljarder parametrarna för en given uppgift fungerar modellen som en samling specialiserade experter. När den ställs inför ett matematikproblem aktiveras endast de "experter" som är tränade i matematisk logik. Detta gör att Nemotron-Cascade 2 kan bibehålla en massiv kunskapsbas samtidigt som beräkningskostnaden för varje enskild "tanke" hålls anmärkningsvärt låg. Denna balans är vad Mohammad Shoeybi och teamet identifierar som nyckeln till att skala upp intelligens utan att skala upp hårdvarukraven.
Implikationer: Framtiden för effektiv AI
Släppet av Nemotron-Cascade 2 som en modell med öppna vikter har betydande implikationer för demokratiseringen av avancerad AI. Traditionellt har intelligens på "guldmedalsnivå" varit låst bakom API-väggar hos massiva teknikföretag eller krävt serverkluster för miljonbelopp för att köras. Genom att tillhandahålla en modell som levererar resonemang på frontier-nivå i en 30B/3B-skala, gör NVIDIA det möjligt för ett bredare utbud av forskare och nystartade företag att experimentera med logik på elitnivå. Detta kan leda till en våg av specialiserade AI-agenter designade för allt från medicinsk diagnostik till avancerade fysiksimuleringar.
Nästa steg för denna forskningsinriktning innefattar att ytterligare öka intelligensdensiteten och utöka domänerna för Cascade RL. Framgången för Nemotron-Cascade 2 tyder på att vi inte är i närheten av den teoretiska gränsen för hur mycket intelligens som kan packas in i en liten modell. I takt med att träningsdata blir ännu mer kurerad och destilleringstekniker mer förfinade kan branschen snart få se modeller med 1 miljard eller till och med under 1 miljard parametrar som kan konkurrera på den globala arenan för mänsklig intelligens, vilket ger elitresonemang till varje smartphone och edge-enhet på planeten.
Comments
No comments yet. Be the first!