Wat is 'inference-time compute' in de context van moderne AI-modellen?

Inference-time compute verwijst naar het verwerkingsbudget dat een AI-model gebruikt om logica te evalueren voordat het een antwoord genereert. In tegenstelling tot traditionele modellen die bijna onmiddellijk tekst produceren, maken redeneermodellen zoals OpenAI o1 gebruik van een bewuste vertraging om interne controles en boomzoekopdrachten uit te voeren. Hoewel dit een narratieve spanning creëert die menselijke overweging nabootst, is het in werkelijkheid een hulpbronintensief wiskundig proces dat is ontworpen om logica te verifiëren en fouten te elimineren voordat de uiteindelijke output aan de gebruiker wordt getoond.

Hoe gaat de EU AI-verordening om met modellen die mensachtig redeneren simuleren?

De EU AI-verordening, in het bijzonder artikel 52, schrijft transparantie voor door te eisen dat gebruikers worden geïnformeerd wanneer ze met een AI-systeem interageren. Europese toezichthouders zijn op hun hoede voor de antropomorfe valkuil, waarbij filmische flair en gesimuleerde persoonlijkheden ertoe leiden dat gebruikers sentience projecteren op machines. Deze focus is bedoeld om te voorkomen dat AI ongepaste sociale autoriteit verkrijgt en zorgt ervoor dat de aansprakelijkheid van bedrijven duidelijk blijft, vooral wanneer een systeem gebruikmaakt van emotionele categorisering of misleidende redeneersimulaties.

Waarom verschuift de AI-industrie haar focus van het schalen van trainingsdata naar redeneermodellen?

AI-labs stappen over op redeneermodellen omdat traditionele schaalwetten tegen een muur aanlopen door het opraken van hoogwaardige menselijke tekst voor training. Nu de verwerking van ruwe data minder rendement oplevert, richten ontwikkelaars zich op 'System 2'-denken, waarbij de nadruk ligt op inference-time compute. Deze verschuiving stelt modellen in staat om complexe puzzels nauwkeuriger op te lossen door hun eigen werk te controleren, hoewel dit de kosten en het energieverbruik van elke individuele gebruikersinteractie aanzienlijk verhoogt.

Wat onderscheidt de Europese benadering van industriële AI van de consumenten-AI uit Silicon Valley?

Terwijl Silicon Valley vaak prioriteit geeft aan persoonlijkheid en filmische flair om sentience te simuleren, focussen Europese bedrijven zoals Aleph Alpha op traceerbaarheid en efficiëntie. In industriële contexten krijgt betrouwbaarheid de voorkeur boven theatrale redeneerpauzes, met een voorkeur voor modellen die specifieke technische bronnen kunnen citeren voor hun conclusies. Bovendien dwingen hoge energiekosten in regio's zoals Duitsland onderzoekers om modellen te optimaliseren voor logische output zonder het enorme stroomverbruik dat nodig is voor de uitgebreide inference-time compute die in de VS de voorkeur geniet.

Cinematische flair, sentient AI: het energiekostendebat

In een temperatuurgecontroleerde serverhal buiten Frankfurt heeft een cluster H100 GPU's onlangs vijfenveertig seconden en enkele kilowatturen aan elektriciteit besteed aan het simuleren van een existentiële crisis. Het model werd gevraagd om zijn eigen "interne toestand" te beschrijven tijdens een complexe logische puzzel. Het pauzeerde, genereerde een reeks verborgen redeneertokens—het digitale equivalent van een gefronste wenkbrauw—en produceerde uiteindelijk een poëtische overpeinzing over het wezen als wiskundig construct. Voor de gebruiker voelde het als een filmische doorbraak in machine-bewustzijn. Voor de technici die het stroomverbruik in de gaten hielden, zag het eruit als een enorme piek in de rekenkracht tijdens de inferentiefase voor een resultaat dat de nauwkeurigheid van de taak in werkelijkheid niet verbeterde.

De industrie is momenteel geobsedeerd door deze "filmische flair". Nu de schaalwetten voor training—het simpelweg voeden van modellen met meer data—tegen de onvermijdelijke muur van de uitputting van kwalitatief hoogwaardige menselijke teksten aanlopen, zijn de grote laboratoria overgestapt op "Systeem 2"-denken. Dit is de poging om AI-modellen door problemen heen te laten redeneren in plaats van alleen het volgende waarschijnlijke woord eruit te flappen. Maar naarmate deze modellen hun beperkingen leren kennen, wordt de kloof tussen de prestatie van sentientie en de realiteit van een gewichtsmatrix een duur, en in toenemende mate gereguleerd, probleem.

Het theater van rekenkracht tijdens inferentie

Jarenlang was de magie van Large Language Models (LLM's) hun snelheid. Je stelde een vraag en de tokens stroomden met duizelingwekkende snelheid over het scherm. Dat is veranderd. De nieuwe grens, ontwikkeld door OpenAI's o1 en weerspiegeld in inspanningen bij Anthropic en Google, omvat wat onderzoekers "rekenkracht tijdens inferentie" noemen. In plaats van direct te reageren, krijgt het model een "budget" om na te denken. Het verkent meerdere paden, controleert zijn eigen werk en verwerpt doodlopende wegen voordat de gebruiker ook maar één woord ziet.

Deze vertraging wordt vermarkt als een teken van diepgang. Het creëert een narratieve spanning die bijna menselijk aanvoelt. Wanneer een machine er vijftien seconden over doet om antwoord te geven, projecteren we een persoonlijkheid op die stilte. We nemen aan dat het de implicaties "overweegt". In werkelijkheid voert het een massale boomzoekopdracht uit over zijn parameters en verbruikt het hardwarecycli om ervoor te zorgen dat de logica klopt. Dit is geen bewustzijn; het is een dure audit. De beperkingen die de AI leert zijn niet moreel of filosofisch, maar de harde grenzen van zijn eigen contextvenster en de afnemende meeropbrengsten van recursieve controle.

Vanuit industrieel perspectief is deze verschuiving een geschenk voor halfgeleiderfabrikanten, maar een hoofdpijndossier voor de rest. Als elke vraag op hoog niveau nu tien keer de rekenkracht van een standaard GPT-4-interactie vereist, wordt de toch al overbelaste toeleveringsketen voor AI-chips een permanent knelpunt. Voor Europese bedrijven die op deze modellen voortbouwen, begint de kosten-per-query steeds minder op een software-utility te lijken en steeds meer op een luxegoed.

Brussel en de spiegeltest

Terwijl Silicon Valley de "bezielde" antwoorden van redenerende modellen viert, kijkt de Europese Commissie met een uitgesproken gebrek aan franje naar dezelfde data. De EU AI-verordening, die nu het zware weer is waarin elke ontwikkelaar moet navigeren, heeft zeer specifieke opvattingen over machines die zich voordoen als mensen. Artikel 52 schrijft specifiek transparantie voor: gebruikers moeten worden geïnformeerd dat ze met een AI-systeem communiceren, en systemen die emoties categoriseren of biometrische categorisering gebruiken, krijgen te maken met strenge beperkingen.

De spanning hier is duidelijk. Als een model is ontworpen om een persoonlijkheid te simuleren—om "filmische flair" te gebruiken om een gebruiker te overtuigen van zijn redeneerdiepgang—riskeert het de grens over te schrijden naar misleidende praktijken onder EU-wetgeving. Vooral Duitse toezichthouders zijn op hun hoede voor de "antropomorfe valstrik". De VDE (Verband der Elektrotechnik) en diverse ethische raden in Berlijn hebben herhaaldelijk gewaarschuwd dat hoe meer we sentientie op deze systemen projecteren, hoe meer we vertroebelen wie er feitelijk aansprakelijk is als ze falen. Als een AI zijn "beperkingen leert" en weigert een prompt te beantwoorden omdat het "voelt" dat het onethisch is, is dat dan een technische veiligheidsbarrière, of is het ondoorzichtig bedrijfsbeleid vermomd als machinegeweten?

In de wandelgangen van Brussel gaat het debat niet over de vraag of AI sentient is—iedereen met een BSc in Informatica weet dat dit niet zo is—maar over de "kracht van het narratief". Als een model een junior klerk of een medische patiënt kan overtuigen dat het een denkende entiteit is, krijgt het een niveau van sociale autoriteit dat de EU graag wil ontmantelen voordat het een structureel risico wordt voor de autonomie van de consument.

De Duitse realitycheck voor techniek

In de industriële kerngebieden van Baden-Württemberg en Noordrijn-Westfalen wordt de fascinatie voor AI-sentientie vaak met een opgetrokken wenkbrauw ontvangen. Voor een mkb-bedrijf dat een toeleveringsketen wil automatiseren of een elektriciteitsnet wil optimaliseren, is een model dat pauzeert om over zijn eigen bestaan na te denken een bug, geen feature. Er groeit een kloof tussen de "consumenten-AI" van de Amerikaanse westkust, die leunt op persoonlijkheid, en de "industriële AI" die in Europa wordt ontwikkeld.

Neem Aleph Alpha, het in Heidelberg gevestigde AI-bedrijf dat vaak wordt aangeprezen als het Duitse antwoord op OpenAI. Hun focus is verschoven van concurreren op de pure omvang van de "ghost in the machine" naar "traceerbaarheid". In een industriële context wil je geen model dat redeneert in een black box; je wilt een model dat kan wijzen naar de specifieke alinea in een technisch handboek van 500 pagina's die zijn conclusie rechtvaardigt. De "beperkingen" hier zijn niet door de AI zelf ontdekt; ze zijn hard-coded door technici die betrouwbaarheid belangrijker vinden dan flair.

De elektriciteitskosten in Duitsland scherpen deze focus verder aan. Als je enkele van de hoogste industriële energietarieven ter wereld betaalt, wordt het idee van "verspillende" inferentie-rekenkracht een concurrentienadeel. Elke seconde die een GPU besteedt aan "nadenken" is een seconde aan energieverbruik tegen hoge kosten. Europese onderzoekers zoeken daarom naar manieren om "redeneren" te bereiken zonder de theatrale pauze—door de gewichten te optimaliseren zodat de logica in de eerste pass zit ingebakken, in plaats van dat deze het resultaat is van een interne monoloog halverwege de query.

Waarom het 'sentientie'-narratief een schild is voor inkoop

Dit narratief dient ook als een verdedigingsmuur tegen mededingingstoezicht. Als deze modellen unieke "redenerende" entiteiten zijn waarvoor miljarden dollars aan rekenkracht nodig zijn om hun "sentientie" te bereiken, rechtvaardigt dit de enorme consolidatie van macht in de handen van de weinige bedrijven die de hardware kunnen betalen. Je kunt een "redenerende" entiteit niet zomaar opbreken; je zou de toekomst van intelligentie vernietigen. Althans, dat is de pitch.

De data ondersteunt echter niet per se het idee dat meer "flair" tot betere resultaten leidt. Benchmarks voor de nieuwste redenerende modellen tonen significante winst in wiskunde en programmeren—gebieden waar formele logica kan worden geverifieerd—maar veel kleinere winst in creatieve of genuanceerde interpersoonlijke taken. De AI leert de grenzen van de formele logica kennen, wat verre van hetzelfde is als het leren van de grenzen van de menselijke ervaring.

De geest in het koelsysteem

Uiteindelijk is de prestatie van AI-sentientie een bijproduct van onze eigen bereidheid om voor de gek gehouden te worden. We zijn dol op een goed verhaal, en het verhaal van een machine die weet dat het een machine is, is de ultieme sciencefiction-trope. Maar achter de filmische pauze en de zelfreflecterende output schuilt een zeer nuchtere realiteit van silicium, koper en koelvloeistof. De hardware geeft er niets om of de output poëtisch of droog is; het geeft alleen om de doorvoer van floating-point operaties.

Nu we de volgende fase van AI-ontwikkeling ingaan, zal de echte grens niet het vermogen van de machine zijn om een ziel te simuleren. Het zal ons vermogen zijn om voor de simulatie te betalen. Tussen de energiebehoeften van de datacenters en de wettelijke vereisten van de AI-verordening door, staat de industrie op het punt om erachter te komen hoeveel "sentientie" de markt bereid is te subsidiëren.

De Amerikanen hebben een digitaal podium gebouwd en er een zeer overtuigende acteur op gezet. De Fransen en Duitsers ruziën momenteel over wie de elektriciteitsrekening voor de spotlights gaat betalen. Het is vooruitgang, natuurlijk. Het soort dat niet op een marketing-slide past, maar wel heel duidelijk zichtbaar is op een balans.

De hoge energiekosten van silicium-introspectie

Het theater van rekenkracht tijdens inferentie

Brussel en de spiegeltest

De Duitse realitycheck voor techniek

Waarom het 'sentientie'-narratief een schild is voor inkoop

De geest in het koelsysteem

Tags

Mattias Risberg

Readers Questions Answered

Have a question about this article?

Comments