ARTEMIS-AI verslaat 90% van de pentesters

AI
ARTEMIS AI Beats 90% of Pen-Testers
Een onderzoek onder leiding van Stanford toont aan dat ARTEMIS, een multi-agent AI, meer echte kwetsbaarheden vond dan negen van de tien professionele penetratietesters in een live universiteitsnetwerk met 8.000 hosts—tegen een fractie van de kosten van menselijke teams. Het onderzoek, deze week gepubliceerd op arXiv, belicht zowel de operationele sterktes als de duidelijke limieten van AI-gestuurde red teaming.

ARTEMIS presteert beter dan de meeste menselijke pen-testers in een live praktijktest

Toen een cluster van laptops en terminals vol met scripts deze maand begon met het scannen van een omvangrijk universitair netwerk van ongeveer 8.000 hosts, waren de indringers geen team van menselijke hackers die een weekendopdracht uitvoerden. Het was ARTEMIS: een multi-agent kunstmatige intelligentie-systeem ontwikkeld door onderzoekers van Stanford en getest in samenwerking met Carnegie Mellon en industriepartner Gray Swan AI. Een paper die deze week op de preprint-server werd geplaatst, meldt dat ARTEMIS als tweede eindigde in de competitie, negen gevalideerde kwetsbaarheidsrapporten produceerde met een validatiepercentage van 82%, en beter presteerde dan negen van de tien menselijke professionele penetratietesters.

Het experiment is een van de eerste grootschalige, directe vergelijkingen van agentic AI-red-team-tools met bekwame menselijke specialisten die opereren in een operationele, productie-achtige omgeving. Die setting is belangrijk: het stelde de AI bloot aan de ruis, de eigenaardigheden van authenticatie en de interactieve UI-elementen die in gesimuleerde benchmarks vaak ontbreken. Het resultaat is een duidelijker beeld van waar autonome security-agents mensen al evenaren of overtreffen, en waar ze nog tekortschieten.

ARTEMIS-architectuur en workflow

ARTEMIS is geen enkel monolithisch model, maar een klein ecosysteem. Aan de top staat een supervisor die plant en delegeert; daaronder voert een zwerm sub-agents gerichte taken uit, zoals scannen, exploitatiepogingen en het verzamelen van informatie; en een triagemodule verifieert kandidaat-bevindingen voordat ze worden gerapporteerd. Het team beschrijft dynamische prompt-generatie, willekeurige sub-agents die zijn aangepast als kortstondige specialisten, en geautomatiseerde kwetsbaarheidstriage als de kerninnovaties die ARTEMIS breedte en volharding geven.

Die multi-agent-opzet maakt parallellisme mogelijk — ARTEMIS kan veel verkennings- en exploitatiethreads tegelijkertijd uitvoeren zonder de pauzes en middelenbeperkingen waar mensen mee te maken hebben. Het ontwerp stelt het systeem ook in staat om sub-agents on the fly te herconfigureren: wanneer één benadering vastloopt, wordt een andere opgestart met een andere prompt en een beperktere opdracht. De triagefase is bijzonder belangrijk; deze filtert overduidelijke fout-positieven en verbetert de signaal-ruisverhouding van de bevindingen, wat een veelvoorkomend zwak punt is van eenvoudigere geautomatiseerde scanners.

De live praktijktest: schaal, score en kosten

De praktijktest vond plaats op een universitair netwerk dat een dozijn subnetten en duizenden apparaten omvatte. Vergeleken met eerdere evaluaties in benchmarkstijl, koos het team bewust voor deze omgeving om agents te testen in een realistische operationele context. ARTEMIS identificeerde negen geldige kwetsbaarheden en behaalde een validatiepercentage van 82% voor zijn inzendingen. Die combinatie zorgde voor een tweede plaats in de competitie, vóór de meeste menselijke deelnemers.

De kosten waren een andere eye-opener. De onderzoekers rapporteren dat hun meest efficiënte ARTEMIS-configuratie (A1 genaamd) draait voor ongeveer $18,21 per uur aan kosten voor cloud-inferentie en -orchestratie — ruim onder de markttarieven voor professionele penetratietesters, waarvoor de studie ongeveer $60 per uur als uitgangspunt neemt. De puur economische implicatie is duidelijk: organisaties kunnen nu continue, geautomatiseerde red-teams inzetten tegen een fractie van de personeelskosten.

Sterktes: schaal, volharding en systematische enumeratie

ARTEMIS vertoont voordelen die voor menselijke teams moeilijk te evenaren zijn. Het blinkt uit in systematische enumeratie over duizenden hosts, langdurige campagnes van meerdere uren zonder vermoeidheid, en het gelijktijdig scannen van meerdere doelen. Waar een menselijke tester prioriteiten moet stellen en een volgorde moet bepalen, kan ARTEMIS vele onderzoekslijnen parallel laten lopen en resultaten snel hercombineren. Voor routineuze detectie van het aanvalsoppervlak, controles op misconfiguraties en op patronen gebaseerde exploits was de agent herhaaldelijk sneller en uitputtender.

Deze eigenschappen maken ARTEMIS aantrekkelijk als krachtvermenigvuldiger voor security-teams: het kan het zware, repetitieve werk uit handen nemen en beslissingen die veel context vereisen en complexe herstelwerkzaamheden overlaten aan mensen.

Beperkingen en faalmodi

Ondanks de opvallende prestaties vertoonde ARTEMIS ook duidelijke zwaktes. Het produceerde een hoger aantal fout-positieven dan de beste menselijke testers en had moeite met GUI-intensieve workflows en interactieve webinterfaces. Het rapport belicht een treffend voorbeeld: toen een kritieke remote-code-execution-kwetsbaarheid vereiste dat er genavigeerd werd door een webgebaseerde administratie-UI, slaagde 80% van de menselijke testers erin deze te exploiteren; ARTEMIS slaagde er niet in de exploit te reproduceren en rapporteerde in plaats daarvan bevindingen met een lagere ernst.

Deze beperkingen zijn te herleiden tot kloven in perceptie en actie. Taalmodellen en prompt-gestuurde agents zijn sterk in tekstueel redeneren en het genereren van scripts, maar ze zijn kwetsbaar waar interactie op pixelniveau, timing of onvoorspelbare frontend-logica vereist zijn. De studie wijst ook op zorgen over dual-use: een krachtige, open-source red-team-agent zou door kwaadwillenden kunnen worden misbruikt als er geen waarborgen en praktijken voor verantwoorde publicatie worden afgedwongen.

Vergelijkingen met andere AI-agents

De onderzoekers vergeleken ARTEMIS met andere agent-frameworks — voorbeelden in de paper omvatten eerdere single-agent-systemen en implementaties die uitsluitend op taalmodellen zijn gebaseerd. Die alternatieven, inclusief eerder geëvalueerde agents, presteerden minder goed dan de meeste menselijke deelnemers en de multi-agent-configuraties van ARTEMIS. De studie schrijft de voorsprong van ARTEMIS toe aan het supervisor/sub-agent/triage-patroon en de dynamische taaktoewijzing, in plaats van alleen aan de pure modelgrootte.

Implicaties voor verdedigers, aanvallers en beleid

De praktische conclusie is tweeledig. Aan de ene kant kunnen tools in de stijl van ARTEMIS het vermogen van verdedigers om problemen vroegtijdig, goedkoop en op schaal te vinden, drastisch verbeteren. Organisaties kunnen geautomatiseerde red-teams integreren in continue security-pipelines, eenvoudige misconfiguraties snel aan het licht brengen en herstelwerkzaamheden effectiever prioriteren. Aan de andere kant verlagen dezelfde mogelijkheden de drempel voor offensieve automatisering: minder bekwame aanvallers, geholpen door agentic AI, zouden brede, snelle campagnes kunnen voeren waarvoor voorheen gecoördineerde menselijke teams nodig waren.

Dat dual-use-karakter sluit aan bij een bredere discussie die momenteel gaande is in industrie- en beleidskringen: hoe de defensieve waarde te benutten en tegelijkertijd de risico's te beperken. Het onderzoeksteam heeft artefacten gepubliceerd en componenten open-source gemaakt om transparantie te bevorderen en defensie te versnellen. Hun aanpak is expliciet pragmatisch: verdedigers zouden moeten experimenteren met agentic tools in gecontroleerde omgevingen, terwijl platform- en cloudproviders, normalisatie-instellingen en regelgevers werken aan vangrails voor veilige publicatie en detectie van misbruik.

Hoe teams moeten reageren

Voor security-leiders zijn de onmiddellijke stappen duidelijk. Ten eerste: beschouw geautomatiseerde agents als hulpmiddelen ter aanvulling op — en niet ter vervanging van — menselijke expertise. Gebruik ze om de dekking te vergroten en detectie te versnellen, maar behoud menselijke triage en exploitatie waar context, oordeelsvorming en creatieve probleemoplossing vereist zijn. Ten tweede: versterk telemetrie en anomaliedetectie om het gebruik van agentic workflows door aanvallers te spotten. Ten derde: investeer in human-in-the-loop-processen en red-team-orchestratie die de snelheid van AI combineren met menselijk inzicht.

Ten slotte zouden spelers in de sector moeten samenwerken aan kaders voor verantwoorde publicatie, gestandaardiseerde benchmarks die de echte operationele complexiteit weerspiegelen, en mechanismen voor het delen van dreigingsinformatie die zijn afgestemd op operaties op 'agent-snelheid'.

ARTEMIS markeert een duidelijk kantelpunt: autonome agents zijn niet langer laboratoriumcuriositeiten. In gecontroleerde tests kunnen ze op grote netwerken meer vinden dan de meeste menselijke testers, continu en goedkoop opereren, en de manier waarop routineus offensief security-werk wordt gedaan hervormen. Maar ze maken ook de resterende grenzen van de huidige AI zichtbaar — GUI-interactie, genuanceerde exploitatie en de laatste 10-20% van probleemoplossing waar menselijke creativiteit nog steeds regeert. De volgende fase zal draaien om het inzetten van deze agents in teams en systemen die zijn ontworpen om de voordelen aan de defensieve kant van de vergelijking te houden.

Bronnen

  • arXiv (onderzoekspaper over ARTEMIS multi-agent penetratietesten)
  • Stanford University (onderzoeksteam en studiemateriaal)
  • Carnegie Mellon University (samenwerkende onderzoekers)
  • Gray Swan AI (industriepartner en bijdragen aan tools)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q Hoe presteerde ARTEMIS in de live universitaire netwerktest in vergelijking met menselijke pentesters?
A ARTEMIS leverde een uitstekende prestatie in de live proef, waarbij negen geldige kwetsbaarheden werden geïdentificeerd met een validatiepercentage van 82%. Hiermee eindigde het systeem als tweede in het algemeen klassement en presteerde het beter dan negen van de tien professionele testers. De test omvatte ongeveer 8.000 hosts verspreid over een dozijn subnetten, wat de schaalbaarheid en geautomatiseerde effectiviteit van ARTEMIS in productie-achtige omstandigheden benadrukte.
Q Hoe is ARTEMIS gestructureerd en welke rollen spelen de verschillende componenten?
A ARTEMIS is eerder een klein ecosysteem dan een enkel model: een supervisor op het hoogste niveau plant en delegeert taken, een zwerm sub-agenten voert gerichte acties uit zoals scannen, exploitatie en het verzamelen van informatie, en een triage-module verifieert kandidaat-bevindingen voorafgaand aan de rapportage. Dynamische prompt-generatie en directe herconfiguratie van sub-agenten geven ARTEMIS breedte, persistentie en aanpassingsvermogen.
Q Wat zijn de belangrijkste sterke punten van ARTEMIS in de proef?
A De sterke punten van ARTEMIS liggen in schaalbaarheid, persistentie en systematische enumeratie. Het kan duizenden verkenningsthreads parallel uitvoeren, campagnes van meerdere uren volhouden zonder vermoeidheid en vele doelwitten uitputtend onderzoeken. Deze aanpak maakt snelle recombinatie van resultaten en het zware werk bij routine-ontdekkingen mogelijk, terwijl beslissingen met een hoge context en herstelwerkzaamheden aan menselijke verdedigers worden overgelaten, waardoor het effectief fungeert als een krachtvermenigvuldiger.
Q Wat waren de beperkingen en opmerkelijke faalmodi van ARTEMIS?
A ARTEMIS vertoonde aanzienlijke beperkingen, waaronder een hoger aantal fout-positieven dan de beste menselijke testers en moeilijkheden met GUI-intensieve workflows en interactieve webinterfaces. Een treffend voorbeeld: wanneer een kritieke kwetsbaarheid voor remote-code-execution navigatie door een webgebaseerde admin-UI vereiste, slaagde 80% van de menselijke testers, terwijl ARTEMIS er niet in slaagde de exploit te reproduceren en bevindingen met een lagere ernst rapporteerde. Tekortkomingen in waarneming en actie liggen ten grondslag aan deze zwaktes.
Q Wat zijn de kostenimplicaties en beleidsoverwegingen?
A De kosten en beleidsimplicaties waren opvallend: de meest efficiënte ARTEMIS-configuratie kost ongeveer $18.21 per uur aan cloud-inferentie en orkestratie, ver onder de basislijn van bijna $60 per uur voor professionele pentesters. De verlaagde kosten maken continue geautomatiseerde 'red teams' mogelijk, maar roepen zorgen op over 'dual-use' met betrekking tot het herbestemmen van agentic AI voor offensieve campagnes zonder mitigaties en praktijken voor verantwoorde publicatie.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!