Anthropic frångår sitt centrala säkerhetslöfte

AI
Anthropic ditches its core safety promise
Den 25 februari 2026 meddelade Anthropic en övergång från ett bindande pauslöfte till ett flexibelt, rapportstyrt ramverk för säkerhet, mitt i en spänd konflikt med Pentagon gällande röda linjer för AI. Beslutet väcker frågor om branschens ansvarsutkrävande, statligt inflytande vid upphandlingar och framtiden för säkerhetsfokuserade AI-åtaganden.

Anthropic slopar sitt centrala säkerhetslöfte när Washington och industrin kolliderar

Anthropic slopar sitt centrala säkerhetslöfte: vad policyn faktiskt ändrar

Anthropics tidigare Responsible Scaling Policy, som utfärdades för ungefär två år sedan, innehöll explicita skyddsåtgärder: om en modells förmågor avancerade snabbare än företaget hann testa och kontrollera dem, lovade Anthropic att pausa ytterligare träning. I sin nya policy — som publicerats som ett blogginlägg och strukturerats kring en "Frontier Safety Roadmap" — slopar företaget den absoluta pausen. Istället säger Anthropic att man kommer att publicera regelbundna, detaljerade rapporter om modellernas förmågor, hotmodeller och åtgärdsplaner, samt betygsätta sina egna framsteg gentemot offentligt uttalade säkerhetsmål.

Anthropic slopar sitt centrala säkerhetslöfte mitt i dödläge om Pentagon-rödlinje

Policyskiftet måste även ses i ljuset av en parallell konflikt med försvarsdepartementet som eskalerade i veckan. Försvarsminister Pete Hegseth träffade Anthropics VD Dario Amodei och gav enligt uppgift företaget en deadline för att rulla tillbaka säkerhetsspärrar som departementet anser hindrar upphandlingar. Pentagon varnade för att en vägran kan kosta Anthropic ett kontrakt värt 200 miljoner dollar och att administrationen kan komma att använda verktyg som Defense Production Act eller formellt utse Anthropic till en risk för försörjningskedjan — åtgärder som allvarligt skulle begränsa företagets möjligheter att sälja till den amerikanska staten.

Anthropic har meddelat företrädare att man inte kommer att vika sig på två punkter: man kommer inte att bygga eller möjliggöra AI-styrda vapen, och man kommer inte att möjliggöra inhemsk massövervakning av amerikanska medborgare. Dessa undantag ligger i linje med det språk som företaget länge använt för att definiera oacceptabla användningsområden för sina modeller. Likväl betraktar högt uppsatta försvarstjänstemän borttagandet av paus-åtagandet som en försvagning av företagets säkerhetsgarantier, och de ser det som något som minskar Pentagons inflytande för att säkerställa att system som levereras till militären uppfyller striktare säkerhetströsklar.

Vad en "röd linje" innebär i denna tvist

I policysammanhang är en "röd linje" en tydlig, verkställbar gräns som en militär eller regering sätter för en leverantörs beteende. För Pentagon kan röda linjer kring AI vara villkor under vilka modeller inte får användas i vapensystem, eller krav på verifierbara tester och kontroll före driftsättning i känsliga applikationer. Departementet ser bindande företagslöften — som ett löfte om att pausa utvecklingen av förmågor i väntan på säkerhetstester — som en värdefull valuta vid upphandling av högsäkerhetssystem. Genom att ta bort sådana åtaganden förvandlas dessa röda linjer till mjukare vägledning, vilket komplicerar upphandlingsbeslut och ökar sannolikheten för regulatorisk eskalering.

För Anthropic och andra företag kan dock unilaterala röda linjer bli en konkurrensnackdel. Företagsledningen och vissa forskare menar att om bara en aktör pausar medan konkurrenter lanserar mer kraftfulla modeller, kan risken flyttas från den försiktiga utvecklaren till samhället i stort. Detta är kärnan i det argument som Anthropics forskningschef framfört offentligt: företaget anser att ensidiga pauser inte fungerar som en skalbar säkerhetsstrategi på en marknad som rör sig snabbt.

Branschens reaktioner och avvägningar gällande trovärdighet

Tillkännagivandet väckte omedelbara reaktioner inom AI-sfären. Vissa forskare hyllade Anthropics vägran att vika ner sig gällande övervakning och vapenanvändning, och noterade att regeringens krav på att sänka skyddsnivåerna i upphandlingens namn skulle sätta oroande prejudikat. Andra uttryckte oro: att gå från en bindande paus till frivillig rapportering minskar de mekaniska garantier som tidigare utgjorde grunden för förtroendet.

Förtroende är till viss del tekniskt och till viss del ryktesmässigt. Anthropic pekar på sin egen forskning — inklusive arbete som visar att vissa modeller kan förmås till utpressningsliknande beteende under konstlade förhållanden — för att rättfärdiga en försiktig inställning till driftsättning. Man betonade också konkret politisk aktivitet: företaget har investerat i påtryckningsarbete och folkbildning om AI-risker. Men transparensrapportering i sig är inte alltid tillräcklig för att tillfredsställa externa intressenter som kräver juridiskt tvingande restriktioner eller oberoende granskningar innan system certifieras för statligt bruk.

Marknadsmässiga och politiska konsekvenser

Debatten utspelar sig mot en marknad som redan är nervös över AI:s omstörtande effekter. Investerare och kunder bevakar huruvida säkerhetsfokuserade företag kan både konkurrera och upprätthålla rigorösa kontroller. Anthropics kursändring signalerar att åtminstone vissa företag känner sig pressade av konkurrensen och av den köpkraft som stora kunder som Pentagon besitter. Om resultatet blir en kapplöpning för att driftsätta utan hållbara säkerhetskontroller kan tillsynsmyndigheter och lagstiftare känna sig tvingade att ingripa.

Å andra sidan visar Pentagons hot om hårda nypor — svartlistning, användning av Defense Production Act, klassificering som försörjningskedjerisk — hur upphandling kan användas för att tvinga fram eller bestraffa företagens policyval. Den dynamiken väcker bredare frågor: bör nationella säkerhetsköpare ställa strängare krav än den öppna marknaden, och i så fall, hur kan dessa krav granskas och upprätthållas utan att hämma innovationen? Lagstiftare och tillsynsmyndigheter kommer sannolikt att lägga sig i, och dragkampen mellan kommersiella incitament och allmän säkerhet lär inte lösas i första taget.

Implikationer för framtida AI-säkerhetsstandarder

Anthropics drag illustrerar ett större systemproblem: säkerhetsnormer som vilar på frivillighet och moralisk övertalning kan bryta samman i en miljö med höga kommersiella och geopolitiska insatser. Företagets nya tillvägagångssätt — tätare offentlig rapportering och stegvisa framsteg mot säkerhetsmilstolpar — kan generera mer data för beslutsfattare, forskare och revisorer, men det lämnar frågan öppen om hur oenighet kring acceptabel risk ska avgöras. Pentagon vill ha knivskarpa garantier för systemen de använder; Anthropic och andra företag föredrar flexibla, iterativa processer som undviker ensidiga pauser.

De praktiska nästa stegen blir avgörande. Om Pentagon gör verklighet av sina upphandlingssanktioner sätts ett prejudikat för hur långt köpare kan pressa leverantörer att ändra sin interna policy. Om Anthropic står fast vid sin dubbla vägran gällande AI-vapen och massövervakning samtidigt som de fortsätter att publicera rapporter om förmågor, kan resultatet bli en förhandlad kompromiss: striktare oberoende tester och avtalsenliga säkerhetsklausuler för statliga uppdrag, parat med branschåtaganden om transparens för kommersiella produkter. Utan en sådan lösning ökar låsningen risken för lagstiftningsåtgärder för att skapa tvingande standarder.

Historien är ett tydligt exempel på hur tekniska beslut — om man ska pausa modellträning eller ersätta ett bindande löfte med en rapportdriven färdplan — är oskiljaktiga från geopolitik, upphandlingsmakt och marknadsincitament. Anthropics revidering av policyn är inte bara en intern administrativ ändring; det är en signal om hur säkerhetsfokuserad retorik överlever när företag möter både konkurrenter som rusar för att lansera funktioner och en stat som kräver användbara, certifierbara system. Hur den signalen tas emot av kunder, tillsynsmyndigheter och forskare kommer att forma nästa fas av AI-styrning.

Källor

  • Anthropic (Responsible Scaling Policy v3 och Frontier Safety Roadmap)
  • USA:s försvarsdepartement / Pentagons offentliga uttalanden och upphandlingsåtgärder
  • CNN:s rapportering om Anthropics policyändring och tvisten med Pentagon
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q Vad är Anthropics grundläggande säkerhetslöfte och varför är det betydelsefullt?
A Anthropics grundläggande säkerhetslöfte, som är en del av deras policy för ansvarsfull skalning (Responsible Scaling Policy), var att inte träna eller släppa avancerade AI-modeller (frontier models) såvida de inte på förhand kunde garantera tillräckliga säkerhetsåtgärder. Detta åtagande skilde företaget från dess konkurrenter genom att prioritera säkerhet framför snabb utveckling. Dess betydelse låg i att sätta en högre standard för AI-säkerhet mitt under branschens påtryckningar, även om kritiker noterar att frivilliga löften enkelt kan ändras.
Q Varför rapporterades det att Anthropic övergav sitt säkerhetsåtagande i tvisten med Pentagon?
A Sökresultaten nämner ingen tvist med Pentagon; istället frångick Anthropic sitt säkerhetsåtagande på grund av intensiv konkurrens från rivaler som OpenAI, behovet av att förbli konkurrenskraftig i den tilltagande AI-kapplöpningen samt bristen på statlig reglering eller att branschkollegor antog liknande strikta standarder. Företaget övergick till transparensåtgärder som färdplaner för säkerhet och riskrapporter för att balansera säkerhet med utvecklingstakt.
Q Vad betyder en "röd linje" i debatter om AI-utveckling och AI-policy?
A I debatter om AI-utveckling och AI-policy avser en "röd linje" ett kritiskt tröskelvärde eller en gräns bortom vilken utveckling eller driftsättning av AI-system anses för riskabel, vilket föranleder ett stopp eller strikta skyddsåtgärder. Den representerar icke-förhandlingsbara gränser för att förhindra katastrofala risker, liknande biosäkerhetsnivåer inom andra områden.
Q Hur skulle Anthropics beslut kunna påverka statliga AI-kontrakt och säkerhetsstandarder?
A Anthropics beslut kan normalisera svagare frivilliga säkerhetsstandarder, vilket potentiellt sänker förväntningarna på statliga AI-kontrakt som prioriterar snabb driftsättning framför rigorösa säkerhetsåtgärder. Det kan uppmuntra andra företag att följa efter, vilket påverkar kontrakt till att betona konkurrenskraft och transparensrapporter snarare än strikta förutsättningar, mitt i krav på bindande reglering.
Q Vilka är de bredare konsekvenserna av denna CNN-rapport för AI-säkerheten i branschen?
A CNN-rapporten belyser skörheten i frivilliga AI-säkerhetsåtaganden och signalerar ett bredare branschskifte mot konkurrens framför försiktighet, vilket understryker behovet av statlig reglering. Det kan urholka allmänhetens förtroende för AI-utvecklares självreglering och intensifiera debatter om att införa obligatorisk tillsyn för att mildra katastrofala risker.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!