I modelli gratuiti di DeepSeek scuotono la corsa all'IA

IA
DeepSeek’s Free Models Shake Up AI Race
La startup cinese DeepSeek ha pubblicato due nuovi modelli aperti che vantano capacità di ragionamento e di gestione di contesti lunghi pari a GPT-5, riducendo drasticamente i costi di calcolo — una mossa che mette in discussione i modelli di business dominanti e solleva nuovi allarmi normativi.

Cosa è successo

Questa settimana DeepSeek, la startup di IA con sede a Hangzhou che è diventata un fenomeno virale all'inizio del 2025, ha rilasciato due nuovi modelli — DeepSeek‑V3.2 e una variante ad alto ragionamento chiamata DeepSeek‑V3.2‑Speciale — rendendo i pesi e il codice ampiamente disponibili sotto una licenza open‑source permissiva. L'azienda posiziona la coppia come modelli ottimizzati per documenti lunghi e risoluzione di problemi multi‑fase; nei benchmark pubblici e nelle simulazioni di competizioni, dichiara prestazioni paragonabili ai più recenti sistemi proprietari di frontiera.

Non si tratta di piccoli aggiornamenti. DeepSeek li descrive come un cambio di passo nell'efficienza del contesto lungo e nell'uso agentico degli strumenti, e l'azienda ha pubblicato model card, un rapporto tecnico e pesi scaricabili per consentire a sviluppatori e ricercatori di sperimentare.

Come funzionano i modelli — e perché i costi di gestione sono inferiori

L'innovazione principale evidenziata da DeepSeek è una forma di sparse attention che chiamano DeepSeek Sparse Attention (DSA). I meccanismi di attenzione sono la parte dei grandi modelli linguistici che permette loro di valutare quali parole e passaggi siano rilevanti per una data risposta. L'attenzione tradizionale scala male con la lunghezza dell'input — il costo computazionale cresce approssimativamente con il quadrato del numero di token — rendendo proibitivo l'inserimento di migliaia o decine di migliaia di token.

Benchmark, competizioni e compiti nel mondo reale

DeepSeek ha pubblicato un mix di benchmark standard e valutazioni più spettacolari in stile competizione. La variante Speciale viene presentata come un motore di ragionamento profondo, ottimizzato attraverso l'apprendimento per rinforzo e regimi di addestramento specializzati; secondo i numeri riportati dall'azienda, raggiunge prestazioni da medaglia d'oro in diverse competizioni d'élite di programmazione e matematica, e ottiene risultati competitivi nei benchmark di coding e ragionamento tipicamente utilizzati per confrontare i modelli di frontiera.

I risultati di queste competizioni colpiscono sulla carta: i materiali di DeepSeek riportano punteggi elevati in problemi delle olimpiadi di matematica e informatica affrontati sotto vincoli simili a quelli dei test, e mostrano solide prestazioni nei benchmark dei flussi di lavoro di programmazione. Se i numeri reggeranno a una revisione indipendente, indicheranno che un set più ridotto di modifiche architettoniche e un addestramento mirato possono fornire guadagni nel ragionamento senza dover semplicemente scalare la potenza di calcolo all'infinito.

Pensiero "agentico" con gli strumenti

Un secondo progresso pratico sottolineato da DeepSeek è la preservazione del ragionamento interno quando il modello interagisce con strumenti esterni — ricerca, esecuzione di codice, editing di file e così via. I modelli precedenti tendono a perdere la loro catena di pensiero interna ogni volta che richiamano un'API esterna; DeepSeek rimedia a questo con una pipeline di addestramento su compiti sintetici multi‑fase, in modo che il modello impari a mantenere e portare avanti piani parziali mentre interroga gli strumenti. Ciò rende i flussi di lavoro multi‑fase — come il debug di codice complesso, la pianificazione logistica con vincoli variabili o la navigazione nella ricerca attraverso molti documenti — molto più fluidi nella pratica.

Il regime di addestramento descritto da DeepSeek include migliaia di ambienti sintetici e variazioni di compiti destinati a insegnare al modello come deliberare e agire in tandem. Per gli sviluppatori che creano agenti autonomi o flussi di lavoro assistenziali, questa capacità conta quanto i punteggi grezzi dei benchmark: riduce l'attrito ingegneristico nel collegare strumenti e modelli.

A differenza della maggior parte delle aziende che mantengono i loro modelli più grandi dietro API a pagamento, DeepSeek ha rilasciato i pesi del modello e il codice sotto una licenza di tipo MIT e ha pubblicato esempi di integrazione per i runtime più diffusi. Questa mossa abbassa la barriera per l'implementazione — le aziende possono eseguire i modelli on-premise, i ricercatori possono ispezionare logit e modalità di errore, e le startup possono costruire agenti senza le stesse preoccupazioni di vendor lock‑in.

La combinazione di pesi aperti e miglioramenti dell'efficienza è importante dal punto di vista commerciale: costi di inferenza inferiori e opzioni di self-hosting cambiano sia l'economia unitaria che i calcoli del rischio per i clienti che necessitano di un uso intensivo del ragionamento su contesti lunghi (legal discovery, analisi di software, revisione della letteratura scientifica). Allo stesso tempo, l'open sourcing dei modelli di frontiera accelera la sperimentazione in modi che i fornitori proprietari non possono facilmente controllare.

Tensioni normative e attriti geopolitici

Tutti questi cambiamenti tecnici e commerciali si intersecano con la politica. Diversi regolatori e governi hanno già segnalato la gestione dei dati e il profilo di sicurezza nazionale di DeepSeek. Le autorità europee hanno indagato e, in alcuni casi, ordinato blocchi temporanei o rimozioni di app, e vari governi hanno consigliato cautela o limitato l'uso sui dispositivi ufficiali. Tali azioni complicano l'adozione nei settori regolamentati e sottolineano che la disponibilità aperta dei pesi non elimina le preoccupazioni sui flussi di dati o sull'accesso da parte di governi stranieri.

Le aziende che intendono implementare questi modelli devono riflettere sulla residenza dei dati, sulla conformità alle norme locali sulla privacy e sulla provenienza della catena di approvvigionamento per l'hardware di addestramento e inferenza — questioni che sono ora centrali per l'approvvigionamento e la valutazione del rischio, piuttosto che semplici riflessioni tecniche a posteriori.

Cosa significa per il panorama dell'IA

Ci sono tre conclusioni generali. In primo luogo, l'efficienza architettonica (non solo la scala della forza bruta) può spostare la frontiera, specialmente per i compiti agentici e di contesto lungo. In secondo luogo, il rilascio aperto di modelli ad alta capacità costringe gli operatori storici a ripensare le strategie di prezzo e di prodotto: governi, imprese e sviluppatori hanno ora un'alternativa più facile da ospitare autonomamente. In terzo luogo, la politica e la fiducia rimangono fattori determinanti: il progresso tecnico da solo non determinerà chi vincerà o quanto ampiamente questi sistemi verranno distribuiti.

Per le organizzazioni europee e statunitensi in particolare, la sfida è pratica: bilanciare i benefici operativi e di costo di un modello efficiente e disponibile gratuitamente con le questioni irrisolte sulla governance dei dati, gli audit di terze parti e il rischio normativo. I prossimi mesi saranno un esperimento dal vivo su come il mercato, i regolatori e i fornitori si adatteranno.

Cosa osserverò

  • Audit indipendenti e repliche delle affermazioni di DeepSeek sui benchmark.
  • Accordi aziendali che mostrino chi sceglie di ospitare autonomamente questi pesi e sotto quali misure di sicurezza.
  • Sentenze normative che chiariscano come le norme sulla protezione dei dati si applichino ai servizi di modelli ospitati all'estero e ai pesi aperti.
  • La risposta dei principali fornitori di cloud e silicio — sia tecnicamente (supporto runtime, kernel ottimizzati) che commercialmente (prezzi, partnership).

Il rilascio di DeepSeek ci ricorda che la corsa all'IA riguarda ora molteplici leve — architettura, dati, strumenti, distribuzione e regolamentazione — non solo la potenza di calcolo pura. Per ingegneri, product leader e responsabili politici, questa complessità è una caratteristica: crea sia opportunità che molte domande difficili a cui rispondere prima che queste capacità diventino un'infrastruttura fondamentale.

— Mattias Risberg, Dark Matter

Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q Quali modelli ha rilasciato DeepSeek e per cosa sono stati progettati?
A DeepSeek ha rilasciato due modelli aperti: DeepSeek-V3.2 e una variante ad alto ragionamento denominata DeepSeek-V3.2-Speciale. I pesi e il codice sono ampiamente disponibili sotto una licenza in stile MIT, e la coppia è proposta per l'analisi di documenti lunghi e la risoluzione di problemi multi-step. Nei benchmark pubblici e nelle simulazioni di concorsi, DeepSeek dichiara prestazioni paragonabili ai più recenti sistemi proprietari di frontiera.
Q Cos'è la DeepSeek Sparse Attention e perché è importante?
A L'innovazione principale è la DeepSeek Sparse Attention (DSA), una forma di attenzione sparsa che migliora l'efficienza nei contesti lunghi riducendo i costi di calcolo derivanti dalla scalabilità quadratica dei token tipica dell'attenzione tradizionale. L'azienda afferma che essa consente l'elaborazione di migliaia di token e supporta l'uso di strumenti agentici, mantenendo il ragionamento interno attraverso le chiamate a strumenti esterni.
Q In che modo la licenza aperta influisce sull'implementazione e sulla sperimentazione?
A Rilasciando i pesi e il codice del modello sotto una licenza in stile MIT e fornendo esempi di integrazione, DeepSeek riduce le barriere all'implementazione: le imprese possono optare per l'auto-hosting on-premises, i ricercatori possono ispezionare i logit e le modalità di errore, e le startup possono creare agenti senza vincoli di fornitura (vendor lock-in), riducendo potenzialmente i costi di inferenza ed espandendo gli strumenti per i flussi di lavoro a contesto lungo.
Q Quali sono le preoccupazioni normative e geopolitiche associate a questi modelli?
A Le autorità di regolamentazione hanno segnalato la gestione dei dati e il profilo di sicurezza nazionale di DeepSeek, con le autorità europee che indagano e talvolta bloccano o rimuovono le app. I governi consigliano cautela e le decisioni di implementazione devono considerare la residenza dei dati, la conformità alla privacy locale e la provenienza della catena di fornitura per l'hardware di addestramento e inferenza, influenzando l'approvvigionamento e le valutazioni dei rischi nei settori regolamentati.
Q Quali sono le implicazioni più ampie per il panorama dell'IA?
A Emergono tre conclusioni principali: l'efficienza architetturale può far progredire le capacità di frontiera per i compiti a contesto lungo; i rilasci aperti costringono gli operatori consolidati a ripensare i prezzi e le opzioni di auto-hosting; e le politiche e la fiducia rimangono fattori limitanti, con considerazioni pratiche sulla governance dei dati, audit di terze parti e rischi normativi che influenzano l'adozione in Europa e negli Stati Uniti.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!