Les modèles gratuits de DeepSeek bouleversent la course à l'IA

IA
DeepSeek’s Free Models Shake Up AI Race
La startup chinoise DeepSeek a publié deux nouveaux modèles ouverts revendiquant un niveau de raisonnement comparable à GPT-5 et des capacités de contexte étendu, tout en réduisant considérablement les coûts de calcul — une initiative qui bouscule les modèles économiques établis et suscite de nouvelles inquiétudes réglementaires.

Ce qu'il s'est passé

Cette semaine, DeepSeek, la startup d'IA basée à Hangzhou qui a fait sensation au début de l'année 2025, a publié deux nouveaux modèles — DeepSeek‑V3.2 et une variante à haut raisonnement appelée DeepSeek‑V3.2‑Speciale — et a mis les poids et le code à disposition sous une licence open‑source permissive. L'entreprise positionne ce duo comme des modèles optimisés pour les documents longs et la résolution de problèmes en plusieurs étapes ; dans les benchmarks publics et les simulations de concours, elle revendique des performances comparables aux systèmes propriétaires de pointe les plus récents.

Il ne s'agit pas de mises à jour mineures. DeepSeek les décrit comme un changement radical dans l'efficacité des contextes longs et l'utilisation d'outils agentiques, et l'entreprise a publié des fiches de modèles (model cards), un rapport technique et les poids téléchargeables pour que les développeurs et les chercheurs puissent les expérimenter.

Comment les modèles fonctionnent — et pourquoi ils coûtent moins cher à exploiter

L'innovation phare mise en avant par DeepSeek est une forme d' attention parcimonieuse (sparse attention) qu'ils appellent DeepSeek Sparse Attention (DSA). Les mécanismes d'attention sont la partie des grands modèles de langage qui leur permet de soupeser quels mots et passages importent pour une réponse donnée. L'attention traditionnelle s'adapte mal à la longueur de l'entrée — le coût de calcul croît approximativement avec le carré du nombre de tokens — de sorte que l'injection de milliers ou de dizaines de milliers de tokens devient d'un coût prohibitif.

Benchmarks, compétitions et tâches en conditions réelles

DeepSeek a publié un mélange de benchmarks standards et d'évaluations plus spectaculaires de type concours. La variante Speciale est présentée comme un moteur de raisonnement profond affiné par l'apprentissage par renforcement et des régimes d'entraînement spécialisés ; selon les chiffres rapportés par l'entreprise, elle atteint des performances de niveau médaille d'or dans plusieurs concours d'élite de programmation et de mathématiques, et affiche des résultats compétitifs sur les benchmarks de codage et de raisonnement généralement utilisés pour comparer les modèles de pointe.

Ces résultats de concours sont frappants sur le papier : les documents de DeepSeek font état de scores élevés sur des problèmes d'olympiades de mathématiques et d'informatique réalisés sous des contraintes d'examen, et montrent de solides performances sur les benchmarks de flux de travail de codage. Si les chiffres se confirment lors d'examens indépendants, ils indiquent qu'un ensemble restreint de changements architecturaux et un entraînement ciblé peuvent apporter des gains de raisonnement sans se contenter d'augmenter indéfiniment la puissance de calcul.

La « pensée par outils » agentique

Une seconde avancée pratique soulignée par DeepSeek est la préservation du raisonnement interne lorsque le modèle interagit avec des outils externes — recherche, exécution de code, édition de fichiers, etc. Les modèles précédents ont tendance à perdre leur chaîne de pensée interne chaque fois qu'ils appellent une API externe ; DeepSeek couple cela à un pipeline d'entraînement de tâches synthétiques à étapes multiples afin que le modèle apprenne à maintenir et à poursuivre des plans partiels pendant qu'il interroge les outils. Cela rend les flux de travail multi-étapes — débogage de code complexe, planification logistique avec contraintes changeantes ou navigation de recherche à travers de nombreux documents — beaucoup plus fluides en pratique.

Le régime d'entraînement décrit par DeepSeek comprend des milliers d'environnements synthétiques et de variations de tâches destinés à apprendre au modèle comment délibérer et agir en tandem. Pour les développeurs qui construisent des agents autonomes ou des flux de travail d'assistants, cette capacité importe tout autant que les scores bruts aux benchmarks : elle réduit les frictions d'ingénierie liées à l'assemblage des outils et des modèles.

Contrairement à la plupart des entreprises qui conservent leurs plus grands modèles derrière des API payantes, DeepSeek a publié les poids des modèles et le code sous une licence de type MIT et a publié des exemples d'intégration pour les environnements d'exécution populaires. Cette initiative abaisse la barrière au déploiement — les entreprises peuvent exécuter les modèles sur site (on‑prem), les chercheurs peuvent inspecter les logits et les modes de défaillance, et les startups peuvent construire des agents sans les mêmes préoccupations de dépendance vis-à-vis d'un fournisseur unique.

La combinaison de poids ouverts et d'améliorations de l'efficacité a une importance commerciale : la baisse des coûts d'inférence et les options d'auto-hébergement modifient à la fois l'économie unitaire et les calculs de risque pour les clients ayant un usage intensif du raisonnement sur contexte long (e-discovery juridique, ingestion de logiciels, revue de littérature scientifique). Dans le même temps, l'open-sourcing de modèles de pointe accélère l'expérimentation de manières que les fournisseurs propriétaires ne peuvent pas facilement contrôler.

Tensions réglementaires et frictions géopolitiques

Tous ces changements techniques et commerciaux croisent le fer avec la politique. Plusieurs régulateurs et gouvernements ont déjà signalé la gestion des données par DeepSeek et son profil en matière de sécurité nationale. Les autorités européennes ont enquêté et, dans certains cas, ordonné des blocages temporaires ou des suppressions d'applications, et divers gouvernements ont conseillé la prudence ou restreint l'utilisation sur les appareils officiels. Ces actions compliquent l'adoption dans les secteurs réglementés et soulignent que la disponibilité ouverte des poids ne lève pas les inquiétudes concernant les flux de données ou l'accès par des gouvernements étrangers.

Les entreprises qui envisagent de déployer ces modèles doivent réfléchir à la résidence des données, à la conformité aux règles locales de confidentialité et à la provenance de la chaîne d'approvisionnement pour le matériel d'entraînement et d'inférence — des questions qui sont désormais au cœur des évaluations de risques et des achats, plutôt que d'être des considérations techniques secondaires.

Ce que cela signifie pour le paysage de l'IA

Il y a trois enseignements principaux. Premièrement, l'efficacité architecturale (et pas seulement la mise à l'échelle par la force brute) peut faire progresser la frontière technologique, en particulier pour les tâches agentiques et à contexte long. Deuxièmement, la sortie en open source de modèles à hautes capacités force les acteurs historiques à repenser leur stratégie de prix et de produit : les gouvernements, les entreprises et les développeurs disposent désormais d'une alternative plus facile à auto-héberger. Troisièmement, la politique et la confiance restent des facteurs limitants — les progrès techniques ne détermineront pas à eux seuls qui l'emportera ni l'ampleur du déploiement de ces systèmes.

Pour les organisations européennes et américaines en particulier, le défi est pratique : équilibrer les avantages opérationnels et financiers d'un modèle efficace et librement disponible face aux questions non résolues sur la gouvernance des données, les audits tiers et les risques réglementaires. Les prochains mois constitueront une expérience en temps réel sur la façon dont le marché, les régulateurs et les fournisseurs s'adaptent.

Ce que je vais surveiller

  • Les audits indépendants et la réplication des affirmations de DeepSeek concernant ses benchmarks.
  • Les conditions contractuelles (term-sheets) des entreprises montrant qui choisit d'auto-héberger ces poids et sous quelles mesures de protection.
  • Les décisions réglementaires clarifiant comment les règles de protection des données s'appliquent aux services de modèles hébergés à l'étranger et aux poids ouverts.
  • La réponse des grands fournisseurs de cloud et de puces — tant sur le plan technique (support d'exécution, noyaux optimisés) que commercial (tarification, partenariats).

La sortie de DeepSeek rappelle que la course à l'IA repose désormais sur plusieurs leviers — architecture, données, outils, distribution et réglementation — et pas seulement sur la puissance de calcul brute. Pour les ingénieurs, les chefs de produit et les décideurs politiques, cette complexité est une caractéristique : elle crée à la fois des opportunités et de nombreuses questions difficiles à résoudre avant que ces capacités ne deviennent des infrastructures fondamentales.

— Mattias Risberg, Dark Matter

Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q Quels modèles DeepSeek a-t-il publiés et à quoi sont-ils destinés ?
A DeepSeek a publié deux modèles ouverts : DeepSeek-V3.2 et une variante à haut niveau de raisonnement nommée DeepSeek-V3.2-Speciale. Les poids et le code sont largement disponibles sous une licence de type MIT, le duo étant conçu pour les documents longs et la résolution de problèmes en plusieurs étapes. Dans les tests de performance publics et les simulations de concours, DeepSeek revendique des performances comparables aux systèmes propriétaires de pointe les plus récents.
Q Qu'est-ce que la DeepSeek Sparse Attention et pourquoi est-elle importante ?
A L'innovation majeure est la DeepSeek Sparse Attention (DSA), une forme d'attention parcimonieuse qui améliore l'efficacité des contextes longs en réduisant le coût de calcul lié à la mise à l'échelle quadratique des jetons de l'attention traditionnelle. L'entreprise affirme qu'elle permet de traiter des milliers de jetons et prend en charge l'utilisation d'outils agentiques, en maintenant un raisonnement interne lors des appels à des outils externes.
Q Quel est l'impact de la licence ouverte sur le déploiement et l'expérimentation ?
A En publiant les poids du modèle et le code sous une licence de type MIT et en fournissant des exemples d'intégration, DeepSeek réduit les barrières au déploiement : les entreprises peuvent s'auto-héberger sur site, les chercheurs peuvent inspecter les logits et les modes de défaillance, et les startups peuvent créer des agents sans dépendance envers un fournisseur, réduisant potentiellement les coûts d'inférence et élargissant les outils pour les flux de travail à contexte long.
Q Quelles sont les préoccupations réglementaires et géopolitiques associées à ces modèles ?
A Les régulateurs ont signalé le traitement des données et le profil de sécurité nationale de DeepSeek, les autorités européennes menant des enquêtes et, parfois, bloquant ou supprimant des applications. Les gouvernements conseillent la prudence, et les décisions de déploiement doivent tenir compte de la résidence des données, de la conformité locale en matière de confidentialité et de la provenance de la chaîne d'approvisionnement pour le matériel d'entraînement et d'inférence, ce qui affecte les achats et les évaluations de risques dans les secteurs réglementés.
Q Quelles sont les implications plus larges pour le paysage de l'IA ?
A Trois points clés se dégagent : l'efficacité architecturale peut faire progresser les capacités de pointe pour les tâches à contexte long ; les publications ouvertes obligent les acteurs historiques à repenser leurs tarifs et les options d'auto-hébergement ; et les politiques ainsi que la confiance restent des facteurs limitants, avec des considérations pratiques pour la gouvernance des données, les audits tiers et les risques réglementaires qui façonnent l'adoption en Europe et aux États-Unis.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!