What models did DeepSeek release and what are they designed to do?

DeepSeek released two open models: DeepSeek-V3.2 and a high‑reasoning variant named DeepSeek-V3.2-Speciale. The weights and code are broadly available under an MIT‑style licence, with the pair pitched for long documents and multi‑step problem solving. In public benchmarks and contest simulations, DeepSeek claims performance comparable to the newest proprietary frontier systems.

What is DeepSeek Sparse Attention and why is it important?

The headline innovation is DeepSeek Sparse Attention (DSA), a form of sparse attention that improves long‑context efficiency by reducing the compute cost from the squared‑token scaling of traditional attention. The company says it enables processing thousands of tokens and supports agentic tool use, maintaining internal reasoning across external tool calls.

How does open licensing affect deployment and experimentation?

By releasing model weights and code under an MIT‑style licence and providing integration examples, DeepSeek lowers deployment barriers: enterprises can self‑host on‑premises, researchers can inspect logits and failure modes, and startups can build agents without vendor lock‑in, potentially reducing inference costs and expanding tooling for long‑context workflows.

What regulatory and geopolitical concerns are associated with these models?

Regulators have flagged DeepSeek's data handling and national‑security profile, with European authorities investigating and sometimes blocking or removing apps. Governments advise caution, and deployment decisions must consider data residency, local privacy compliance, and supply‑chain provenance for training and inference hardware, affecting procurement and risk assessments in regulated sectors.

What are the broader implications for the AI landscape?

Three takeaways emerge: architectural efficiency can advance frontier capabilities for long‑context tasks; open releases force incumbents to rethink pricing and self‑hosting options; and policy and trust remain gating factors, with practical considerations for data governance, third‑party audits, and regulatory risk shaping adoption in Europe and the United States.

DeepSeek lanza modelos abiertos que desafían a líderes de IA

Qué ha sucedido

Esta semana DeepSeek, la startup de IA con sede en Hangzhou que se convirtió en una sensación viral a principios de 2025, lanzó dos nuevos modelos —DeepSeek‑V3.2 y una variante de razonamiento avanzado llamada DeepSeek‑V3.2‑Speciale— y puso a disposición del público los pesos y el código bajo una licencia de código abierto permisiva. La empresa posiciona al par como modelos ajustados para documentos extensos y la resolución de problemas en varios pasos; en benchmarks públicos y simulaciones de concursos, afirma que su rendimiento es comparable al de los sistemas de frontera propietarios más recientes.

Estas no son actualizaciones menores. DeepSeek las describe como un salto cualitativo en la eficiencia de contexto largo y el uso de herramientas agénticas, y la empresa ha publicado fichas de modelo (model cards), un informe técnico y pesos descargables para que desarrolladores e investigadores puedan experimentar con ellos.

Cómo funcionan los modelos y por qué su ejecución cuesta menos

La innovación principal que destaca DeepSeek es una forma de atención dispersa (sparse attention) que denominan DeepSeek Sparse Attention (DSA). Los mecanismos de atención son la parte de los grandes modelos de lenguaje que les permite ponderar qué palabras y pasajes son relevantes para una respuesta determinada. La atención tradicional escala mal con la longitud de la entrada —el coste computacional crece aproximadamente con el cuadrado del número de tokens—, por lo que introducir miles o decenas de mil millones de tokens se vuelve prohibitivamente caro.

Benchmarks, competiciones y tareas del mundo real

DeepSeek ha publicado una mezcla de benchmarks estándar y evaluaciones más dramáticas de tipo concurso. La variante Speciale se presenta como un motor de razonamiento profundo ajustado mediante aprendizaje por refuerzo y regímenes de entrenamiento especializados; según las cifras reportadas por la empresa, logra un rendimiento de nivel de medalla de oro en varias competiciones de élite de programación y matemáticas, y obtiene resultados competitivos en benchmarks de programación y razonamiento que suelen utilizarse para comparar modelos de frontera.

Esos resultados en concursos son sorprendentes sobre el papel: los materiales de DeepSeek informan de altas puntuaciones en problemas de olimpiadas de matemáticas e informática realizados bajo restricciones similares a las de un examen, y muestran un sólido rendimiento en benchmarks de flujos de trabajo de programación. Si las cifras se mantienen bajo una revisión independiente, indicarían que un conjunto más pequeño de cambios arquitectónicos y un entrenamiento específico pueden ofrecer mejoras en el razonamiento sin necesidad de escalar el cómputo de forma indefinida.

Pensamiento agéntico "con herramientas"

Un segundo avance práctico que DeepSeek enfatiza es la preservación del razonamiento interno cuando el modelo interactúa con herramientas externas: búsqueda, ejecución de código, edición de archivos, entre otras. Los modelos anteriores tienden a perder su cadena de pensamiento interna cada vez que llaman a una API externa; DeepSeek combina esto con una canalización de entrenamiento de tareas sintéticas de varios pasos para que el modelo aprenda a mantener y llevar adelante planes parciales mientras consulta las herramientas. Eso hace que los flujos de trabajo de varios pasos —depuración de código complejo, planificación logística con restricciones cambiantes o navegación por investigaciones en múltiples documentos— sean mucho más fluidos en la práctica.

El régimen de entrenamiento que describe DeepSeek incluye miles de entornos sintéticos y variaciones de tareas destinados a enseñar al modelo cómo deliberar y actuar en conjunto. Para los desarrolladores que construyen agentes autónomos o flujos de trabajo de asistentes, esta capacidad importa tanto como las puntuaciones brutas de los benchmarks: reduce la fricción de ingeniería al integrar herramientas y modelos.

A diferencia de la mayoría de las empresas que mantienen sus modelos más grandes tras APIs de pago, DeepSeek ha liberado los pesos del modelo y el código bajo una licencia de tipo MIT y ha publicado ejemplos de integración para entornos de ejecución (runtimes) populares. Este movimiento reduce la barrera para el despliegue: las empresas pueden ejecutar los modelos en sus propias instalaciones (on-prem), los investigadores pueden inspeccionar los logits y los modos de fallo, y las startups pueden crear agentes sin las mismas preocupaciones de dependencia del proveedor (vendor lock-in).

La combinación de pesos abiertos más las mejoras en la eficiencia tiene importancia comercial: los menores costes de inferencia y las opciones de autoalojamiento cambian tanto la rentabilidad unitaria como los cálculos de riesgo para los clientes que necesitan un uso intensivo del razonamiento de contexto largo (revisión de documentos legales, ingesta de software, revisión de literatura científica). Al mismo tiempo, el código abierto de los modelos de frontera acelera la experimentación de formas que los proveedores propietarios no pueden controlar fácilmente.

Tensiones regulatorias y fricción geopolítica

Todos estos cambios técnicos y comerciales se cruzan con la política. Varios reguladores y gobiernos ya han señalado el manejo de datos de DeepSeek y su perfil de seguridad nacional. Las autoridades europeas han investigado y, en algunos casos, ordenado bloqueos temporales o la retirada de aplicaciones, y diversos gobiernos han aconsejado precaución o restringido su uso en dispositivos oficiales. Esas acciones complican la adopción en sectores regulados y subrayan que la disponibilidad abierta de los pesos no elimina las preocupaciones sobre los flujos de datos o el acceso por parte de gobiernos extranjeros.

Las empresas que contemplan el despliegue de estos modelos deben pensar en la residencia de los datos, el cumplimiento de las normas locales de privacidad y la procedencia de la cadena de suministro para el hardware de entrenamiento e inferencia, cuestiones que ahora son fundamentales para la adquisición y las evaluaciones de riesgo, en lugar de ser meras consideraciones técnicas secundarias.

Lo que esto significa para el panorama de la IA

Hay tres conclusiones generales. Primero, la eficiencia arquitectónica (no solo la escala por fuerza bruta) puede desplazar la frontera, especialmente para tareas agénticas y de contexto largo. Segundo, el lanzamiento abierto de modelos de alta capacidad obliga a los actores establecidos a replantearse su estrategia de precios y productos: gobiernos, empresas y desarrolladores tienen ahora una alternativa que es más fácil de autoalojar. Tercero, la política y la confianza siguen siendo factores limitantes; el progreso técnico por sí solo no determinará quién gana o con qué amplitud se despliegan estos sistemas.

Para las organizaciones europeas y estadounidenses en particular, el desafío es práctico: equilibrar los beneficios operativos y de coste de un modelo eficiente y disponible gratuitamente frente a las preguntas no resueltas sobre gobernanza de datos, auditorías de terceros y riesgo regulatorio. Los próximos meses serán un experimento en vivo sobre cómo se adaptan el mercado, los reguladores y los proveedores.

A qué estaré atento

Auditorías independientes y replicación de las afirmaciones de DeepSeek en los benchmarks.
Hojas de términos (term-sheets) corporativas que muestren quién elige autoalojar estos pesos y bajo qué salvaguardas.
Sentencias regulatorias que aclaren cómo se aplican las normas de protección de datos a los servicios de modelos alojados en el extranjero y a los pesos abiertos.
Cómo responden los principales proveedores de nube y semiconductores, tanto técnicamente (soporte de ejecución, kernels optimizados) como comercialmente (precios, asociaciones).

El lanzamiento de DeepSeek es un recordatorio de que la carrera de la IA se centra ahora en múltiples palancas —arquitectura, datos, herramientas, distribución y regulación—, no solo en la capacidad de cómputo bruta. Para ingenieros, líderes de producto y responsables políticos, esa complejidad es una característica: crea tanto oportunidades como una gran cantidad de preguntas difíciles de responder antes de que estas capacidades se conviertan en infraestructura fundacional.

— Mattias Risberg, Dark Matter

Los modelos gratuitos de DeepSeek sacuden la carrera de la IA

Qué ha sucedido

Cómo funcionan los modelos y por qué su ejecución cuesta menos

Benchmarks, competiciones y tareas del mundo real

Pensamiento agéntico "con herramientas"

Tensiones regulatorias y fricción geopolítica

Lo que esto significa para el panorama de la IA

A qué estaré atento

Tags

Mattias Risberg

Readers Questions Answered

Have a question about this article?

Comments