Los modelos gratuitos de DeepSeek sacuden la carrera de la IA

IA
DeepSeek’s Free Models Shake Up AI Race
La startup china DeepSeek ha publicado dos nuevos modelos abiertos que prometen una capacidad de razonamiento de nivel GPT-5 y habilidades de contexto largo, reduciendo drásticamente los costes de computación; un movimiento que cuestiona los modelos de negocio dominantes y despierta nuevas alarmas regulatorias.

Qué ha sucedido

Esta semana DeepSeek, la startup de IA con sede en Hangzhou que se convirtió en una sensación viral a principios de 2025, lanzó dos nuevos modelos —DeepSeek‑V3.2 y una variante de razonamiento avanzado llamada DeepSeek‑V3.2‑Speciale— y puso a disposición del público los pesos y el código bajo una licencia de código abierto permisiva. La empresa posiciona al par como modelos ajustados para documentos extensos y la resolución de problemas en varios pasos; en benchmarks públicos y simulaciones de concursos, afirma que su rendimiento es comparable al de los sistemas de frontera propietarios más recientes.

Estas no son actualizaciones menores. DeepSeek las describe como un salto cualitativo en la eficiencia de contexto largo y el uso de herramientas agénticas, y la empresa ha publicado fichas de modelo (model cards), un informe técnico y pesos descargables para que desarrolladores e investigadores puedan experimentar con ellos.

Cómo funcionan los modelos y por qué su ejecución cuesta menos

La innovación principal que destaca DeepSeek es una forma de atención dispersa (sparse attention) que denominan DeepSeek Sparse Attention (DSA). Los mecanismos de atención son la parte de los grandes modelos de lenguaje que les permite ponderar qué palabras y pasajes son relevantes para una respuesta determinada. La atención tradicional escala mal con la longitud de la entrada —el coste computacional crece aproximadamente con el cuadrado del número de tokens—, por lo que introducir miles o decenas de mil millones de tokens se vuelve prohibitivamente caro.

Benchmarks, competiciones y tareas del mundo real

DeepSeek ha publicado una mezcla de benchmarks estándar y evaluaciones más dramáticas de tipo concurso. La variante Speciale se presenta como un motor de razonamiento profundo ajustado mediante aprendizaje por refuerzo y regímenes de entrenamiento especializados; según las cifras reportadas por la empresa, logra un rendimiento de nivel de medalla de oro en varias competiciones de élite de programación y matemáticas, y obtiene resultados competitivos en benchmarks de programación y razonamiento que suelen utilizarse para comparar modelos de frontera.

Esos resultados en concursos son sorprendentes sobre el papel: los materiales de DeepSeek informan de altas puntuaciones en problemas de olimpiadas de matemáticas e informática realizados bajo restricciones similares a las de un examen, y muestran un sólido rendimiento en benchmarks de flujos de trabajo de programación. Si las cifras se mantienen bajo una revisión independiente, indicarían que un conjunto más pequeño de cambios arquitectónicos y un entrenamiento específico pueden ofrecer mejoras en el razonamiento sin necesidad de escalar el cómputo de forma indefinida.

Pensamiento agéntico "con herramientas"

Un segundo avance práctico que DeepSeek enfatiza es la preservación del razonamiento interno cuando el modelo interactúa con herramientas externas: búsqueda, ejecución de código, edición de archivos, entre otras. Los modelos anteriores tienden a perder su cadena de pensamiento interna cada vez que llaman a una API externa; DeepSeek combina esto con una canalización de entrenamiento de tareas sintéticas de varios pasos para que el modelo aprenda a mantener y llevar adelante planes parciales mientras consulta las herramientas. Eso hace que los flujos de trabajo de varios pasos —depuración de código complejo, planificación logística con restricciones cambiantes o navegación por investigaciones en múltiples documentos— sean mucho más fluidos en la práctica.

El régimen de entrenamiento que describe DeepSeek incluye miles de entornos sintéticos y variaciones de tareas destinados a enseñar al modelo cómo deliberar y actuar en conjunto. Para los desarrolladores que construyen agentes autónomos o flujos de trabajo de asistentes, esta capacidad importa tanto como las puntuaciones brutas de los benchmarks: reduce la fricción de ingeniería al integrar herramientas y modelos.

A diferencia de la mayoría de las empresas que mantienen sus modelos más grandes tras APIs de pago, DeepSeek ha liberado los pesos del modelo y el código bajo una licencia de tipo MIT y ha publicado ejemplos de integración para entornos de ejecución (runtimes) populares. Este movimiento reduce la barrera para el despliegue: las empresas pueden ejecutar los modelos en sus propias instalaciones (on-prem), los investigadores pueden inspeccionar los logits y los modos de fallo, y las startups pueden crear agentes sin las mismas preocupaciones de dependencia del proveedor (vendor lock-in).

La combinación de pesos abiertos más las mejoras en la eficiencia tiene importancia comercial: los menores costes de inferencia y las opciones de autoalojamiento cambian tanto la rentabilidad unitaria como los cálculos de riesgo para los clientes que necesitan un uso intensivo del razonamiento de contexto largo (revisión de documentos legales, ingesta de software, revisión de literatura científica). Al mismo tiempo, el código abierto de los modelos de frontera acelera la experimentación de formas que los proveedores propietarios no pueden controlar fácilmente.

Tensiones regulatorias y fricción geopolítica

Todos estos cambios técnicos y comerciales se cruzan con la política. Varios reguladores y gobiernos ya han señalado el manejo de datos de DeepSeek y su perfil de seguridad nacional. Las autoridades europeas han investigado y, en algunos casos, ordenado bloqueos temporales o la retirada de aplicaciones, y diversos gobiernos han aconsejado precaución o restringido su uso en dispositivos oficiales. Esas acciones complican la adopción en sectores regulados y subrayan que la disponibilidad abierta de los pesos no elimina las preocupaciones sobre los flujos de datos o el acceso por parte de gobiernos extranjeros.

Las empresas que contemplan el despliegue de estos modelos deben pensar en la residencia de los datos, el cumplimiento de las normas locales de privacidad y la procedencia de la cadena de suministro para el hardware de entrenamiento e inferencia, cuestiones que ahora son fundamentales para la adquisición y las evaluaciones de riesgo, en lugar de ser meras consideraciones técnicas secundarias.

Lo que esto significa para el panorama de la IA

Hay tres conclusiones generales. Primero, la eficiencia arquitectónica (no solo la escala por fuerza bruta) puede desplazar la frontera, especialmente para tareas agénticas y de contexto largo. Segundo, el lanzamiento abierto de modelos de alta capacidad obliga a los actores establecidos a replantearse su estrategia de precios y productos: gobiernos, empresas y desarrolladores tienen ahora una alternativa que es más fácil de autoalojar. Tercero, la política y la confianza siguen siendo factores limitantes; el progreso técnico por sí solo no determinará quién gana o con qué amplitud se despliegan estos sistemas.

Para las organizaciones europeas y estadounidenses en particular, el desafío es práctico: equilibrar los beneficios operativos y de coste de un modelo eficiente y disponible gratuitamente frente a las preguntas no resueltas sobre gobernanza de datos, auditorías de terceros y riesgo regulatorio. Los próximos meses serán un experimento en vivo sobre cómo se adaptan el mercado, los reguladores y los proveedores.

A qué estaré atento

  • Auditorías independientes y replicación de las afirmaciones de DeepSeek en los benchmarks.
  • Hojas de términos (term-sheets) corporativas que muestren quién elige autoalojar estos pesos y bajo qué salvaguardas.
  • Sentencias regulatorias que aclaren cómo se aplican las normas de protección de datos a los servicios de modelos alojados en el extranjero y a los pesos abiertos.
  • Cómo responden los principales proveedores de nube y semiconductores, tanto técnicamente (soporte de ejecución, kernels optimizados) como comercialmente (precios, asociaciones).

El lanzamiento de DeepSeek es un recordatorio de que la carrera de la IA se centra ahora en múltiples palancas —arquitectura, datos, herramientas, distribución y regulación—, no solo en la capacidad de cómputo bruta. Para ingenieros, líderes de producto y responsables políticos, esa complejidad es una característica: crea tanto oportunidades como una gran cantidad de preguntas difíciles de responder antes de que estas capacidades se conviertan en infraestructura fundacional.

— Mattias Risberg, Dark Matter

Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q ¿Qué modelos lanzó DeepSeek y para qué están diseñados?
A DeepSeek lanzó dos modelos abiertos: DeepSeek-V3.2 y una variante de alto razonamiento llamada DeepSeek-V3.2-Speciale. Los pesos y el código están ampliamente disponibles bajo una licencia de estilo MIT, y el par está orientado a documentos largos y a la resolución de problemas en múltiples pasos. En evaluaciones comparativas públicas y simulaciones de concursos, DeepSeek afirma tener un rendimiento comparable al de los sistemas propietarios de frontera más recientes.
Q ¿Qué es DeepSeek Sparse Attention y por qué es importante?
A La innovación principal es DeepSeek Sparse Attention (DSA), una forma de atención dispersa que mejora la eficiencia en contextos largos al reducir el coste computacional derivado del escalado cuadrático de tokens de la atención tradicional. La empresa afirma que permite procesar miles de tokens y admite el uso de herramientas agénticas, manteniendo el razonamiento interno a través de las llamadas a herramientas externas.
Q ¿Cómo afecta el licenciamiento abierto al despliegue y la experimentación?
A Al liberar los pesos y el código del modelo bajo una licencia de estilo MIT y proporcionar ejemplos de integración, DeepSeek reduce las barreras de despliegue: las empresas pueden realizar el alojamiento local (on-premises), los investigadores pueden inspeccionar los logits y los modos de fallo, y las startups pueden crear agentes sin dependencia de un proveedor (vendor lock-in), reduciendo potencialmente los costes de inferencia y ampliando las herramientas para flujos de trabajo de contexto largo.
Q ¿Qué preocupaciones regulatorias y geopolíticas están asociadas con estos modelos?
A Los reguladores han señalado el manejo de datos de DeepSeek y su perfil de seguridad nacional, con autoridades europeas investigando y, en ocasiones, bloqueando o eliminando aplicaciones. Los gobiernos aconsejan precaución, y las decisiones de despliegue deben considerar la residencia de los datos, el cumplimiento de la privacidad local y la procedencia de la cadena de suministro para el hardware de entrenamiento e inferencia, lo que afecta a las adquisiciones y evaluaciones de riesgo en sectores regulados.
Q ¿Cuáles son las implicaciones más amplias para el panorama de la IA?
A Surgen tres conclusiones: la eficiencia arquitectónica puede hacer avanzar las capacidades de frontera para tareas de contexto largo; los lanzamientos abiertos obligan a las empresas establecidas a replantearse los precios y las opciones de alojamiento propio; y la política y la confianza siguen siendo factores limitantes, con consideraciones prácticas sobre la gobernanza de datos, las auditorías de terceros y el riesgo regulatorio que condicionan la adopción en Europa y Estados Unidos.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!