Modelos gratuitos da DeepSeek agitam corrida da IA

IA
DeepSeek’s Free Models Shake Up AI Race
A startup chinesa DeepSeek publicou dois novos modelos abertos que prometem raciocínio de nível GPT-5 e capacidades de contexto longo, reduzindo drasticamente os custos de computação — um movimento que questiona os modelos de negócios dominantes e levanta novos alertas regulatórios.

O que aconteceu

Esta semana, a DeepSeek, a startup de IA baseada em Hangzhou que se tornou uma sensação viral no início de 2025, lançou dois novos modelos — o DeepSeek-V3.2 e uma variante de alto raciocínio chamada DeepSeek-V3.2-Speciale — e disponibilizou amplamente os pesos e o código sob uma licença de código aberto permissiva. A empresa posiciona a dupla como modelos ajustados para documentos longos e resolução de problemas em múltiplas etapas; em benchmarks públicos e simulações de competições, ela afirma que o desempenho é comparável ao dos mais recentes sistemas de fronteira proprietários.

Estas não são atualizações pequenas. A DeepSeek as descreve como uma mudança de patamar na eficiência de contexto longo e no uso de ferramentas agênticas, e a empresa publicou model cards, um relatório técnico e pesos para download para que desenvolvedores e pesquisadores possam realizar experimentos.

Como os modelos funcionam — e por que custam menos para operar

A principal inovação que a DeepSeek destaca é uma forma de atenção esparsa que chamam de DeepSeek Sparse Attention (DSA). Mecanismos de atenção são a parte dos grandes modelos de linguagem que os permite ponderar quais palavras e passagens importam para uma determinada resposta. A atenção tradicional escala mal com o comprimento da entrada — o custo computacional cresce aproximadamente com o quadrado do número de tokens — de modo que processar milhares ou dezenas de milhares de tokens torna-se proibitivamente caro.

Benchmarks, competições e tarefas do mundo real

A DeepSeek publicou uma mistura de benchmarks padrão e avaliações mais dramáticas em estilo de competição. A variante Speciale é apresentada como um motor de raciocínio profundo ajustado por meio de aprendizagem por reforço e regimes de treinamento especializados; nos números relatados pela empresa, o modelo atinge um desempenho de nível medalha de ouro em várias competições de elite de programação e matemática e apresenta resultados competitivos em benchmarks de codificação e raciocínio que são tipicamente usados para comparar modelos de fronteira.

Esses resultados de competições são impressionantes no papel: os materiais da DeepSeek relatam pontuações altas em problemas de olimpíadas de matemática e informática realizados sob restrições semelhantes a testes, e mostram um desempenho sólido em benchmarks de fluxo de trabalho de codificação. Se os números se confirmarem sob revisão independente, eles indicarão que um conjunto menor de mudanças arquitetônicas e treinamento direcionado pode entregar ganhos de raciocínio sem simplesmente escalar a computação para sempre.

“Pensamento com ferramentas” agêntico

Um segundo avanço prático enfatizado pela DeepSeek é a preservação do raciocínio interno quando o modelo interage com ferramentas externas — busca, execução de código, edição de arquivos e assim por diante. Modelos anteriores tendem a perder sua cadeia de pensamento interna cada vez que chamam uma API externa; a DeepSeek combina isso com um pipeline de treinamento de tarefas sintéticas de múltiplas etapas para que o modelo aprenda a manter e levar adiante planos parciais enquanto consulta ferramentas. Isso torna os fluxos de trabalho de múltiplas etapas — como depurar códigos complexos, planejar logística com restrições variáveis ou navegar em pesquisas através de muitos documentos — muito mais fluidos na prática.

O regime de treinamento descrito pela DeepSeek inclui milhares de ambientes sintéticos e variações de tarefas destinados a ensinar o modelo a deliberar e agir em conjunto. Para desenvolvedores que constroem agentes autônomos ou fluxos de trabalho de assistentes, essa capacidade importa tanto quanto as pontuações brutas de benchmark: ela reduz o atrito de engenharia ao conectar ferramentas e modelos.

Ao contrário da maioria das empresas que mantêm seus maiores modelos atrás de APIs pagas, a DeepSeek liberou os pesos e o código do modelo sob uma licença do tipo MIT e publicou exemplos de integração para ambientes de execução populares. Esse movimento reduz a barreira para a implementação — empresas podem executar os modelos localmente (on-prem), pesquisadores podem inspecionar logits e modos de falha, e startups podem construir agentes sem as mesmas preocupações de dependência de fornecedor (vendor lock-in).

A combinação de pesos abertos e melhorias de eficiência é comercialmente relevante: custos de inferência mais baixos e opções de auto-hospedagem alteram tanto a economia unitária quanto os cálculos de risco para clientes que precisam de uso intensivo de raciocínio de contexto longo (descoberta jurídica, ingestão de software, revisão de literatura científica). Ao mesmo tempo, o código aberto de modelos de fronteira acelera a experimentação de formas que os fornecedores proprietários não podem controlar facilmente.

Tensões regulatórias e fricção geopolítica

Todas essas mudanças técnicas e comerciais cruzam com a política. Vários reguladores e governos já sinalizaram o tratamento de dados da DeepSeek e seu perfil de segurança nacional. Autoridades europeias investigaram e, em alguns casos, ordenaram bloqueios temporários ou remoções de aplicativos, e diversos governos aconselharam cautela ou restringiram o uso em dispositivos oficiais. Essas ações complicam a adoção em setores regulamentados e reforçam que a disponibilidade aberta de pesos não remove as preocupações sobre fluxos de dados ou acesso por governos estrangeiros.

Empresas que contemplam a implementação desses modelos precisam pensar sobre residência de dados, conformidade com regras de privacidade locais e proveniência da cadeia de suprimentos para hardware de treinamento e inferência — questões que agora são centrais para aquisições e avaliações de risco, em vez de serem meros detalhes técnicos secundários.

O que isso significa para o cenário da IA

Há três conclusões principais. Primeiro, a eficiência arquitetônica (não apenas a escala de força bruta) pode mover a fronteira, especialmente para tarefas de contexto longo e agênticas. Segundo, o lançamento aberto de modelos de alta capacidade força os players estabelecidos a repensar estratégias de preços e produtos: governos, empresas e desenvolvedores agora têm uma alternativa que é mais fácil de auto-hospedar. Terceiro, a política e a confiança continuam sendo fatores limitantes — o progresso técnico sozinho não determinará quem vencerá ou quão amplamente esses sistemas serão implantados.

Para organizações europeias e americanas em particular, o desafio é prático: equilibrar os benefícios operacionais e de custo de um modelo eficiente e disponível gratuitamente contra questões não resolvidas sobre governança de dados, auditorias de terceiros e risco regulatório. Os próximos meses serão um experimento ao vivo sobre como o mercado, os reguladores e os provedores se adaptam.

O que estarei acompanhando

  • Auditorias independentes e replicação das alegações de benchmark da DeepSeek.
  • Termos de compromisso corporativos mostrando quem escolhe auto-hospedar esses pesos e sob quais salvaguardas.
  • Decisões regulatórias que esclareçam como as regras de proteção de dados se aplicam a serviços de modelos hospedados no exterior e a pesos abertos.
  • Como os principais fornecedores de nuvem e silício respondem — tanto tecnicamente (suporte de runtime, kernels otimizados) quanto comercialmente (preços, parcerias).

O lançamento da DeepSeek é um lembrete de que a corrida da IA agora envolve múltiplas frentes — arquitetura, dados, ferramentas, distribuição e regulação — e não apenas computação bruta. Para engenheiros, líderes de produto e formuladores de políticas, essa complexidade é uma característica: ela cria tanto oportunidades quanto muitas perguntas difíceis a serem respondidas antes que essas capacidades se tornem infraestrutura fundamental.

— Mattias Risberg, Dark Matter

Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q Quais modelos a DeepSeek lançou e para que foram projetados?
A A DeepSeek lançou dois modelos abertos: o DeepSeek-V3.2 e uma variante de alto raciocínio chamada DeepSeek-V3.2-Speciale. Os pesos e o código estão amplamente disponíveis sob uma licença do estilo MIT, com a dupla sendo direcionada para documentos longos e resolução de problemas em várias etapas. Em benchmarks públicos e simulações de competições, a DeepSeek afirma ter um desempenho comparável aos sistemas proprietários de fronteira mais recentes.
Q O que é a DeepSeek Sparse Attention e por que ela é importante?
A A principal inovação é a DeepSeek Sparse Attention (DSA), uma forma de atenção esparsa que melhora a eficiência de contextos longos ao reduzir o custo computacional do escalonamento quadrático de tokens da atenção tradicional. A empresa afirma que isso permite o processamento de milhares de tokens e suporta o uso de ferramentas de agentes, mantendo o raciocínio interno entre chamadas de ferramentas externas.
Q Como o licenciamento aberto afeta a implementação e a experimentação?
A Ao lançar os pesos e o código do modelo sob uma licença do estilo MIT e fornecer exemplos de integração, a DeepSeek reduz as barreiras de implementação: as empresas podem realizar a auto-hospedagem localmente (on-premises), os pesquisadores podem inspecionar logits e modos de falha, e as startups podem construir agentes sem dependência de um único fornecedor, potencialmente reduzindo custos de inferência e expandindo o ferramental para fluxos de trabalho de contexto longo.
Q Quais preocupações regulatórias e geopolíticas estão associadas a esses modelos?
A Os reguladores sinalizaram o tratamento de dados e o perfil de segurança nacional da DeepSeek, com autoridades europeias investigando e, por vezes, bloqueando ou removendo aplicativos. Os governos recomendam cautela, e as decisões de implementação devem considerar a residência de dados, a conformidade com a privacidade local e a proveniência da cadeia de suprimentos para hardware de treinamento e inferência, afetando aquisições e avaliações de risco em setores regulamentados.
Q Quais são as implicações mais amplas para o cenário da IA?
A Três conclusões emergem: a eficiência arquitetônica pode avançar as capacidades de fronteira para tarefas de contexto longo; os lançamentos abertos forçam os incumbentes a repensar as opções de preços e auto-hospedagem; e a política e a confiança continuam sendo fatores decisivos, com considerações práticas para governança de dados, auditorias de terceiros e riscos regulatórios moldando a adoção na Europa e nos Estados Unidos.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!