DeepSeek’in Ücretsiz Modelleri Yapay Zeka Yarışını Sarsıyor

Yapay Zeka
DeepSeek’s Free Models Shake Up AI Race
Çinli girişim DeepSeek, hesaplama maliyetlerini çarpıcı biçimde düşürürken GPT-5 seviyesinde akıl yürütme ve uzun bağlam yetenekleri vadeden iki yeni açık model yayımladı; bu hamle, hakim iş modellerini sorgulatırken yeni düzenleyici kaygıları da tetikliyor.

Neler oldu?

Bu hafta, 2025'in başlarında viral bir fenomene dönüşen Hangzhou merkezli yapay zeka girişimi DeepSeek, DeepSeek‑V3.2 ve yüksek muhakeme yeteneğine sahip bir varyant olan DeepSeek‑V3.2‑Speciale adlı iki yeni modelini piyasaya sürdü; ayrıca ağırlıkları ve kodları esnek bir açık kaynak lisansı altında geniş kitlelerin kullanımına sundu. Şirket, bu ikiliyi uzun belgeler ve çok adımlı problem çözme için optimize edilmiş modeller olarak konumlandırıyor; halka açık karşılaştırmalı değerlendirmelerde (benchmarks) ve yarışma simülasyonlarında, en yeni kapalı kaynaklı öncü sistemlerle kıyaslanabilir bir performans sergilediğini iddia ediyor.

Bunlar küçük güncellemeler değil. DeepSeek bunları, uzun bağlam verimliliği ve aracı (agentic) araç kullanımında bir kademe değişikliği olarak tanımlıyor; ayrıca geliştiricilerin ve araştırmacıların denemeler yapabilmesi için model kartlarını, bir teknik raporu ve indirilebilir model ağırlıklarını yayımladı.

Modeller nasıl çalışıyor ve çalıştırma maliyetleri neden daha düşük?

DeepSeek'in öne çıkardığı temel yenilik, DeepSeek Seyrek Dikkat (Sparse Attention - DSA) adını verdikleri bir seyrek dikkat biçimidir. Dikkat mekanizmaları, büyük dil modellerinin belirli bir cevap için hangi kelimelerin ve pasajların önemli olduğunu tartmasını sağlayan kısımdır. Geleneksel dikkat mekanizmaları giriş uzunluğuyla birlikte verimsiz ölçeklenir (hesaplama maliyeti kabaca token sayısının karesiyle artar), bu nedenle binlerce veya on binlerce token beslemek aşırı derecede maliyetli hale gelir.

Karşılaştırmalı değerlendirmeler, yarışmalar ve gerçek dünya görevleri

DeepSeek, standart karşılaştırmalı değerlendirmelerin ve daha çarpıcı yarışma tarzı değerlendirmelerin bir karışımını yayımladı. Speciale varyantı, pekiştirmeli öğrenme ve özel eğitim rejimleri aracılığıyla ayarlanmış bir derin muhakeme motoru olarak sunuluyor; şirketin bildirdiği rakamlara göre model, birkaç seçkin programlama ve matematik yarışmasında altın madalya düzeyinde performans sergiliyor ve genellikle öncü modelleri karşılaştırmak için kullanılan kodlama ve muhakeme testlerinde rekabetçi sonuçlar veriyor.

Bu yarışma sonuçları kağıt üzerinde oldukça çarpıcı: DeepSeek'in materyalleri, test benzeri kısıtlamalar altında girilen matematik ve bilişim olimpiyat problemlerinde yüksek puanlar aldığını ve kodlama iş akışı testlerinde güçlü bir performans gösterdiğini raporluyor. Eğer bu rakamlar bağımsız incelemeler altında da geçerliliğini korursa, daha küçük bir dizi mimari değişikliğin ve hedeflenmiş eğitimin, hesaplama gücünü sonsuza kadar artırmadan muhakeme kazanımları sağlayabileceğini gösterecek.

Araçlarla "düşünen" aracı sistemler

DeepSeek'in vurguladığı ikinci pratik ilerleme, modelin harici araçlarla (arama, kod yürütme, dosya düzenleme vb.) etkileşime girdiğinde içsel muhakemesini korumasıdır. Önceki modeller, harici bir API'yi her çağırdıklarında içsel düşünce zincirlerini kaybetme eğilimindeydi; DeepSeek bunu, modelin araçları sorgularken kısmi planlarını sürdürmeyi ve ileriye taşımayı öğrenmesi için sentetik çok adımlı görevlerden oluşan bir eğitim hattıyla birleştiriyor. Bu, karmaşık kodlardaki hataları giderme, değişen kısıtlamalarla lojistik planlama veya birçok belge arasında araştırma yapma gibi çok adımlı iş akışlarını uygulamada çok daha pürüzsüz hale getiriyor.

DeepSeek'in tanımladığı eğitim rejimi, modele nasıl düşüneceğini ve nasıl eş zamanlı hareket edeceğini öğretmeyi amaçlayan binlerce sentetik ortam ve görev varyasyonu içeriyor. Otonom aracılar veya asistan iş akışları oluşturan geliştiriciler için bu yetenek, ham performans puanları kadar önemlidir: araçları ve modelleri birbirine bağlamanın getirdiği mühendislik sürtünmesini azaltır.

En büyük modellerini ücretli API'lerin arkasında tutan çoğu şirketin aksine DeepSeek, model ağırlıklarını ve kodlarını MIT tipi bir lisansla yayımladı ve popüler çalışma zamanları (runtimes) için entegrasyon örnekleri paylaştı. Bu hamle, dağıtım engelini düşürüyor; işletmeler modelleri kendi bünyelerinde (on-prem) çalıştırabilir, araştırmacılar logit'leri ve hata modlarını inceleyebilir ve startup'lar aynı tedarikçiye bağımlılık (vendor lock-in) endişeleri olmadan aracılar inşa edebilir.

Açık ağırlıkların verimlilik iyileştirmeleriyle birleşimi ticari açıdan önemlidir: daha düşük çıkarım maliyetleri ve kendi bünyesinde barındırma (self-hosting) seçenekleri, uzun bağlamlı muhakemeye (hukuki inceleme, yazılım alımı, bilimsel literatür taraması) yoğun ihtiyaç duyan müşteriler için hem birim ekonomisini hem de risk hesaplarını değiştirir. Aynı zamanda, öncü modellerin açık kaynak olarak sunulması, kapalı kaynaklı sağlayıcıların kolayca kontrol edemeyeceği şekillerde deneyleri hızlandırır.

Düzenleyici gerilimler ve jeopolitik sürtüşmeler

Tüm bu teknik ve ticari değişimler politikayla kesişiyor. Birkaç düzenleyici kurum ve hükümet, DeepSeek'in veri işleme süreçlerini ve ulusal güvenlik profilini şimdiden işaretledi. Avrupalı yetkililer incelemeler başlattı ve bazı durumlarda geçici engellemeler veya uygulama kaldırma talimatları verdi; çeşitli hükümetler ise resmi cihazlarda kullanım konusunda dikkatli olunmasını tavsiye etti veya kullanımı kısıtladı. Bu eylemler, düzenlenen sektörlerde benimsenmeyi zorlaştırıyor ve ağırlıkların açıkça erişilebilir olmasının, veri akışları veya yabancı hükümetlerin erişimi konusundaki endişeleri ortadan kaldırmadığının altını çiziyor.

Bu modelleri kullanmayı düşünen şirketlerin; veri yerleşimi, yerel gizlilik kurallarına uyum ve eğitim ile çıkarım donanımı için tedarik zinciri menşei gibi konuları düşünmesi gerekiyor; bu meseleler artık teknik birer ayrıntı değil, satın alma ve risk değerlendirmelerinin merkezinde yer alıyor.

Bu durum yapay zeka dünyası için ne anlama geliyor?

Buradan çıkarılacak üç genel ders var. Birincisi, mimari verimlilik (sadece kaba kuvvet ölçeklendirmesi değil), özellikle uzun bağlamlı ve aracı görevler için sınırları ileriye taşıyabilir. İkincisi, yüksek kapasiteli modellerin açık olarak yayımlanması, yerleşik oyuncuları fiyatlandırma ve ürün stratejilerini yeniden düşünmeye zorluyor: hükümetler, işletmeler ve geliştiriciler artık kendi bünyelerinde barındırması daha kolay olan bir alternatife sahipler. Üçüncüsü, politika ve güven temel belirleyici faktörler olmaya devam ediyor; teknik ilerleme tek başına kimin kazanacağını veya bu sistemlerin ne kadar yaygın olarak kullanılacağını belirlemeyecek.

Özellikle Avrupalı ve ABD'li kuruluşlar için zorluk pratik düzeyde: serbestçe erişilebilen, verimli bir modelin operasyonel ve maliyet avantajları ile veri yönetimi, üçüncü taraf denetimleri ve düzenleyici risklerle ilgili henüz çözülmemiş soruları dengelemek. Önümüzdeki birkaç ay; pazarın, düzenleyicilerin ve sağlayıcıların buna nasıl uyum sağlayacağına dair canlı bir deney olacak.

Neleri takip edeceğim?

  • DeepSeek'in performans iddialarının bağımsız denetimleri ve replikasyonları.
  • Bu ağırlıkları kendi bünyesinde barındırmayı seçenlerin kimler olduğu ve hangi güvenlik önlemlerini aldıklarını gösteren kurumsal anlaşmalar.
  • Veri koruma kurallarının yabancı kaynaklı model hizmetlerine ve açık ağırlıklara nasıl uygulanacağını netleştiren düzenleyici kararlar.
  • Büyük bulut ve çip üreticilerinin hem teknik (çalışma zamanı desteği, optimize edilmiş çekirdekler) hem de ticari (fiyatlandırma, ortaklıklar) olarak nasıl tepki vereceği.

DeepSeek'in bu hamlesi, yapay zeka yarışının artık sadece ham hesaplama gücüyle ilgili olmadığını; mimari, veri, araçlar, dağıtım ve düzenleme gibi birden fazla kaldıraçla ilgili olduğunu hatırlatıyor. Mühendisler, ürün liderleri ve politika yapıcılar için bu karmaşıklık bir özelliktir: bu yetenekler temel altyapı haline gelmeden önce hem fırsatlar hem de yanıtlanması gereken birçok zor soru yaratıyor.

— Mattias Risberg, Dark Matter

Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q DeepSeek hangi modelleri yayınladı ve bunlar ne yapmak üzere tasarlandı?
A DeepSeek, iki açık model yayınladı: DeepSeek-V3.2 ve DeepSeek-V3.2-Speciale adında yüksek akıl yürütme becerisine sahip bir varyant. Model ağırlıkları ve kodları, MIT tarzı bir lisansla geniş çapta erişime açıldı; bu ikili, uzun belgeler ve çok adımlı problem çözme süreçleri için sunuldu. Halka açık kıyaslamalarda ve yarışma simülasyonlarında DeepSeek, en yeni tescilli öncü sistemlerle karşılaştırılabilir bir performans sergilediğini iddia ediyor.
Q DeepSeek Seyrek Dikkat (DSA) nedir ve neden önemlidir?
A En önemli yenilik, geleneksel dikkatin kare-token ölçeklemesinden kaynaklanan hesaplama maliyetini düşürerek uzun bağlam verimliliğini artıran bir seyrek dikkat biçimi olan DeepSeek Seyrek Dikkat (DSA)'dir. Şirket, bunun binlerce token'ın işlenmesini sağladığını ve harici araç çağrıları boyunca dahili akıl yürütmeyi sürdürerek otonom araç kullanımını desteklediğini belirtiyor.
Q Açık lisanslama, dağıtımı ve denemeleri nasıl etkiler?
A DeepSeek, model ağırlıklarını ve kodlarını MIT tarzı bir lisansla yayınlayarak ve entegrasyon örnekleri sunarak dağıtım engellerini azaltıyor: İşletmeler kendi bünyelerinde barındırma (on-premises) yapabilir, araştırmacılar logit'leri ve hata modlarını inceleyebilir ve girişimler satıcıya bağımlı kalmadan otonom yapılar inşa edebilir; bu da potansiyel olarak çıkarım maliyetlerini düşürürken uzun bağlamlı iş akışları için araç çeşitliliğini artırır.
Q Bu modellerle ilgili hangi düzenleyici ve jeopolitik endişeler bulunmaktadır?
A Düzenleyiciler DeepSeek'in veri işleme ve ulusal güvenlik profilini işaretlemiş, Avrupalı yetkililer ise incelemeler yaparak bazen uygulamaları engellemiş veya kaldırmıştır. Hükümetler temkinli olunmasını tavsiye ediyor; dağıtım kararlarında veri yerleşimi, yerel gizlilik uyumu ve eğitim ile çıkarım donanımları için tedarik zinciri menşei göz önünde bulundurulmalıdır. Bu durum, düzenlemeye tabi sektörlerdeki satın alma ve risk değerlendirmelerini etkilemektedir.
Q Yapay zeka dünyası için daha geniş kapsamlı etkiler nelerdir?
A Üç temel çıkarım öne çıkıyor: Mimari verimlilik, uzun bağlamlı görevler için öncü yetenekleri ileriye taşıyabilir; açık yayınlar, mevcut piyasa liderlerini fiyatlandırma ve kendi bünyesinde barındırma seçeneklerini yeniden düşünmeye zorlar; politika ve güven ise belirleyici faktörler olmaya devam ediyor. Veri yönetişimi, üçüncü taraf denetimleri ve düzenleyici risklere ilişkin pratik hususlar, Avrupa ve Amerika Birleşik Devletleri'ndeki benimseme sürecini şekillendiriyor.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!