Birleşik Vizyon: OpenVision 3, Yapay Zeka Tanıma ve Üretme Arasındaki Boşluğu Nasıl Kapatıyor

Breaking News Teknoloji
A glowing glass AI processor chip refracting blue light into complex digital patterns against a dark background.
4K Quality
Yıllardır yapay zeka, bir görüntüyü tanımlamak ve sıfırdan bir görüntü oluşturmak için ayrı sinirsel mimarilere ihtiyaç duyuyordu. Araştırmacılar şimdi, hem görsel anlamayı hem de görüntü sentezini tek bir ortak gizil uzayda (latent space) ustalıkla gerçekleştiren birleşik bir kodlayıcı çerçevesi olan OpenVision 3'ü tanıttı.

Birleşik Vizyon: OpenVision 3, Yapay Zeka Tanıma ve Üretme Arasındaki Boşluğu Nasıl Kapatıyor?

Yıllardır yapay zeka alanı, makinelerin görsel bilgiyi işleme biçimindeki temel bir ayrışma ile tanımlanıyor. Bir görüntüyü tanımlamak için bir model, üst düzey anlambilime odaklanan ayırt edici (discriminative) bir mimariye ihtiyaç duyar; bir görüntü oluşturmak için ise alt düzey piksel dağılımına odaklanan üretken (generative) bir mimariye ihtiyaç duyar. Bu çift yollu yaklaşım, geliştiricileri ayrı ve genellikle yedekli sinirsel işlem hatları sürdürmeye zorlayarak önemli bir hesaplama yükü oluşturdu. Ancak UC Santa Cruz, Johns Hopkins University, NVIDIA ve diğer önde gelen kurumlardan bir grup araştırmacı, tek bir paylaşılan gizil alan (latent space) içinde hem görsel anlama hem de görüntü sentezinde ustalaşan birleşik bir kodlayıcı çerçevesi olan OpenVision 3'ü tanıttı. Bu atılım, çok modlu sistemler için "Evrensel Göz"ün sadece mümkün değil, aynı zamanda şu anda kullanımda olan parçalı modellerden daha verimli olduğunu gösteriyor.

Yapay Görmenin İkiye Bölünmesi

Bilgisayarlı görmede anlama ve üretme arasındaki tarihsel ayrım, her bir görevin farklı hedeflerinden kaynaklanmaktadır. OpenAI'ın CLIP modeli gibi anlama modelleri, görüntüleri metne eşlemek üzere eğitilir ve "köpek" veya "gün batımı" gibi soyut kavramlara odaklanmak için "gereksiz" piksel düzeyindeki ayrıntıları ayıklar. Aksine, Stable Diffusion'a güç verenler gibi üretken modeller, dokuları ve aydınlatmayı doğru bir şekilde yeniden oluşturmak için tam da bu ayrıntılara odaklanmak zorundadır. Birleşik Çok Modlu Modeller (UMM'ler) arayışında araştırmacılar, daha önce aynı görüntüyü iki farklı belirteç (token) kümesi üretmek için iki kez kodlayan UniFluid veya BAGEL gibi "iki belirteçli" sistemlere güveniyorlardı. İşlevsel olsa da, bu yedeklilik sistem karmaşıklığını artırıyor ve bir modelin dünyayı algılama biçimi ile onu hayal etme biçimi arasındaki sinerjiyi sınırlıyor.

Aralarında Letian Zhang ve Sucheng Ren'in de bulunduğu araştırma ekibine göre, OpenVision 3'ün geliştirilmesi "Platonik Temsil Hipotezi"ne dayanıyor. Bu teori, farklı veri modalitelerinin paylaşılan bir temel gerçekliği yansıttığını ve birleşik bir temsili öğrenmenin farklı görevlerde karşılıklı fayda sağladığını öne sürüyor. VQ-GAN gibi özelliklerin katı "kod defterlerine" (codebooks) dayanan eski birleşik belirteçleyicilerde bulunan ayrıklaştırma hatalarından uzaklaşan OpenVision 3, anlamsal anlamını yakalarken orijinal görüntünün zenginliğini koruyan sürekli bir gizil alan kullanıyor.

OpenVision 3 Mimarisi: Basit Ama Güçlü Bir Değişim

OpenVision 3'ün mimarisi zarif bir şekilde basittir. Bir görüntüyü gizil verilere sıkıştırmak için bir Varyasyonel Oto-kodlayıcıdan (VAE) geçirmekle başlar. Bu gizil veriler daha sonra bir Görsel Transformer (ViT) kodlayıcısına beslenir. Tasarımın dehası, bu ViT kodlayıcısının çıktısına ne olduğunda yatar: çıktı aynı anda iki tamamlayıcı eğitim dalına itilir. Birincisi, bir ViT-VAE kod çözücüsünün kodlayıcının belirteçlerinden orijinal görüntüyü yeniden oluşturmaya çalıştığı bir üretim dalıdır. Bu, kodlayıcıyı yüksek doğruluklu sentez için gerekli olan granüler, alt düzey görsel bilgileri korumaya zorlar.

İkinci dal ise anlamaya ayrılmıştır. Burada aynı temsil, karşılaştırmalı öğrenme (contrastive learning) ve görüntü altyazılama hedefleri aracılığıyla optimize edilir. Model, metin belirteçlerini özyinelemeli olarak tahmin ederek veya görüntü özelliklerini metin açıklamalarıyla hizalayarak karedeki üst düzey kavramları öğrenir. Bu çift yollu strateji, ortaya çıkan birleşik belirteçlerin hem piksellerin hem de düz yazının dilini konuşabilen "çok dilli" olmasını sağlar. Araştırmacılar, bu tasarımın, anlama için üretim kalitesinden veya tam tersinden ödün veren önceki birleşik modellerin yaygın tuzaklarından kaçındığını belirtiyor.

Gizil Alandaki Sinerji

OpenVision 3 makalesindeki en çarpıcı bulgulardan biri, iki eğitim sinyali arasındaki "önemsiz olmayan sinerji" kanıtıdır. Geleneksel görüş, bir yeniden oluşturma görevi eklemenin bir kodlayıcının anlamsal odağını zayıflatabileceğini öne sürer. Ancak Zhang, Zheng ve Xie tam tersini buldu: Sadece anlama kaybını optimize etmek aslında modelin görüntüleri yeniden oluşturma yeteneğini geliştirdi ve yeniden oluşturma için optimize etmek anlamsal hizalamaya fayda sağladı. Bu durum, bir nesnenin ne olduğunu "anlamanın" modelin onu daha doğru "çizmesine" yardımcı olduğunu, nesneyi "çizmenin" ise modelin onun tanımlayıcı özelliklerini anlamasına yardımcı olduğunu göstermektedir.

Bu birleşik tasarımı doğrulamak için araştırmacılar, kodlayıcı "dondurulmuş" haldeyken kapsamlı değerlendirmeler yaptılar; yani öğrenilen temsilcilerin belirli görevlere daha fazla uyum sağlamasına izin verilmedi. Bu, temsilin doğal kalitesinin titiz bir testidir. Çok modlu diyalog için popüler bir model olan LLaVA-1.5 çerçevesine dahil edildiğinde, OpenVision 3'ün birleşik belirteçlerinin, CLIP tarafından üretilen özel anlamsal belirteçler kadar etkili olduğu kanıtlandı. Bu durum, üretken verilerin dahil edilmesinin anlamsal alanı "karıştırmadığını", aksine zenginleştirdiğini göstermektedir.

Performans ve Karşılaştırmalı Değerlendirmeler

OpenVision 3 için ampirik sonuçlar, özellikle OpenAI'ın CLIP-L/14'ü gibi endüstri standartlarıyla karşılaştırıldığında ikna edicidir. Çok modlu anlama karşılaştırmalarında OpenVision 3, SeedBench'te 62.4 ve POPE'da 83.7 puan alarak standart CLIP kodlayıcısını (sırasıyla 62.2 ve 82.9) biraz geride bıraktı. Bu metrikler, bir yapay zekanın uzamsal ilişkiler hakkında akıl yürütme ve "halüsinasyonlara" kapılmadan nesneleri tanımlama yeteneğini değerlendirmek için kritik öneme sahiptir.

OpenVision 3'ün avantajları üretken görevlerde daha da belirginleşti. ImageNet veri kümesi üzerinde RAE (Reconstructive Auto-Encoder) çerçevesi altında test edilen model, standart CLIP tabanlı kodlayıcı için kaydedilen 2.54 gFID'yi önemli ölçüde aşarak 1.89'luk bir üretken Fréchet Inception Distance (gFID) elde etti. Ayrıca, yeniden oluşturma kalitesinde (rFID), OpenVision 3 mevcut birleşik belirteçleyicileri geride bırakarak en yakın rakiplerinin 0.36 puanına karşılık 0.22 puan aldı. Bu rakamlar verimlilikte önemli bir sıçramayı temsil ediyor, çünkü tek bir model artık daha önce ayrılmış iki alanda son teknoloji seviyesinde performans gösterebiliyor.

Karşılaştırmalı Performans Metrikleri:

  • SeedBench (Anlama): OpenVision 3 (62.4) vs. CLIP-L/14 (62.2)
  • POPE (Nesne Tutarlılığı): OpenVision 3 (83.7) vs. CLIP-L/14 (82.9)
  • ImageNet gFID (Üretim): OpenVision 3 (1.89) vs. CLIP tabanlı (2.54)
  • ImageNet rFID (Yeniden Oluşturma): OpenVision 3 (0.22) vs. Önceki Birleşik (0.36)

AGI'ye Giden Yol: Anahtar Birleşik Modelleme mi?

OpenVision 3'ün başarısı, Yapay Genel Zeka (AGI) arayışı için derin çıkarımlara sahiptir. İnsanlardaki biyolojik görme sistemleri, tanıma ve zihinsel imgeleme için ayrı kodlayıcılarla çalışmaz; bir ağacı algılayan görsel korteks, bir ağacı hayal etmekten de büyük ölçüde sorumludur. OpenVision 3, bu biyolojik verimliliği taklit ederek yapay zekayı, algılama ve yaratmanın aynı madalyonun iki yüzü olduğu bütünsel bir zeka biçimine yaklaştırıyor. Bu birleşme, karmaşık bir ortamı algılaması ve ardından bu ortam içindeki potansiyel eylemlerin planlarını veya görsel simülasyonlarını oluşturması gereken gelecekteki genel amaçlı yapay zeka ajanları için muhtemelen temel teşkil edecektir.

Performansın ötesinde, bellek ve işleme gereksinimlerindeki azalma önemli bir pratik faydadır. İki kodlayıcı yerine tek bir kodlayıcı kullanarak geliştiriciler, çok modlu modellerin ayak izini önemli ölçüde azaltabilir, bu da onları uç cihazlarda veya gerçek zamanlı robotikte dağıtmayı kolaylaştırır. Araştırma ekibi, OpenVision 3'ün "birleşik modelleme üzerine gelecekteki araştırmaları teşvik edeceğini", endüstriyi geçmişin yama işi "Frankenstein" modellerinden uzaklaştırıp daha zarif, entegre mimarilere doğru taşıyacağını umuyor.

Birleşik Vizyon İçin Sırada Ne Var?

Geleceğe bakıldığında, UC Santa Cruz, JHU ve NVIDIA'dan araştırmacılar, bir sonraki sınırın bu birleşik yaklaşımı daha da büyük veri kümelerine ve video ile 3D ortamlar gibi daha çeşitli modalitelere ölçeklendirmek olduğunu öne sürüyorlar. OpenVision 3, 2D anlama ve üretme arasındaki dengede ustalaşmış olsa da, video için zamansal tutarlılığın entegrasyonu bir engel olmaya devam ediyor. Ek olarak, bu birleşik temsillerin bir modelin sadece birkaç örnekten yeni bir görevi öğrendiği "bağlam içi öğrenme" (in-context learning) için nasıl kullanılabileceğini keşfetmek, yapay zeka ajanlarında yeni uyabilirlik seviyelerinin kilidini açabilir.

OpenVision 3 kodlayıcı ailesinin piyasaya sürülmesi, bilgisayarlı görmede bir dönüm noktasını işaret ediyor. Bu, "görmek" ve "yaratmak" arasındaki ödünleşimin yanlış bir ikilem olduğunu kanıtlıyor. Yapay zeka gelişmeye devam ettikçe, başarılı olacak modeller muhtemelen OpenVision 3 gibi dünyayı olduğu gibi anlamak ile dünyayı olabileceği gibi hayal etmek arasındaki ortak noktayı bulanlar olacaktır.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Yapay zekada görüntü anlama ile görüntü oluşturma arasındaki fark nedir?
A Yapay zekada **görüntü anlama**, görsel içeriği yorumlayan ve mantık yürüten ResNet, ViT, CLIP veya görsel-dil LLM'leri gibi modelleri kullanarak sınıflandırma, altyazı ekleme veya görsel soru yanıtlama gibi mevcut görüntülerden bilgi çıkarmayı içerir. **Görüntü oluşturma** ise aksine, öğrenilen desenlere dayanarak yeni görseller üreten DALL·E ve Stable Diffusion gibi difüzyon modelleri, GAN'lar veya VAE'ler gibi üretken modelleri kullanarak, genellikle metin komutlarından tamamen yeni görüntüler oluşturur. Bu yetenekler birbirini tamamlayıcıdır: çok modlu LLM'ler, metin tabanlı akıl yürütme ile uyumları sayesinde anlamada mükemmeldir; özel üretken modeller ise yüksek kaliteli görüntüler oluşturmada liderdir, ancak birleşik mimarilerle bu sınırlar giderek belirsizleşmektedir.
Q OpenVision 3, OpenAI'ın CLIP modeline göre nasıl bir gelişim sağlıyor?
A OpenVision 3, CLIP+RAE'nin 2.54'lük değerine kıyasla ImageNet üzerinde 1.89'luk bir gFID ile üstün oluşturma doğruluğu ve ImageNet 256x256 üzerinde 0.216 rFID ile dikkat çekici bir yeniden yapılandırma performansı elde ederek OpenAI'ın CLIP modelini geride bırakır. SeedBench'te 62.2'ye karşı 62.4 ve POPE'da 82.9'a karşı 83.7 puan alarak anlama görevlerinde CLIP ile eşleşir veya onu geçer; aynı zamanda esnek dağıtım için 'tiny'den 'huge'a kadar geniş bir model ölçeği yelpazesiyle tamamen açık bir mimari sunar. Ek olarak, CLIP'in zayıf mekansal anlama ve kapalı kaynak yapısı gibi kısıtlamalarını gidererek, basit bir VAE + ViT kodlayıcı kullanarak hem görüntü anlama hem de oluşturma için birleşik görsel temsilleri destekler.
Q Birleşik vizyon modellemesi, YGB (AGI) için bir gereklilik midir?
A Hayır, birleşik vizyon modellemesi YGB (AGI) için bir gereklilik değildir. YGB tanımları; birleşik vizyon mimarilerini zorunlu kılmadan, yeni alanlarda otonom beceri öğrenimi, becerilerin güvenli bir şekilde ustalıkla uygulanması, enerji verimliliği ve akıl yürütme ve çok modluluk ile verimli planlama gibi temel yetenekleri vurgular. UViM ve FOCUS gibi birleşik vizyon modelleri, tanıma ve oluşturma arasındaki köprüyü kurarak bilgisayarlı görü görevlerini ilerletse de, bunlar genel zekanın gerekli bir koşulundan ziyade uzmanlaşmış çok modlu yapay zekadaki ilerlemeyi temsil eder.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!