Subquadratic, LLM'deki Karesel Darboğazı Çözmede Çığır Açtığını İddia Ediyor

Yapay zeka endüstrisi, Miami merkezli girişim Subquadratic'in, Büyük Dil Modellerini (LLM'ler) yaklaşık on yıldır kısıtlayan matematiksel bir sınırı çözdüğünü iddia etmesiyle çalkalanıyor. Başlangıçtaki şüphecilik yüksek olsa da, son yapılan bağımsız doğrulamalar, yeni "SubQ" mimarilerinin üretken yapay zeka paradigmasını temelden değiştirebileceğini gösteriyor.

Sorun: Yoğun Dikkat Mekanizmasının Karesel Maliyeti

Subquadratic'in iddiasının önemini anlamak için, Google tarafından 2017'de tanıtılan "Transformer" mimarisini anlamak gerekir. Modern LLM'lerin çoğu, yoğun dikkat (dense attention) adı verilen bir mekanizmaya dayanır. Bu süreçte, bağlamı yakalamak için bir dizideki her bir belirteç (token - kelime veya kelime parçası), diğer tüm belirteçlerle çarpılır.

Bu durum, karesel genişleme (quadratic expansion) olarak bilinen devasa bir hesaplama yükü oluşturur. Bir metnin uzunluğunu iki katına çıkarırsanız, hesaplama gereksinimleri kabaca dört katına çıkar. 10.000 kelimelik bir belge için modelin yaklaşık 50 milyon ayrı çarpma işlemi yapması gerekir. Bu verimsizlik, LLM'lerin uzun bağlamları işlemek için muazzam enerji ve pahalı donanımlara ihtiyaç duyan, meşhur "enerji canavarları" olmasının temel nedenidir.

Çözüm: Seyrek Dikkat ile Ölçeklendirme

Subquadratic'in SubQ modeli, yoğun dikkat yerine seyrek dikkat (sparse attention) kullanmayı amaçlıyor. Temel felsefe, kelimeler arasındaki her ilişkinin bir belgeyi anlamak için kritik olmadığıdır. Seyrek dikkat, her belirteci diğer tüm belirteçlerle çarpmak yerine, hesaplanması gereken en alakalı ilişkileri seçer.

"Seyrek dikkat" yeni bir kavram olmasa da, önceki girişimler yoğun dikkat modellerinde bulunan yüksek akıl yürütme ve nüans seviyesini korumakta zorlanmıştı. Subquadratic, geleneksel zeka kaybını yaşamadan seyrek dikkatin verimliliğini sağlayan bir model yaratarak bu boşluğu doldurduğunu iddia ediyor.

İddiaların Doğrulanması: Appen'den Gelen Sonuçlar

Bazı eleştirmenlerin doğrulanmamış iddiaları "Yapay Zeka Theranos'una" benzetmesiyle başlayan ilk şüpheciliğin ardından Subquadratic, lider bir yapay zeka değerlendirme firması olan Appen'den alınan üçüncü taraf kıyaslama sonuçlarını yayınladı. Appen'in bağımsız testlerinden elde edilen sonuçlar SubQ mimarisini doğruladı ve bulgıları "şok edici" ve potansiyel bir "oyun değiştirici" olarak nitelendirdi.

Startup'a göre SubQ, birkaç dönüştürücü teknik avantaj sunuyor:

  • Bağlam Penceresi (Context Window): SubQ, mevcut modellerin çoğuna kıyasla tek seferde 12 kata kadar daha fazla metin işleyebilir; bu da onu tüm kod tabanlarını veya devasa belge kütüphanelerini analiz etmek için ideal kılar.
  • Performans: Daha yalın mimarisine rağmen SubQ, kodlama gibi kritik görevlerde OpenAI, Google DeepMind ve Anthropic gibi sektör liderlerinin performansıyla yarışmaktadır.
  • Verimlilik: Model, mevcut transformer tabanlı modellerden önemli ölçüde daha hızlı, daha ucuz ve daha enerji verimlidir.

Transformer'ların Ötesinde Yeni Bir Dönem mi?

Subquadratic sadece mevcut modelleri optimize etmeyi hedeflemiyor; sektörün temel mimarisini değiştirmeyi amaçlıyor. CEO Justin Dangel, şirketin Transformer'lar üzerine inşa etme döneminin sona ermekte olabileceğine inandığını belirtti. Eğer SubQ, ölçeklenebilir etkinliğini kanıtlamaya devam edebilirse, yoğun (dense) dikkat mekanizmasından seyrek (sparse) dikkat mekanizmasına geçiş, Transformer'ın icadından bu yana yapay zeka mimarisindeki en önemli değişim olabilir.

Önemli Çıkarımlar

  • Karesel Bariyeri Aşmak: SubQ, geleneksel yoğun (dense) dikkatin gerektirdiği üstel hesaplama artışından kaçınmak için seyrek (sparse) dikkat kullanır.
  • Üstün Bağlam Yönetimi: Model, tek seferde 12 kat daha fazla veriyi işleyebilir; bu da büyük ölçekli veri setlerinin ve uzun kod bloklarının derinlemesine analiz edilmesine olanak tanır.
  • Doğrulanmış Verimlilik: Appen tarafından yapılan bağımsız testler, SubQ'nun çok daha düşük maliyet ve enerjiyle üst düzey performans (OpenAI ve Google ile eşdeğer) sergilediğini doğrulamaktadır.