Subquadratic, LLM Karesel Darboğazını Çözmede Çığır Açan Bir Gelişme İddia Ediyor

Translated for your language. Read the original.

AI-assisted draft.

evvelsi gün3min read

In this article

Subquadratic, LLM'deki Karesel Darboğazı Çözmede Çığır Açtığını İddia Ediyor

Yapay zeka endüstrisi, Miami merkezli girişim Subquadratic'in, Büyük Dil Modellerini (LLM'ler) yaklaşık on yıldır kısıtlayan matematiksel bir sınırı çözdüğünü iddia etmesiyle çalkalanıyor. Başlangıçtaki şüphecilik yüksek olsa da, son yapılan bağımsız doğrulamalar, yeni "SubQ" mimarilerinin üretken yapay zeka paradigmasını temelden değiştirebileceğini gösteriyor.

Sorun: Yoğun Dikkat Mekanizmasının Karesel Maliyeti

Subquadratic'in iddiasının önemini anlamak için, Google tarafından 2017'de tanıtılan "Transformer" mimarisini anlamak gerekir. Modern LLM'lerin çoğu, yoğun dikkat (dense attention) adı verilen bir mekanizmaya dayanır. Bu süreçte, bağlamı yakalamak için bir dizideki her bir belirteç (token - kelime veya kelime parçası), diğer tüm belirteçlerle çarpılır.

Bu durum, karesel genişleme (quadratic expansion) olarak bilinen devasa bir hesaplama yükü oluşturur. Bir metnin uzunluğunu iki katına çıkarırsanız, hesaplama gereksinimleri kabaca dört katına çıkar. 10.000 kelimelik bir belge için modelin yaklaşık 50 milyon ayrı çarpma işlemi yapması gerekir. Bu verimsizlik, LLM'lerin uzun bağlamları işlemek için muazzam enerji ve pahalı donanımlara ihtiyaç duyan, meşhur "enerji canavarları" olmasının temel nedenidir.

Çözüm: Seyrek Dikkat ile Ölçeklendirme

Subquadratic'in SubQ modeli, yoğun dikkat yerine seyrek dikkat (sparse attention) kullanmayı amaçlıyor. Temel felsefe, kelimeler arasındaki her ilişkinin bir belgeyi anlamak için kritik olmadığıdır. Seyrek dikkat, her belirteci diğer tüm belirteçlerle çarpmak yerine, hesaplanması gereken en alakalı ilişkileri seçer.

"Seyrek dikkat" yeni bir kavram olmasa da, önceki girişimler yoğun dikkat modellerinde bulunan yüksek akıl yürütme ve nüans seviyesini korumakta zorlanmıştı. Subquadratic, geleneksel zeka kaybını yaşamadan seyrek dikkatin verimliliğini sağlayan bir model yaratarak bu boşluğu doldurduğunu iddia ediyor.

İddiaların Doğrulanması: Appen'den Gelen Sonuçlar

Bazı eleştirmenlerin doğrulanmamış iddiaları "Yapay Zeka Theranos'una" benzetmesiyle başlayan ilk şüpheciliğin ardından Subquadratic, lider bir yapay zeka değerlendirme firması olan Appen'den alınan üçüncü taraf kıyaslama sonuçlarını yayınladı. Appen'in bağımsız testlerinden elde edilen sonuçlar SubQ mimarisini doğruladı ve bulgıları "şok edici" ve potansiyel bir "oyun değiştirici" olarak nitelendirdi.

Startup'a göre SubQ, birkaç dönüştürücü teknik avantaj sunuyor:

Bağlam Penceresi (Context Window): SubQ, mevcut modellerin çoğuna kıyasla tek seferde 12 kata kadar daha fazla metin işleyebilir; bu da onu tüm kod tabanlarını veya devasa belge kütüphanelerini analiz etmek için ideal kılar.
Performans: Daha yalın mimarisine rağmen SubQ, kodlama gibi kritik görevlerde OpenAI, Google DeepMind ve Anthropic gibi sektör liderlerinin performansıyla yarışmaktadır.
Verimlilik: Model, mevcut transformer tabanlı modellerden önemli ölçüde daha hızlı, daha ucuz ve daha enerji verimlidir.

Transformer'ların Ötesinde Yeni Bir Dönem mi?

Subquadratic sadece mevcut modelleri optimize etmeyi hedeflemiyor; sektörün temel mimarisini değiştirmeyi amaçlıyor. CEO Justin Dangel, şirketin Transformer'lar üzerine inşa etme döneminin sona ermekte olabileceğine inandığını belirtti. Eğer SubQ, ölçeklenebilir etkinliğini kanıtlamaya devam edebilirse, yoğun (dense) dikkat mekanizmasından seyrek (sparse) dikkat mekanizmasına geçiş, Transformer'ın icadından bu yana yapay zeka mimarisindeki en önemli değişim olabilir.

Önemli Çıkarımlar

Karesel Bariyeri Aşmak: SubQ, geleneksel yoğun (dense) dikkatin gerektirdiği üstel hesaplama artışından kaçınmak için seyrek (sparse) dikkat kullanır.
Üstün Bağlam Yönetimi: Model, tek seferde 12 kat daha fazla veriyi işleyebilir; bu da büyük ölçekli veri setlerinin ve uzun kod bloklarının derinlemesine analiz edilmesine olanak tanır.
Doğrulanmış Verimlilik: Appen tarafından yapılan bağımsız testler, SubQ'nun çok daha düşük maliyet ve enerjiyle üst düzey performans (OpenAI ve Google ile eşdeğer) sergilediğini doğrulamaktadır.

Subquadratic, LLM Karesel Darboğazını Çözmede Çığır Açan Bir Gelişme İddia Ediyor

Subquadratic, LLM'deki Karesel Darboğazı Çözmede Çığır Açtığını İddia Ediyor

Sorun: Yoğun Dikkat Mekanizmasının Karesel Maliyeti

Çözüm: Seyrek Dikkat ile Ölçeklendirme

İddiaların Doğrulanması: Appen'den Gelen Sonuçlar

Transformer'ların Ötesinde Yeni Bir Dönem mi?

Önemli Çıkarımlar

Continue reading

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

Hassas Mühendislik ile LLM Halüsinasyonlarıyla Mücadele Etmek İçin Muhtemelen 9 Milyon Dolar Yatırım Alıyor

Verimlilik Atılımları ve Beyin Bilgisayar Arayüzlerinin Yükselişi

Yeni AA Briefcase Benchmark'ı, Yapay Zekanın Gerçek Bilgi İşleri ile Mücadelesini Ortaya Koyuyor

Sam Altman, Ölçeklendirme Şüphecilerinin Yapay Zeka Gelişimini Engellediğini İddia Ediyor