Yapay Zeka Eğlencesinin Arkasındaki Gerçek Mimari
Yapay zekanın yazarların veya stüdyoların yerini alıp almayacağını sormayı bırakın. Bu sorular bir şey inşa etmenize yardımcı olmaz.
Eğer bir mühendis veya mimarsanız, farklı bir soru sormalısınız. İçerik bir kez üretilip dağıtılmak yerine talep üzerine oluşturulduğunda, arka uç (backend) nasıl görünür?
Model işin kolay kısmıdır. Zor olan kısımlar ise gecikme (latency), köken (provenance) ve maliyettir.
- Etkileşim bir akış (streaming) problemidir
Toplu üretim (batch generation) kolaydır. Bir klibi geceden render alabilirsiniz. Ancak bir kullanıcı bir karakterle etkileşime girerse, yanıtın 200ms içinde gerçekleşmesi gerekir.
Bu hedefe ulaşmak için sadece bir API çağırmak yetmez. Bir gecikme bütçesi yönetmelisiniz:
- Ağ gidiş-dönüş süresi (Network round trip): 40ms
- Tokenization: 10ms
- Model çıkarımı (inference): 110ms
- Son işleme (post-processing): 25ms
- Jitter payı: 15ms
Edge yerleşimi, KV-cache yeniden kullanımı ve spekülatif kod çözme (speculative decoding) yöntemlerine ihtiyacınız var. Yapay zeka projeniz artık bir dağıtık sistemler projesidir.
- Köken (Provenance) sonradan akla gelen bir şey değildir
İçerik sentetik olduğunda, onu kimin yaptığını ve neyin eğittiğini bilmelisiniz. Bunu sonradan düzeltemezsiniz. Eğer bir soyağacı (lineage) olmadan bir milyon varlık üretirseniz, o geçmiş sonsuza dek kaybolur.
Köken bilgisini veri modelinize dahil etmelisiniz. Atıf ve imzaları üretim anında yakalayın. Bunları şemanızda (schema) saklayın. Bu, yasal veya telif hakkı sorularını sorgu hızında yanıtlamanıza olanak tanır.
- Ekonomi bir üretim problemidir
Üretken metin, token başına maliyet kullanır. Üretken video ise dakika başına maliyet kullanır.
Bir dakikalık 4K videonun GPU-saniye cinsinden gerçek bir maliyeti vardır. Çoğu şirket, harika görünen ancak maliyet çok yüksek olduğu için ölçeklendirmede başarısız olan pilot projeler yürütür.
Kazanmak için çıkarım (inference) sürecinizi bir fabrika gibi ölçüm araçlarıyla yapılandırmalısınız. Kullanım oranını ve verimi (yield) takip edin. Kalite eşiğinizi karşılayan en küçük modeli kullanın. Para tasarrufu sağlamak için üretilen segmentleri önbelleğe alın (cache).
Manşetleri model kapar. Nelerin gerçekten piyasaya sürüleceğine ise mimari karar verir.
Bir sonraki tasarım incelemeniz için özet:
- Etkileşimi bir akış sistemleri zorluğu olarak ele alın.
- Köken bilgisini ilk günden itibaren imzalı ve saklanan bir alan haline getirin.
- Özelliğinizin ayakta kalmasını sağlamak için sunulan dakika başına maliyeti ölçün.
Optional learning community: https://t.me/GyaanSetuAi
