Yerel Yapay Zeka: Açık Kaynaklı Modeller Yerel Olarak Nasıl Çalıştırılır

Terminalinize bir soru yazıyorsunuz. Enter tuşuna basıyorsunuz. Bir cevap akmaya başlıyor. Wi-Fi kapalı. API anahtarına gerek yok. Kullanım sayacı işlemiyor. Model, halihazırda sahip olduğunuz donanım üzerinde çalışıyor.

Yerel yapay zeka çalıştırmak eskiden zordu. Şimdi ise kolay. Orta segment bir dizüstü bilgisayar, birkaç yıl öncesinin en gelişmiş (frontier-class) modellerini çalıştırabilir.

Yerel yapay zeka; gizlilik, maliyet ve çevrimdışı kullanım için doğru tercihtir.

Yerel Yapay Zekanın Altın Kuralı: Bellek her şeydir. İster bir GPU üzerindeki VRAM'i, ister bir Mac üzerindeki birleşik belleği (unified memory) kullanın; modelinizin iyi çalışması için hızlı belleğe sığması gerekir.

Hızlı Başlangıç Kılavuzu:

  • Ollama veya LM Studio'yu kurun.
  • 7B veya 8B bir model indirin.
  • Q4_K_M kuantizasyonunu (quantization) kullanın.
  • On dakika içinde yerel yapay zekayı çalıştırıyor olacaksınız.

Bilmeniz Gereken Temel Terimler:

• Parametreler: Modelin boyutu. 7B bir model 7 milyar parametreye sahiptir. Daha fazla parametre genellikle daha fazla zeka ancak daha fazla bellek kullanımı anlamına gelir. • Kuantizasyon (Quantization): Modelleri küçültür. Çok daha küçük dosya boyutları için kaliteden çok az ödün verir. Q4_K_M en ideal noktadır (sweet spot). • Tokenlar: Modellerin metni okuma biçimi. Bunları kelime parçaları olarak düşünebilirsiniz. • Bağlam Penceresi (Context Window): Modelin tek seferde ne kadar metni hatırlayabildiği. • Çıkarım (Inference): Bir cevap almak için modeli çalıştırma eylemi.

Aracınızı Nasıl Seçersiniz:

  • Ollama: Geliştiriciler için en iyisi. Bir arka plan servisi olarak çalışır. Kolay bir API istiyorsanız kullanın.
  • LM Studio: Yeni başlayanlar için en iyisi. Temiz bir arayüze sahiptir. Görsel bir deneyim istiyorsanız kullanın.
  • llama.cpp: Uzmanlar için en iyisi. Her ayar üzerinde tam kontrol sağlar.

Donanım Stratejisi:

  • Apple Silicon Mac'ler: Birleşik bellek (unified memory) sayesinde harikadırlar. 64GB'lık bir Mac, çok büyük modelleri çalıştırabilir.
  • NVIDIA GPU'lar: Endüstri standardıdır. En iyi yazılım desteği ve hız için bunları kullanın.
  • Düşük Segment Dizüstü Bilgisayarlar: Phi-4-mini veya Llama 3.2 3B gibi küçük modeller kullanın.

Bellek Hesaplama Kısayolu: Q4 kuantizasyonunda, her bir milyar parametre yaklaşık 0,7 GB bellek maliyeti oluşturur. Ek yük (overhead) ve bağlam (context) için her zaman fazladan 2 GB pay ayırın.

Her şey için buluta güvenmeyi bırakın. Verilerinizin ve işlem gücünüzün kontrolünü elinize alın.

Kaynak: https://dev.to/harshdeepsingh13/local-ai-how-to-run-open-source-ai-models-locally-4pi2

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi