Bir Farsça Sentetik Veri Hattı Tasarlamak

LLM'leri eğitmek artık modelleri ölçeklendirmekle ilgili değil. Veri kalitesini ölçeklendirmekle ilgili.

Çoğu Farsça veri seti yapıdan yoksundur. Bu durum, modellerin talimatları izlemede başarısız olmasına neden olur. Sorun model boyutu değil, veri kıtlığıdır.

Bunu çözmek için bir veri hattı oluşturdum. Konu grafiklerinden QLoRA ince ayarına (fine-tuning) kadar uzanan bir süreç sunuyor.

Veri Hattı Süreci:

  • Konu Ağacı oluşturma
  • LLM Üretimi
  • Tekilleştirme
  • Kalite Puanlaması
  • Veri Seti Dışa Aktarımı
  • QLoRA İnce Ayarı
  • Değerlendirme

Temel Tasarım Kuralları:

  • Dengeli kapsama sağlamak için 51 alan.
  • Tekrarlayan fikirleri kaldırmak için anlamsal tekilleştirme.
  • Yanlılığı (bias) azaltmak için GPT modellerini kullanarak çoklu model üretimi.
  • Nihai ince ayar için Qwen2.5 3B Instruct.

Veri Motoru Nasıl Çalışır: Çeşitlilik yaratmak için birden fazla model kullanıyorum. GPT modelleri muhakeme ve varyasyon sağlar. Bu, maliyetleri düşük, çeşitliliği ise yüksek tutar.

Verileri temizlemek için anlamsal filtreleme kullanıyorum. Eğer iki talimat 0,75'in üzerinde bir benzerlik puanına sahipse, birini kaldırıyorum. Bu, modelin aynı kalıplara aşırı uyum sağlamasını (overfitting) önler.

Kaliteyi puanlamak için bir LLM'i yargıç olarak kullanıyorum. Şunları kontrol eder:

  • Akıcılık
  • Alaka düzeyi
  • Tamlık

Yalnızca 3,5 veya daha yüksek puana sahip veriler veri setinde kalır.

İnce Ayar Sonuçları: Google Colab üzerinden Qwen2.5 3B Instruct modelinde QLoRA kullandım. QLoRA, tam ağırlıklar yerine küçük adaptörler eğitir. Bu, performansı yüksek tutarken bellekten tasarruf sağlar.

Sonuçlar devasa bir fark gösteriyor:

  • Temel model sık sık Arapçaya geçiş yapıyor.
  • İnce ayar yapılmış model, akıcı ve tutarlı bir Farsça konuşuyor.

Temel ders açık: Veri mühendisliği, model ölçeklendirmeden daha önemlidir. Veri kalitesi birincil darboğazdır.

Önemli Çıkarımlar:

  • Temiz veri için çift filtreleme gereklidir.
  • Yapılandırılmış konu grafikleri, serbest istemlerden (prompts) daha iyi çalışır.
  • Bir LLM yargıcı, sistemin hayati bir parçasıdır.

Bu sistem, düşük kaynaklı LLM hizalaması (alignment) için eksiksiz bir motordur.

Kaynak: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi