Farsça Sentetik Veri Hattı Tasarımı

Translated for your language. Read the original.

AI-assisted draft.

Bir Farsça Sentetik Veri Hattı Tasarlamak

LLM'leri eğitmek artık modelleri ölçeklendirmekle ilgili değil. Veri kalitesini ölçeklendirmekle ilgili.

Çoğu Farsça veri seti yapıdan yoksundur. Bu durum, modellerin talimatları izlemede başarısız olmasına neden olur. Sorun model boyutu değil, veri kıtlığıdır.

Bunu çözmek için bir veri hattı oluşturdum. Konu grafiklerinden QLoRA ince ayarına (fine-tuning) kadar uzanan bir süreç sunuyor.

Veri Hattı Süreci:

Konu Ağacı oluşturma
LLM Üretimi
Tekilleştirme
Kalite Puanlaması
Veri Seti Dışa Aktarımı
QLoRA İnce Ayarı
Değerlendirme

Temel Tasarım Kuralları:

Dengeli kapsama sağlamak için 51 alan.
Tekrarlayan fikirleri kaldırmak için anlamsal tekilleştirme.
Yanlılığı (bias) azaltmak için GPT modellerini kullanarak çoklu model üretimi.
Nihai ince ayar için Qwen2.5 3B Instruct.

Veri Motoru Nasıl Çalışır: Çeşitlilik yaratmak için birden fazla model kullanıyorum. GPT modelleri muhakeme ve varyasyon sağlar. Bu, maliyetleri düşük, çeşitliliği ise yüksek tutar.

Verileri temizlemek için anlamsal filtreleme kullanıyorum. Eğer iki talimat 0,75'in üzerinde bir benzerlik puanına sahipse, birini kaldırıyorum. Bu, modelin aynı kalıplara aşırı uyum sağlamasını (overfitting) önler.

Kaliteyi puanlamak için bir LLM'i yargıç olarak kullanıyorum. Şunları kontrol eder:

Akıcılık
Alaka düzeyi
Tamlık

Yalnızca 3,5 veya daha yüksek puana sahip veriler veri setinde kalır.

İnce Ayar Sonuçları: Google Colab üzerinden Qwen2.5 3B Instruct modelinde QLoRA kullandım. QLoRA, tam ağırlıklar yerine küçük adaptörler eğitir. Bu, performansı yüksek tutarken bellekten tasarruf sağlar.

Sonuçlar devasa bir fark gösteriyor:

Temel model sık sık Arapçaya geçiş yapıyor.
İnce ayar yapılmış model, akıcı ve tutarlı bir Farsça konuşuyor.

Temel ders açık: Veri mühendisliği, model ölçeklendirmeden daha önemlidir. Veri kalitesi birincil darboğazdır.

Önemli Çıkarımlar:

Temiz veri için çift filtreleme gereklidir.
Yapılandırılmış konu grafikleri, serbest istemlerden (prompts) daha iyi çalışır.
Bir LLM yargıcı, sistemin hayati bir parçasıdır.

Bu sistem, düşük kaynaklı LLM hizalaması (alignment) için eksiksiz bir motordur.

Kaynak: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi

Farsça Sentetik Veri Hattı Tasarımı

Continue reading

Sentetik Veri için Prompt Mühendisliği

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁𝗶𝗻𝗴: 𝗔 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿'𝘀 𝗚𝘂𝗶𝗱𝗲