Designing A Persian Synthetic Data Pipeline
L'addestramento degli LLM non riguarda più la scalabilità dei modelli. Riguarda la scalabilità della qualità dei dati.
La maggior parte dei dataset in persiano manca di struttura. Ciò causa il fallimento dei modelli nel seguire le istruzioni. Il problema è la scarsità di dati, non la dimensione del modello.
Ho costruito una pipeline per risolvere questo problema. Si passa dai grafi tematici al fine-tuning con QLoRA.
The Pipeline Process:
- Creazione di Topic Tree
- Generazione tramite LLM
- Deduplicazione
- Valutazione della qualità (Quality Scoring)
- Esportazione del dataset
- Fine-tuning con QLoRA
- Valutazione
Core Design Rules:
- 51 domini per garantire una copertura equilibrata.
- Deduplicazione semantica per rimuovere idee ripetitive.
- Generazione multi-modello utilizzando modelli GPT per ridurre i bias.
- Qwen2.5 3B Instruct per il fine-tuning finale.
How the Data Engine Works: Utilizzo più modelli per creare varietà. I modelli GPT forniscono ragionamento e variazione. Ciò mantiene i costi bassi e la diversità elevata.
Utilizzo il filtraggio semantico per pulire i dati. Se due istruzioni hanno un punteggio di similarità superiore a 0,75, ne rimuovo una. Questo evita che il modello vada in overfitting sugli stessi pattern.
Utilizzo un LLM come giudice per valutare la qualità. Controlla:
- Fluidità
- Rilevanza
- Completezza
Solo i dati con un punteggio di 3,5 o superiore rimangono nel set.
Fine Tuning Results: Ho utilizzato QLoRA su un modello Qwen2.5 3B Instruct tramite Google Colab. QLoRA addestra piccoli adapter invece di pesi completi. Ciò risparmia memoria mantenendo alte le prestazioni.
The results show a massive difference:
- Il modello base spesso passa all'arabo.
- Il modello sottoposto a fine-tuning parla un persiano fluido e coerente.
La lezione principale è chiara: l'ingegneria dei dati conta più della scalabilità del modello. La qualità dei dati è il collo di bottiglia principale.
Key Insights:
- Il doppio filtraggio è necessario per ottenere dati puliti.
- I grafi tematici strutturati funzionano meglio dei prompt liberi.
- Un LLM judge è una parte vitale del sistema.
Questo sistema è un motore completo per l'allineamento di LLM a basse risorse.
Optional learning community: https://t.me/GyaanSetuAi
