Progettazione di una pipeline di dati sintetici in persiano

Translated for your language. Leggi l'originale.

AI-assisted draft.

GyaanSetu Editorial3 ore fa2min di lettura

Progettazione di una pipeline di dati sintetici in persiano

Designing A Persian Synthetic Data Pipeline

L'addestramento degli LLM non riguarda più la scalabilità dei modelli. Riguarda la scalabilità della qualità dei dati.

La maggior parte dei dataset in persiano manca di struttura. Ciò causa il fallimento dei modelli nel seguire le istruzioni. Il problema è la scarsità di dati, non la dimensione del modello.

Ho costruito una pipeline per risolvere questo problema. Si passa dai grafi tematici al fine-tuning con QLoRA.

The Pipeline Process:

Creazione di Topic Tree
Generazione tramite LLM
Deduplicazione
Valutazione della qualità (Quality Scoring)
Esportazione del dataset
Fine-tuning con QLoRA
Valutazione

Core Design Rules:

51 domini per garantire una copertura equilibrata.
Deduplicazione semantica per rimuovere idee ripetitive.
Generazione multi-modello utilizzando modelli GPT per ridurre i bias.
Qwen2.5 3B Instruct per il fine-tuning finale.

How the Data Engine Works: Utilizzo più modelli per creare varietà. I modelli GPT forniscono ragionamento e variazione. Ciò mantiene i costi bassi e la diversità elevata.

Utilizzo il filtraggio semantico per pulire i dati. Se due istruzioni hanno un punteggio di similarità superiore a 0,75, ne rimuovo una. Questo evita che il modello vada in overfitting sugli stessi pattern.

Utilizzo un LLM come giudice per valutare la qualità. Controlla:

Fluidità
Rilevanza
Completezza

Solo i dati con un punteggio di 3,5 o superiore rimangono nel set.

Fine Tuning Results: Ho utilizzato QLoRA su un modello Qwen2.5 3B Instruct tramite Google Colab. QLoRA addestra piccoli adapter invece di pesi completi. Ciò risparmia memoria mantenendo alte le prestazioni.

The results show a massive difference:

Il modello base spesso passa all'arabo.
Il modello sottoposto a fine-tuning parla un persiano fluido e coerente.

La lezione principale è chiara: l'ingegneria dei dati conta più della scalabilità del modello. La qualità dei dati è il collo di bottiglia principale.

Key Insights:

Il doppio filtraggio è necessario per ottenere dati puliti.
I grafi tematici strutturati funzionano meglio dei prompt liberi.
Un LLM judge è una parte vitale del sistema.

Questo sistema è un motore completo per l'allineamento di LLM a basse risorse.

Source: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Optional learning community: https://t.me/GyaanSetuAi

Progettazione di una pipeline di dati sintetici in persiano

Continua a leggere

𝗣𝗿𝗼𝗺𝗽𝘁 𝗘𝗻𝗴𝗶𝗻𝗲𝗲𝗿𝗶𝗻𝗴 𝗳𝗼𝗿 𝗦𝘆𝗻𝘁𝗵𝗲𝘁𝗶𝗰 𝗗𝗮𝘁𝗮

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁𝗶𝗻𝗴: 𝗔 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿'𝘀 𝗚𝘂𝗶𝗱𝗲