Conception d'un pipeline de données synthétiques pour le persan
L'entraînement des LLM ne consiste plus à augmenter la taille des modèles. Il s'agit d'augmenter la qualité des données.
La plupart des jeux de données persans manquent de structure. Cela empêche les modèles de suivre correctement les instructions. Le problème est la rareté des données, pas la taille du modèle.
J'ai conçu un pipeline pour résoudre ce problème. Il passe des graphes thématiques au fine-tuning via QLoRA.
Le processus du pipeline :
- Création d'arbres thématiques
- Génération par LLM
- Déduplication
- Scoring de qualité
- Exportation du jeu de données
- Fine-tuning QLoRA
- Évaluation
Règles de conception fondamentales :
- 51 domaines pour assurer une couverture équilibrée.
- Déduplication sémantique pour éliminer les idées répétitives.
- Génération multi-modèles utilisant des modèles GPT pour réduire les biais.
- Qwen2.5 3B Instruct pour le fine-tuning final.
Fonctionnement du moteur de données : J'utilise plusieurs modèles pour créer de la variété. Les modèles GPT apportent raisonnement et variation. Cela permet de maintenir des coûts bas tout en garantissant une grande diversité.
J'utilise un filtrage sémantique pour nettoyer les données. Si deux instructions présentent un score de similarité supérieur à 0,75, j'en supprime une. Cela empêche le modèle de faire du surapprentissage sur les mêmes schémas.
J'utilise un LLM comme juge pour évaluer la qualité. Il vérifie :
- La fluidité
- La pertinence
- L'exhaustivité
Seules les données ayant un score de 3,5 ou plus sont conservées dans l'ensemble.
Résultats du fine-tuning : J'ai utilisé QLoRA sur un modèle Qwen2.5 3B Instruct via Google Colab. QLoRA entraîne de petits adaptateurs au lieu de l'intégralité des poids. Cela permet d'économiser de la mémoire tout en maintenant des performances élevées.
Les résultats montrent une différence massive :
- Le modèle de base bascule souvent vers l'arabe.
- Le modèle fine-tuné parle un persan fluide et cohérent.
La leçon principale est claire : l'ingénierie des données importe plus que le passage à l'échelle des modèles. La qualité des données est le principal goulot d'étranglement.
Points clés :
- Un double filtrage est nécessaire pour obtenir des données propres.
- Les graphes thématiques structurés fonctionnent mieux que les prompts libres.
- Un juge LLM est une partie vitale du système.
Ce système est un moteur complet pour l'alignement des LLM à faibles ressources.
Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi
