Conception d'un pipeline de données synthétiques persanes

Translated for your language. Lire l'original.

AI-assisted draft.

GyaanSetu Editorialil y a 2 heures2min de lecture

Conception d'un pipeline de données synthétiques persanes

Conception d'un pipeline de données synthétiques pour le persan

L'entraînement des LLM ne consiste plus à augmenter la taille des modèles. Il s'agit d'augmenter la qualité des données.

La plupart des jeux de données persans manquent de structure. Cela empêche les modèles de suivre correctement les instructions. Le problème est la rareté des données, pas la taille du modèle.

J'ai conçu un pipeline pour résoudre ce problème. Il passe des graphes thématiques au fine-tuning via QLoRA.

Le processus du pipeline :

Création d'arbres thématiques
Génération par LLM
Déduplication
Scoring de qualité
Exportation du jeu de données
Fine-tuning QLoRA
Évaluation

Règles de conception fondamentales :

51 domaines pour assurer une couverture équilibrée.
Déduplication sémantique pour éliminer les idées répétitives.
Génération multi-modèles utilisant des modèles GPT pour réduire les biais.
Qwen2.5 3B Instruct pour le fine-tuning final.

Fonctionnement du moteur de données : J'utilise plusieurs modèles pour créer de la variété. Les modèles GPT apportent raisonnement et variation. Cela permet de maintenir des coûts bas tout en garantissant une grande diversité.

J'utilise un filtrage sémantique pour nettoyer les données. Si deux instructions présentent un score de similarité supérieur à 0,75, j'en supprime une. Cela empêche le modèle de faire du surapprentissage sur les mêmes schémas.

J'utilise un LLM comme juge pour évaluer la qualité. Il vérifie :

La fluidité
La pertinence
L'exhaustivité

Seules les données ayant un score de 3,5 ou plus sont conservées dans l'ensemble.

Résultats du fine-tuning : J'ai utilisé QLoRA sur un modèle Qwen2.5 3B Instruct via Google Colab. QLoRA entraîne de petits adaptateurs au lieu de l'intégralité des poids. Cela permet d'économiser de la mémoire tout en maintenant des performances élevées.

Les résultats montrent une différence massive :

Le modèle de base bascule souvent vers l'arabe.
Le modèle fine-tuné parle un persan fluide et cohérent.

La leçon principale est claire : l'ingénierie des données importe plus que le passage à l'échelle des modèles. La qualité des données est le principal goulot d'étranglement.

Points clés :

Un double filtrage est nécessaire pour obtenir des données propres.
Les graphes thématiques structurés fonctionnent mieux que les prompts libres.
Un juge LLM est une partie vitale du système.

Ce système est un moteur complet pour l'alignement des LLM à faibles ressources.

Source : https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi

Conception d'un pipeline de données synthétiques persanes

Continuer la lecture

𝗣𝗿𝗼𝗺𝗽𝘁 𝗘𝗻𝗴𝗶𝗻𝗲𝗲𝗿𝗶𝗻𝗴 𝗳𝗼𝗿 𝗦𝘆𝗻𝘁𝗵𝗲𝘁𝗶𝗰 𝗗𝗮𝘁𝗮

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁𝗶𝗻𝗴: 𝗔 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿'𝘀 𝗚𝘂𝗶𝗱𝗲