Projetando um Pipeline de Dados Sintéticos para Persa

Treinar LLMs não é mais sobre escalar modelos. É sobre escalar a qualidade dos dados.

A maioria dos conjuntos de dados em persa carece de estrutura. Isso faz com que os modelos falhem ao seguir instruções. O problema é a escassez de dados, não o tamanho do modelo.

Eu construí um pipeline para resolver isso. Ele vai desde grafos de tópicos até o fine-tuning com QLoRA.

O Processo do Pipeline:

  • Criação de Árvore de Tópicos
  • Geração por LLM
  • Deduplicação
  • Pontuação de Qualidade
  • Exportação de Dataset
  • Fine-tuning com QLoRA
  • Avaliação

Regras Principais de Design:

  • 51 domínios para garantir uma cobertura equilibrada.
  • Deduplicação semântica para remover ideias repetitivas.
  • Geração multi-modelo usando modelos GPT para reduzir o viés.
  • Qwen2.5 3B Instruct para o fine-tuning final.

Como o Mecanismo de Dados Funciona: Eu utilizo múltiplos modelos para criar variedade. Modelos GPT fornecem raciocínio e variação. Isso mantém os custos baixos e a diversidade alta.

Eu utilizo filtragem semântica para limpar os dados. Se duas instruções tiverem uma pontuação de similaridade acima de 0,75, eu removo uma delas. Isso evita que o modelo sofra overfitting nos mesmos padrões.

Eu utilizo um LLM como juiz para pontuar a qualidade. Ele verifica:

  • Fluência
  • Relevância
  • Completude

Apenas dados com uma pontuação de 3,5 ou superior permanecem no conjunto.

Resultados do Fine-tuning: Eu utilizei QLoRA em um modelo Qwen2.5 3B Instruct via Google Colab. O QLoRA treina pequenos adaptadores em vez de pesos completos. Isso economiza memória enquanto mantém o desempenho alto.

Os resultados mostram uma diferença massiva:

  • O modelo base frequentemente muda para o árabe.
  • O modelo com fine-tuning fala um persa fluente e consistente.

A principal lição é clara: a engenharia de dados importa mais do que o escalonamento de modelos. A qualidade dos dados é o principal gargalo.

Insights Principais:

  • A filtragem dupla é necessária para dados limpos.
  • Grafos de tópicos estruturados funcionam melhor do que prompts livres.
  • Um juiz LLM é uma parte vital do sistema.

Este sistema é um mecanismo completo para o alinhamento de LLMs de baixo recurso.

Fonte: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi