Projetando um Pipeline de Dados Sintéticos para Persa
Treinar LLMs não é mais sobre escalar modelos. É sobre escalar a qualidade dos dados.
A maioria dos conjuntos de dados em persa carece de estrutura. Isso faz com que os modelos falhem ao seguir instruções. O problema é a escassez de dados, não o tamanho do modelo.
Eu construí um pipeline para resolver isso. Ele vai desde grafos de tópicos até o fine-tuning com QLoRA.
O Processo do Pipeline:
- Criação de Árvore de Tópicos
- Geração por LLM
- Deduplicação
- Pontuação de Qualidade
- Exportação de Dataset
- Fine-tuning com QLoRA
- Avaliação
Regras Principais de Design:
- 51 domínios para garantir uma cobertura equilibrada.
- Deduplicação semântica para remover ideias repetitivas.
- Geração multi-modelo usando modelos GPT para reduzir o viés.
- Qwen2.5 3B Instruct para o fine-tuning final.
Como o Mecanismo de Dados Funciona: Eu utilizo múltiplos modelos para criar variedade. Modelos GPT fornecem raciocínio e variação. Isso mantém os custos baixos e a diversidade alta.
Eu utilizo filtragem semântica para limpar os dados. Se duas instruções tiverem uma pontuação de similaridade acima de 0,75, eu removo uma delas. Isso evita que o modelo sofra overfitting nos mesmos padrões.
Eu utilizo um LLM como juiz para pontuar a qualidade. Ele verifica:
- Fluência
- Relevância
- Completude
Apenas dados com uma pontuação de 3,5 ou superior permanecem no conjunto.
Resultados do Fine-tuning: Eu utilizei QLoRA em um modelo Qwen2.5 3B Instruct via Google Colab. O QLoRA treina pequenos adaptadores em vez de pesos completos. Isso economiza memória enquanto mantém o desempenho alto.
Os resultados mostram uma diferença massiva:
- O modelo base frequentemente muda para o árabe.
- O modelo com fine-tuning fala um persa fluente e consistente.
A principal lição é clara: a engenharia de dados importa mais do que o escalonamento de modelos. A qualidade dos dados é o principal gargalo.
Insights Principais:
- A filtragem dupla é necessária para dados limpos.
- Grafos de tópicos estruturados funcionam melhor do que prompts livres.
- Um juiz LLM é uma parte vital do sistema.
Este sistema é um mecanismo completo para o alinhamento de LLMs de baixo recurso.
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
