Projetando um Pipeline de Dados Sintéticos em Persa

Translated for your language. Ler o original.

AI-assisted draft.

GyaanSetu Editorialhá 2 horas2min de leitura

Projetando um Pipeline de Dados Sintéticos em Persa

Projetando um Pipeline de Dados Sintéticos para Persa

Treinar LLMs não é mais sobre escalar modelos. É sobre escalar a qualidade dos dados.

A maioria dos conjuntos de dados em persa carece de estrutura. Isso faz com que os modelos falhem ao seguir instruções. O problema é a escassez de dados, não o tamanho do modelo.

Eu construí um pipeline para resolver isso. Ele vai desde grafos de tópicos até o fine-tuning com QLoRA.

O Processo do Pipeline:

Criação de Árvore de Tópicos
Geração por LLM
Deduplicação
Pontuação de Qualidade
Exportação de Dataset
Fine-tuning com QLoRA
Avaliação

Regras Principais de Design:

51 domínios para garantir uma cobertura equilibrada.
Deduplicação semântica para remover ideias repetitivas.
Geração multi-modelo usando modelos GPT para reduzir o viés.
Qwen2.5 3B Instruct para o fine-tuning final.

Como o Mecanismo de Dados Funciona: Eu utilizo múltiplos modelos para criar variedade. Modelos GPT fornecem raciocínio e variação. Isso mantém os custos baixos e a diversidade alta.

Eu utilizo filtragem semântica para limpar os dados. Se duas instruções tiverem uma pontuação de similaridade acima de 0,75, eu removo uma delas. Isso evita que o modelo sofra overfitting nos mesmos padrões.

Eu utilizo um LLM como juiz para pontuar a qualidade. Ele verifica:

Fluência
Relevância
Completude

Apenas dados com uma pontuação de 3,5 ou superior permanecem no conjunto.

Resultados do Fine-tuning: Eu utilizei QLoRA em um modelo Qwen2.5 3B Instruct via Google Colab. O QLoRA treina pequenos adaptadores em vez de pesos completos. Isso economiza memória enquanto mantém o desempenho alto.

Os resultados mostram uma diferença massiva:

O modelo base frequentemente muda para o árabe.
O modelo com fine-tuning fala um persa fluente e consistente.

A principal lição é clara: a engenharia de dados importa mais do que o escalonamento de modelos. A qualidade dos dados é o principal gargalo.

Insights Principais:

A filtragem dupla é necessária para dados limpos.
Grafos de tópicos estruturados funcionam melhor do que prompts livres.
Um juiz LLM é uma parte vital do sistema.

Este sistema é um mecanismo completo para o alinhamento de LLMs de baixo recurso.

Fonte: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi

Projetando um Pipeline de Dados Sintéticos em Persa

Continuar lendo

𝗣𝗿𝗼𝗺𝗽𝘁 𝗘𝗻𝗴𝗶𝗻𝗲𝗲𝗿𝗶𝗻𝗴 𝗳𝗼𝗿 𝗦𝘆𝗻𝘁𝗵𝗲𝘁𝗶𝗰 𝗗𝗮𝘁𝗮

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁𝗶𝗻𝗴: 𝗔 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿'𝘀 𝗚𝘂𝗶𝗱𝗲