Проєктування конвеєра синтетичних даних для перської мови

Навчання LLM більше не полягає у масштабуванні моделей. Воно полягає у масштабуванні якості даних.

Більшості перських наборів даних бракує структурованості. Це призводить до того, що моделі не можуть чітко виконувати інструкції. Проблема полягає у дефіциті даних, а не в розмірі моделі.

Я розробив конвеєр для вирішення цієї проблеми. Він проходить шлях від графів тем до тонкого налаштування (fine-tuning) за допомогою QLoRA.

Процес конвеєра:

  • Створення дерева тем
  • Генерація за допомогою LLM
  • Дедуплікація
  • Оцінка якості
  • Експорт набору даних
  • Тонке налаштування QLoRA
  • Оцінювання

Основні правила проєктування:

  • 51 домен для забезпечення збалансованого охоплення.
  • Семантична дедуплікація для видалення повторюваних ідей.
  • Мультимодельна генерація з використанням моделей GPT для зменшення упередженості.
  • Qwen2.5 3B Instruct для фінального тонкого налаштування.

Як працює двигун даних: Я використовую кілька моделей для створення різноманітності. Моделі GPT забезпечують логічне мислення та варіативність. Це дозволяє тримати витрати низькими, а різноманітність — високою.

Я використовую семантичну фільтрацію для очищення даних. Якщо дві інструкції мають показник схожості вище 0,75, я видаляю одну з них. Це запобігає перенавчанню (overfitting) моделі на одних і тих самих патернах.

Я використовую LLM як суддю для оцінки якості. Вона перевіряє:

  • Плинність
  • Релевантність
  • Повноту

У наборі залишаються лише дані з оцінкою 3,5 або вище.

Результати тонкого налаштування: Я застосував QLoRA до моделі Qwen2.5 3B Instruct через Google Colab. QLoRA навчає невеликі адаптери замість повних ваг. Це економить пам'ять, зберігаючи високу продуктивність.

Результати демонструють величезну різницю:

  • Базова модель часто переходить на арабську.
  • Налаштована модель говорить чистою, послідовною перською мовою.

Головний урок зрозумілий: інженерія даних важливіша за масштабування моделей. Якість даних є основним вузьким місцем.

Ключові висновки:

  • Подвійна фільтрація необхідна для отримання чистих даних.
  • Структуровані графи тем працюють краще, ніж вільні промпти.
  • LLM-суддя є критично важливою частиною системи.

Ця система є повноцінним двигуном для вирівнювання (alignment) LLM у малоресурсних мовах.

Джерело: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi