Проєктування конвеєра синтетичних даних для перської мови
Навчання LLM більше не полягає у масштабуванні моделей. Воно полягає у масштабуванні якості даних.
Більшості перських наборів даних бракує структурованості. Це призводить до того, що моделі не можуть чітко виконувати інструкції. Проблема полягає у дефіциті даних, а не в розмірі моделі.
Я розробив конвеєр для вирішення цієї проблеми. Він проходить шлях від графів тем до тонкого налаштування (fine-tuning) за допомогою QLoRA.
Процес конвеєра:
- Створення дерева тем
- Генерація за допомогою LLM
- Дедуплікація
- Оцінка якості
- Експорт набору даних
- Тонке налаштування QLoRA
- Оцінювання
Основні правила проєктування:
- 51 домен для забезпечення збалансованого охоплення.
- Семантична дедуплікація для видалення повторюваних ідей.
- Мультимодельна генерація з використанням моделей GPT для зменшення упередженості.
- Qwen2.5 3B Instruct для фінального тонкого налаштування.
Як працює двигун даних: Я використовую кілька моделей для створення різноманітності. Моделі GPT забезпечують логічне мислення та варіативність. Це дозволяє тримати витрати низькими, а різноманітність — високою.
Я використовую семантичну фільтрацію для очищення даних. Якщо дві інструкції мають показник схожості вище 0,75, я видаляю одну з них. Це запобігає перенавчанню (overfitting) моделі на одних і тих самих патернах.
Я використовую LLM як суддю для оцінки якості. Вона перевіряє:
- Плинність
- Релевантність
- Повноту
У наборі залишаються лише дані з оцінкою 3,5 або вище.
Результати тонкого налаштування: Я застосував QLoRA до моделі Qwen2.5 3B Instruct через Google Colab. QLoRA навчає невеликі адаптери замість повних ваг. Це економить пам'ять, зберігаючи високу продуктивність.
Результати демонструють величезну різницю:
- Базова модель часто переходить на арабську.
- Налаштована модель говорить чистою, послідовною перською мовою.
Головний урок зрозумілий: інженерія даних важливіша за масштабування моделей. Якість даних є основним вузьким місцем.
Ключові висновки:
- Подвійна фільтрація необхідна для отримання чистих даних.
- Структуровані графи тем працюють краще, ніж вільні промпти.
- LLM-суддя є критично важливою частиною системи.
Ця система є повноцінним двигуном для вирівнювання (alignment) LLM у малоресурсних мовах.
Додаткова спільнота для навчання: https://t.me/GyaanSetuAi
