Проєктування конвеєра синтетичних даних для перської мови

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 години тому2min read

Проєктування конвеєра синтетичних даних для перської мови

Навчання LLM більше не полягає у масштабуванні моделей. Воно полягає у масштабуванні якості даних.

Більшості перських наборів даних бракує структурованості. Це призводить до того, що моделі не можуть чітко виконувати інструкції. Проблема полягає у дефіциті даних, а не в розмірі моделі.

Я розробив конвеєр для вирішення цієї проблеми. Він проходить шлях від графів тем до тонкого налаштування (fine-tuning) за допомогою QLoRA.

Процес конвеєра:

Створення дерева тем
Генерація за допомогою LLM
Дедуплікація
Оцінка якості
Експорт набору даних
Тонке налаштування QLoRA
Оцінювання

Основні правила проєктування:

51 домен для забезпечення збалансованого охоплення.
Семантична дедуплікація для видалення повторюваних ідей.
Мультимодельна генерація з використанням моделей GPT для зменшення упередженості.
Qwen2.5 3B Instruct для фінального тонкого налаштування.

Як працює двигун даних: Я використовую кілька моделей для створення різноманітності. Моделі GPT забезпечують логічне мислення та варіативність. Це дозволяє тримати витрати низькими, а різноманітність — високою.

Я використовую семантичну фільтрацію для очищення даних. Якщо дві інструкції мають показник схожості вище 0,75, я видаляю одну з них. Це запобігає перенавчанню (overfitting) моделі на одних і тих самих патернах.

Я використовую LLM як суддю для оцінки якості. Вона перевіряє:

Плинність
Релевантність
Повноту

У наборі залишаються лише дані з оцінкою 3,5 або вище.

Результати тонкого налаштування: Я застосував QLoRA до моделі Qwen2.5 3B Instruct через Google Colab. QLoRA навчає невеликі адаптери замість повних ваг. Це економить пам'ять, зберігаючи високу продуктивність.

Результати демонструють величезну різницю:

Базова модель часто переходить на арабську.
Налаштована модель говорить чистою, послідовною перською мовою.

Головний урок зрозумілий: інженерія даних важливіша за масштабування моделей. Якість даних є основним вузьким місцем.

Ключові висновки:

Подвійна фільтрація необхідна для отримання чистих даних.
Структуровані графи тем працюють краще, ніж вільні промпти.
LLM-суддя є критично важливою частиною системи.

Ця система є повноцінним двигуном для вирівнювання (alignment) LLM у малоресурсних мовах.

Джерело: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi

Проєктування конвеєра синтетичних даних для перської мови

Continue reading

Промпт-інжиніринг для синтетичних даних

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

Опанування промптування LLM: Посібник для розробника