एक फारसी सिंथेटिक डेटा पाइपलाइन डिजाइन करना

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial3 घंटे पहले2मिनट पढ़ें

एक फारसी सिंथेटिक डेटा पाइपलाइन डिजाइन करना

एक फारसी सिंथेटिक डेटा पाइपलाइन का डिज़ाइन

LLMs को प्रशिक्षित करना अब केवल मॉडल्स को स्केल करने के बारे में नहीं है। यह डेटा की गुणवत्ता को स्केल करने के बारे में है।

अधिकांश फारसी डेटासेट में संरचना (structure) की कमी है। इस कारण मॉडल्स निर्देशों का पालन करने में विफल हो जाते हैं। समस्या डेटा की कमी है, मॉडल का आकार नहीं।

मैंने इसे हल करने के लिए एक पाइपलाइन बनाई है। यह टॉपिक ग्राफ से लेकर QLoRA fine tuning तक काम करती है।

पाइपलाइन प्रक्रिया:

टॉपिक ट्री (Topic Tree) निर्माण
LLM जनरेशन
डुप्लीकेशन हटाना (Deduplication)
क्वालिटी स्कोरिंग
डेटासेट एक्सपोर्ट
QLoRA Fine Tuning
मूल्यांकन (Evaluation)

मुख्य डिज़ाइन नियम:

संतुलित कवरेज सुनिश्चित करने के लिए 51 डोमेन।
दोहराव वाले विचारों को हटाने के लिए सिमेंटिक डुप्लीकेशन (Semantic deduplication)।
पक्षपात (bias) को कम करने के लिए GPT मॉडल्स का उपयोग करके मल्टी-मॉडल जनरेशन।
अंतिम fine tuning के लिए Qwen2.5 3B Instruct।

डेटा इंजन कैसे काम करता है: मैं विविधता लाने के लिए कई मॉडल्स का उपयोग करता हूँ। GPT मॉडल्स तर्क (reasoning) और भिन्नता प्रदान करते हैं। इससे लागत कम रहती है और विविधता अधिक बनी रहती है।

मैं डेटा को साफ करने के लिए सिमेंटिक फ़िल्टरिंग का उपयोग करता हूँ। यदि दो निर्देशों का समानता स्कोर (similarity score) 0.75 से अधिक है, तो मैं एक को हटा देता हूँ। यह मॉडल को एक ही पैटर्न पर ओवरफिटिंग करने से रोकता है।

मैं गुणवत्ता को स्कोर करने के लिए एक LLM का जज के रूप में उपयोग करता हूँ। यह निम्नलिखित की जाँच करता है:

प्रवाह (Fluency)
प्रासंगिकता (Relevance)
पूर्णता (Completeness)

केवल 3.5 या उससे अधिक स्कोर वाला डेटा ही सेट में रहता है।

Fine Tuning के परिणाम: मैंने Google Colab के माध्यम से Qwen2.5 3B Instruct मॉडल पर QLoRA का उपयोग किया। QLoRA पूर्ण वेट्स (full weights) के बजाय छोटे एडेप्टर्स (adapters) को प्रशिक्षित करता है। यह प्रदर्शन को उच्च रखते हुए मेमोरी बचाता है।

परिणाम एक बड़ा अंतर दिखाते हैं:

बेस मॉडल अक्सर अरबी में बदल जाता है।
fine tuned मॉडल धाराप्रवाह और सुसंगत फारसी बोलता है।

मुख्य सबक स्पष्ट है: डेटा इंजीनियरिंग, मॉडल स्केलिंग से अधिक महत्वपूर्ण है। डेटा की गुणवत्ता ही प्राथमिक बाधा (bottleneck) है।

मुख्य अंतर्दृष्टि (Key Insights):

साफ डेटा के लिए डुअल फ़िल्टरिंग आवश्यक है।
स्ट्रक्चर्ड टॉपिक ग्राफ, फ्री प्रॉम्प्ट्स की तुलना में बेहतर काम करते हैं।
एक LLM जज सिस्टम का एक महत्वपूर्ण हिस्सा है।

यह सिस्टम कम संसाधन वाले LLM अलाइनमेंट के लिए एक संपूर्ण इंजन है।

Source: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Optional learning community: https://t.me/GyaanSetuAi

एक फारसी सिंथेटिक डेटा पाइपलाइन डिजाइन करना

पढ़ना जारी रखें

सिंथेटिक डेटा के लिए प्रॉम्प्ट इंजीनियरिंग

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

LLM प्रॉम्प्टिंग में महारत हासिल करना: डेवलपर्स के लिए एक गाइड