एक फारसी सिंथेटिक डेटा पाइपलाइन का डिज़ाइन
LLMs को प्रशिक्षित करना अब केवल मॉडल्स को स्केल करने के बारे में नहीं है। यह डेटा की गुणवत्ता को स्केल करने के बारे में है।
अधिकांश फारसी डेटासेट में संरचना (structure) की कमी है। इस कारण मॉडल्स निर्देशों का पालन करने में विफल हो जाते हैं। समस्या डेटा की कमी है, मॉडल का आकार नहीं।
मैंने इसे हल करने के लिए एक पाइपलाइन बनाई है। यह टॉपिक ग्राफ से लेकर QLoRA fine tuning तक काम करती है।
पाइपलाइन प्रक्रिया:
- टॉपिक ट्री (Topic Tree) निर्माण
- LLM जनरेशन
- डुप्लीकेशन हटाना (Deduplication)
- क्वालिटी स्कोरिंग
- डेटासेट एक्सपोर्ट
- QLoRA Fine Tuning
- मूल्यांकन (Evaluation)
मुख्य डिज़ाइन नियम:
- संतुलित कवरेज सुनिश्चित करने के लिए 51 डोमेन।
- दोहराव वाले विचारों को हटाने के लिए सिमेंटिक डुप्लीकेशन (Semantic deduplication)।
- पक्षपात (bias) को कम करने के लिए GPT मॉडल्स का उपयोग करके मल्टी-मॉडल जनरेशन।
- अंतिम fine tuning के लिए Qwen2.5 3B Instruct।
डेटा इंजन कैसे काम करता है: मैं विविधता लाने के लिए कई मॉडल्स का उपयोग करता हूँ। GPT मॉडल्स तर्क (reasoning) और भिन्नता प्रदान करते हैं। इससे लागत कम रहती है और विविधता अधिक बनी रहती है।
मैं डेटा को साफ करने के लिए सिमेंटिक फ़िल्टरिंग का उपयोग करता हूँ। यदि दो निर्देशों का समानता स्कोर (similarity score) 0.75 से अधिक है, तो मैं एक को हटा देता हूँ। यह मॉडल को एक ही पैटर्न पर ओवरफिटिंग करने से रोकता है।
मैं गुणवत्ता को स्कोर करने के लिए एक LLM का जज के रूप में उपयोग करता हूँ। यह निम्नलिखित की जाँच करता है:
- प्रवाह (Fluency)
- प्रासंगिकता (Relevance)
- पूर्णता (Completeness)
केवल 3.5 या उससे अधिक स्कोर वाला डेटा ही सेट में रहता है।
Fine Tuning के परिणाम: मैंने Google Colab के माध्यम से Qwen2.5 3B Instruct मॉडल पर QLoRA का उपयोग किया। QLoRA पूर्ण वेट्स (full weights) के बजाय छोटे एडेप्टर्स (adapters) को प्रशिक्षित करता है। यह प्रदर्शन को उच्च रखते हुए मेमोरी बचाता है।
परिणाम एक बड़ा अंतर दिखाते हैं:
- बेस मॉडल अक्सर अरबी में बदल जाता है।
- fine tuned मॉडल धाराप्रवाह और सुसंगत फारसी बोलता है।
मुख्य सबक स्पष्ट है: डेटा इंजीनियरिंग, मॉडल स्केलिंग से अधिक महत्वपूर्ण है। डेटा की गुणवत्ता ही प्राथमिक बाधा (bottleneck) है।
मुख्य अंतर्दृष्टि (Key Insights):
- साफ डेटा के लिए डुअल फ़िल्टरिंग आवश्यक है।
- स्ट्रक्चर्ड टॉपिक ग्राफ, फ्री प्रॉम्प्ट्स की तुलना में बेहतर काम करते हैं।
- एक LLM जज सिस्टम का एक महत्वपूर्ण हिस्सा है।
यह सिस्टम कम संसाधन वाले LLM अलाइनमेंट के लिए एक संपूर्ण इंजन है।
Optional learning community: https://t.me/GyaanSetuAi
