एका पर्शियन सिंथेटिक डेटा पाइपलाइनचे डिझाइन
LLMs प्रशिक्षित करणे आता केवळ मॉडेल्सचे स्केल वाढवण्याबद्दल उरलेले नाही. ते डेटाची गुणवत्ता वाढवण्याबद्दल आहे.
बहुतेक पर्शियन डेटासेटमध्ये संरचनेचा अभाव आहे. यामुळे मॉडेल्स सूचनांचे पालन करण्यात अपयशी ठरतात. समस्या डेटाची कमतरता आहे, मॉडेलचा आकार नाही.
मी हे सोडवण्यासाठी एक पाइपलाइन तयार केली आहे. ही पाइपलाइन टॉपिक ग्राफ्सपासून (topic graphs) QLoRA fine tuning पर्यंत काम करते.
पाइपलाइन प्रक्रिया (The Pipeline Process):
- टॉपिक ट्री (Topic Tree) निर्मिती
- LLM जनरेशन
- ड्युप्लिकेशन काढणे (Deduplication)
- गुणवत्ता स्कोअरिंग (Quality Scoring)
- डेटासेट एक्सपोर्ट
- QLoRA Fine Tuning
- मूल्यमापन (Evaluation)
मुख्य डिझाइन नियम (Core Design Rules):
- संतुलित कव्हरेज सुनिश्चित करण्यासाठी ५१ डोमेन्स.
- पुनरावृत्ती होणारे विचार काढून टाकण्यासाठी सिमेंटिक ड्युप्लिकेशन (Semantic deduplication).
- बायस (bias) कमी करण्यासाठी GPT मॉडेल्सचा वापर करून मल्टी-मॉडेल जनरेशन.
- अंतिम fine tuning साठी Qwen2.5 3B Instruct.
डेटा इंजिन कसे काम करते: विविधता निर्माण करण्यासाठी मी अनेक मॉडेल्स वापरतो. GPT मॉडेल्स तर्क (reasoning) आणि विविधता प्रदान करतात. यामुळे खर्च कमी राहतो आणि विविधता वाढते.
डेटा स्वच्छ करण्यासाठी मी सिमेंटिक फिल्टरिंगचा (semantic filtering) वापर करतो. जर दोन सूचनांचा समानता स्कोअर (similarity score) ०.७५ पेक्षा जास्त असेल, तर मी एक काढून टाकतो. यामुळे मॉडेल एकाच पॅटर्नवर ओव्हरफिट (overfitting) होण्यापासून वाचते.
गुणवत्तेचे स्कोअरिंग करण्यासाठी मी LLM चा 'जज' (judge) म्हणून वापर करतो. ते खालील गोष्टी तपासते:
- ओघवतेपणा (Fluency)
- सुसंगतता (Relevance)
- पूर्णता (Completeness)
केवळ ३.५ किंवा त्यापेक्षा जास्त स्कोअर असलेला डेटाच संचामध्ये (set) राहतो.
Fine Tuning निकाल: मी Google Colab द्वारे Qwen2.5 3B Instruct मॉडेलवर QLoRA वापरले. QLoRA पूर्ण वेट्सऐवजी (weights) लहान अडॅप्टर्स (adapters) प्रशिक्षित करते. यामुळे परफॉर्मन्स उच्च ठेवून मेमरी वाचते.
निकाल एक मोठा फरक दर्शवतात:
- बेस मॉडेल अनेकदा अरबी भाषेत बदलले जाते.
- fine tuned मॉडेल ओघवती आणि सुसंगत पर्शियन बोलते.
मुख्य धडा स्पष्ट आहे: मॉडेल स्केलिंगपेक्षा डेटा इंजिनिअरिंग अधिक महत्त्वाचे आहे. डेटाची गुणवत्ता हा मुख्य अडथळा (bottleneck) आहे.
महत्त्वाचे निष्कर्ष (Key Insights):
- स्वच्छ डेटासाठी दुहेरी फिल्टरिंग (Dual filtering) आवश्यक आहे.
- फ्री प्रॉम्प्ट्सपेक्षा स्ट्रक्चर्ड टॉपिक ग्राफ्स अधिक चांगले काम करतात.
- LLM जज ही प्रणालीचा एक महत्त्वाचा भाग आहे.
ही प्रणाली कमी रिसोर्स असलेल्या LLM अलाइनमेंटसाठी एक पूर्ण इंजिन आहे.
Optional learning community: https://t.me/GyaanSetuAi
