पर्शियन सिंथेटिक डेटा पाइपलाइनची रचना करणे

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial२ तासांपूर्वी2min read

पर्शियन सिंथेटिक डेटा पाइपलाइनची रचना करणे

एका पर्शियन सिंथेटिक डेटा पाइपलाइनचे डिझाइन

LLMs प्रशिक्षित करणे आता केवळ मॉडेल्सचे स्केल वाढवण्याबद्दल उरलेले नाही. ते डेटाची गुणवत्ता वाढवण्याबद्दल आहे.

बहुतेक पर्शियन डेटासेटमध्ये संरचनेचा अभाव आहे. यामुळे मॉडेल्स सूचनांचे पालन करण्यात अपयशी ठरतात. समस्या डेटाची कमतरता आहे, मॉडेलचा आकार नाही.

मी हे सोडवण्यासाठी एक पाइपलाइन तयार केली आहे. ही पाइपलाइन टॉपिक ग्राफ्सपासून (topic graphs) QLoRA fine tuning पर्यंत काम करते.

पाइपलाइन प्रक्रिया (The Pipeline Process):

टॉपिक ट्री (Topic Tree) निर्मिती
LLM जनरेशन
ड्युप्लिकेशन काढणे (Deduplication)
गुणवत्ता स्कोअरिंग (Quality Scoring)
डेटासेट एक्सपोर्ट
QLoRA Fine Tuning
मूल्यमापन (Evaluation)

मुख्य डिझाइन नियम (Core Design Rules):

संतुलित कव्हरेज सुनिश्चित करण्यासाठी ५१ डोमेन्स.
पुनरावृत्ती होणारे विचार काढून टाकण्यासाठी सिमेंटिक ड्युप्लिकेशन (Semantic deduplication).
बायस (bias) कमी करण्यासाठी GPT मॉडेल्सचा वापर करून मल्टी-मॉडेल जनरेशन.
अंतिम fine tuning साठी Qwen2.5 3B Instruct.

डेटा इंजिन कसे काम करते: विविधता निर्माण करण्यासाठी मी अनेक मॉडेल्स वापरतो. GPT मॉडेल्स तर्क (reasoning) आणि विविधता प्रदान करतात. यामुळे खर्च कमी राहतो आणि विविधता वाढते.

डेटा स्वच्छ करण्यासाठी मी सिमेंटिक फिल्टरिंगचा (semantic filtering) वापर करतो. जर दोन सूचनांचा समानता स्कोअर (similarity score) ०.७५ पेक्षा जास्त असेल, तर मी एक काढून टाकतो. यामुळे मॉडेल एकाच पॅटर्नवर ओव्हरफिट (overfitting) होण्यापासून वाचते.

गुणवत्तेचे स्कोअरिंग करण्यासाठी मी LLM चा 'जज' (judge) म्हणून वापर करतो. ते खालील गोष्टी तपासते:

ओघवतेपणा (Fluency)
सुसंगतता (Relevance)
पूर्णता (Completeness)

केवळ ३.५ किंवा त्यापेक्षा जास्त स्कोअर असलेला डेटाच संचामध्ये (set) राहतो.

Fine Tuning निकाल: मी Google Colab द्वारे Qwen2.5 3B Instruct मॉडेलवर QLoRA वापरले. QLoRA पूर्ण वेट्सऐवजी (weights) लहान अडॅप्टर्स (adapters) प्रशिक्षित करते. यामुळे परफॉर्मन्स उच्च ठेवून मेमरी वाचते.

निकाल एक मोठा फरक दर्शवतात:

बेस मॉडेल अनेकदा अरबी भाषेत बदलले जाते.
fine tuned मॉडेल ओघवती आणि सुसंगत पर्शियन बोलते.

मुख्य धडा स्पष्ट आहे: मॉडेल स्केलिंगपेक्षा डेटा इंजिनिअरिंग अधिक महत्त्वाचे आहे. डेटाची गुणवत्ता हा मुख्य अडथळा (bottleneck) आहे.

महत्त्वाचे निष्कर्ष (Key Insights):

स्वच्छ डेटासाठी दुहेरी फिल्टरिंग (Dual filtering) आवश्यक आहे.
फ्री प्रॉम्प्ट्सपेक्षा स्ट्रक्चर्ड टॉपिक ग्राफ्स अधिक चांगले काम करतात.
LLM जज ही प्रणालीचा एक महत्त्वाचा भाग आहे.

ही प्रणाली कमी रिसोर्स असलेल्या LLM अलाइनमेंटसाठी एक पूर्ण इंजिन आहे.

Source: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Optional learning community: https://t.me/GyaanSetuAi

पर्शियन सिंथेटिक डेटा पाइपलाइनची रचना करणे

Continue reading

𝗣𝗿𝗼𝗺𝗽𝘁 𝗘𝗻𝗴𝗶𝗻𝗲𝗲𝗿𝗶𝗻𝗴 𝗳𝗼𝗿 𝗦𝘆𝗻𝘁𝗵𝗲𝘁𝗶𝗰 𝗗𝗮𝘁𝗮

LLM फाईन ट्यूनिंग 2026: एक संपूर्ण मार्गदर्शक

LLM प्रॉम्प्टिंगमध्ये प्रभुत्व मिळवा: डेव्हलपरसाठी एक मार्गदर्शक