ఒక పర్షియన్ సింథటిక్ డేటా పైప్లైన్ను రూపొందించడం
LLMలకు శిక్షణ ఇవ్వడం అంటే ఇకపై మోడళ్లను స్కేల్ చేయడం మాత్రమే కాదు. ఇది డేటా నాణ్యతను స్కేల్ చేయడం గురించి.
చాలా పర్షియన్ డేటాసెట్లలో నిర్మాణం (structure) లోపించింది. దీనివల్ల మోడళ్లు సూచనలను పాటించడంలో విఫలమవుతాయి. సమస్య డేటా కొరత, మోడల్ పరిమాణం కాదు.
దీనిని పరిష్కరించడానికి నేను ఒక పైప్లైన్ను రూపొందించాను. ఇది టాపిక్ గ్రాఫ్ల నుండి QLoRA fine tuning వరకు సాగుతుంది.
The Pipeline Process:
- Topic Tree సృష్టి
- LLM జనరేషన్
- Deduplication (డూప్లికేషన్ తొలగింపు)
- Quality Scoring
- Dataset ఎగుమతి
- QLoRA Fine Tuning
- మూల్యాంకనం (Evaluation)
Core Design Rules:
- సమతుల్య కవరేజీని నిర్ధారించడానికి 51 డొమైన్లు.
- పునరావృతమయ్యే ఆలోచనలను తొలగించడానికి Semantic deduplication.
- బయాస్ను తగ్గించడానికి GPT మోడళ్లను ఉపయోగించి Multi-model generation.
- చివరి fine tuning కోసం Qwen2.5 3B Instruct.
How the Data Engine Works: వైవిధ్యం కోసం నేను బహుళ మోడళ్లను ఉపయోగిస్తాను. GPT మోడళ్లు రీజనింగ్ మరియు వైవిధ్యతను అందిస్తాయి. ఇది ఖర్చును తగ్గించి, వైవిధ్యాన్ని పెంచుతుంది.
డేటాను శుభ్రం చేయడానికి నేను semantic filteringను ఉపయోగిస్తాను. రెండు సూచనల యొక్క similarity score 0.75 కంటే ఎక్కువగా ఉంటే, నేను ఒక దానిని తొలగిస్తాను. ఇది మోడల్ ఒకే రకమైన ప్యాటర్న్లపై overfitting కాకుండా నిరోధిస్తుంది.
నాణ్యతను స్కోర్ చేయడానికి నేను LLMని ఒక జడ్జిగా ఉపయోగిస్తాను. ఇది వీటిని తనిఖీ చేస్తుంది:
- Fluency (అనర్గళత)
- Relevance (సందర్భోచితం)
- Completeness (పరిపూర్ణత)
3.5 లేదా అంతకంటే ఎక్కువ స్కోరు ఉన్న డేటా మాత్రమే సెట్లో ఉంటుంది.
Fine Tuning Results: నేను Google Colab ద్వారా Qwen2.5 3B Instruct మోడల్పై QLoRAను ఉపయోగించాను. QLoRA పూర్తి weights కు బదులుగా చిన్న adaptersలను శిక్షణ ఇస్తుంది. ఇది పనితీరును తగ్గించకుండా మెమరీని ఆదా చేస్తుంది.
ఫలితాలు భారీ తేడాను చూపుతున్నాయి:
- బేస్ మోడల్ తరచుగా అరబిక్లోకి మారుతుంది.
- fine tuned మోడల్ అనర్గళంగా, స్థిరమైన పర్షియన్ను మాట్లాడుతుంది.
ప్రధాన పాఠం స్పష్టంగా ఉంది: మోడల్ స్కేలింగ్ కంటే డేటా ఇంజనీరింగ్ ముఖ్యం. డేటా నాణ్యతే ప్రధాన అడ్డంకి (bottleneck).
Key Insights:
- శుభ్రమైన డేటా కోసం Dual filtering అవసరం.
- Free prompts కంటే Structured topic graphs బాగా పనిచేస్తాయి.
- LLM judge అనేది వ్యవస్థలో ఒక ముఖ్యమైన భాగం.
ఈ వ్యవస్థ తక్కువ వనరులు ఉన్న LLM alignment కోసం ఒక సంపూర్ణ ఇంజిన్.
Optional learning community: https://t.me/GyaanSetuAi
