Designing A Persian Synthetic Data Pipeline

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 గంటల క్రితం2min read

Designing A Persian Synthetic Data Pipeline

ఒక పర్షియన్ సింథటిక్ డేటా పైప్‌లైన్‌ను రూపొందించడం

LLMలకు శిక్షణ ఇవ్వడం అంటే ఇకపై మోడళ్లను స్కేల్ చేయడం మాత్రమే కాదు. ఇది డేటా నాణ్యతను స్కేల్ చేయడం గురించి.

చాలా పర్షియన్ డేటాసెట్‌లలో నిర్మాణం (structure) లోపించింది. దీనివల్ల మోడళ్లు సూచనలను పాటించడంలో విఫలమవుతాయి. సమస్య డేటా కొరత, మోడల్ పరిమాణం కాదు.

దీనిని పరిష్కరించడానికి నేను ఒక పైప్‌లైన్‌ను రూపొందించాను. ఇది టాపిక్ గ్రాఫ్‌ల నుండి QLoRA fine tuning వరకు సాగుతుంది.

The Pipeline Process:

Topic Tree సృష్టి
LLM జనరేషన్
Deduplication (డూప్లికేషన్ తొలగింపు)
Quality Scoring
Dataset ఎగుమతి
QLoRA Fine Tuning
మూల్యాంకనం (Evaluation)

Core Design Rules:

సమతుల్య కవరేజీని నిర్ధారించడానికి 51 డొమైన్‌లు.
పునరావృతమయ్యే ఆలోచనలను తొలగించడానికి Semantic deduplication.
బయాస్‌ను తగ్గించడానికి GPT మోడళ్లను ఉపయోగించి Multi-model generation.
చివరి fine tuning కోసం Qwen2.5 3B Instruct.

How the Data Engine Works: వైవిధ్యం కోసం నేను బహుళ మోడళ్లను ఉపయోగిస్తాను. GPT మోడళ్లు రీజనింగ్ మరియు వైవిధ్యతను అందిస్తాయి. ఇది ఖర్చును తగ్గించి, వైవిధ్యాన్ని పెంచుతుంది.

డేటాను శుభ్రం చేయడానికి నేను semantic filteringను ఉపయోగిస్తాను. రెండు సూచనల యొక్క similarity score 0.75 కంటే ఎక్కువగా ఉంటే, నేను ఒక దానిని తొలగిస్తాను. ఇది మోడల్ ఒకే రకమైన ప్యాటర్న్‌లపై overfitting కాకుండా నిరోధిస్తుంది.

నాణ్యతను స్కోర్ చేయడానికి నేను LLMని ఒక జడ్జిగా ఉపయోగిస్తాను. ఇది వీటిని తనిఖీ చేస్తుంది:

Fluency (అనర్గళత)
Relevance (సందర్భోచితం)
Completeness (పరిపూర్ణత)

3.5 లేదా అంతకంటే ఎక్కువ స్కోరు ఉన్న డేటా మాత్రమే సెట్‌లో ఉంటుంది.

Fine Tuning Results: నేను Google Colab ద్వారా Qwen2.5 3B Instruct మోడల్‌పై QLoRAను ఉపయోగించాను. QLoRA పూర్తి weights కు బదులుగా చిన్న adaptersలను శిక్షణ ఇస్తుంది. ఇది పనితీరును తగ్గించకుండా మెమరీని ఆదా చేస్తుంది.

ఫలితాలు భారీ తేడాను చూపుతున్నాయి:

బేస్ మోడల్ తరచుగా అరబిక్‌లోకి మారుతుంది.
fine tuned మోడల్ అనర్గళంగా, స్థిరమైన పర్షియన్‌ను మాట్లాడుతుంది.

ప్రధాన పాఠం స్పష్టంగా ఉంది: మోడల్ స్కేలింగ్ కంటే డేటా ఇంజనీరింగ్ ముఖ్యం. డేటా నాణ్యతే ప్రధాన అడ్డంకి (bottleneck).

Key Insights:

శుభ్రమైన డేటా కోసం Dual filtering అవసరం.
Free prompts కంటే Structured topic graphs బాగా పనిచేస్తాయి.
LLM judge అనేది వ్యవస్థలో ఒక ముఖ్యమైన భాగం.

ఈ వ్యవస్థ తక్కువ వనరులు ఉన్న LLM alignment కోసం ఒక సంపూర్ణ ఇంజిన్.

Source: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Optional learning community: https://t.me/GyaanSetuAi

Designing A Persian Synthetic Data Pipeline

ఒక పర్షియన్ సింథటిక్ డేటా పైప్‌లైన్‌ను రూపొందించడం

Continue reading

సింథటిక్ డేటా కోసం ప్రాంప్ట్ ఇంజనీరింగ్

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

LLM ప్రాంప్టింగ్‌లో నైపుణ్యం సాధించడం: డెవలపర్ల కోసం ఒక గైడ్