Designing A Persian Synthetic Data Pipeline

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 മണിക്കൂർ മുമ്പ്2min read

Designing A Persian Synthetic Data Pipeline

ഒരു പേർഷ്യൻ സിന്തറ്റിക് ഡാറ്റാ പൈപ്പ്‌ലൈൻ രൂപകൽപ്പന ചെയ്യുന്നു

LLM-കൾ പരിശീലിപ്പിക്കുന്നത് ഇനി മോഡലുകളുടെ വലിപ്പം കൂട്ടുന്നതിനെക്കുറിച്ചല്ല. അത് ഡാറ്റയുടെ ഗുണനിലവാരം വർദ്ധിപ്പിക്കുന്നതിനെക്കുറിച്ചാണ്.

മിക്ക പേർഷ്യൻ ഡാറ്റാസെറ്റുകൾക്കും കൃത്യമായ ഘടനയില്ല. ഇത് നിർദ്ദേശങ്ങൾ പാലിക്കുന്നതിൽ മോഡലുകൾ പരാജയപ്പെടാൻ കാരണമാകുന്നു. പ്രശ്നം ഡാറ്റയുടെ കുറവാണ്, മോഡലിന്റെ വലിപ്പമല്ല.

ഇത് പരിഹരിക്കുന്നതിനായി ഞാൻ ഒരു പൈപ്പ്‌ലൈൻ നിർമ്മിച്ചു. ഇത് ടോപ്പിക് ഗ്രാഫുകൾ മുതൽ QLoRA ഫൈൻ ട്യൂണിംഗ് വരെ നീളുന്നു.

പൈപ്പ്‌ലൈൻ പ്രക്രിയ:

ടോപ്പിക് ട്രീ നിർമ്മാണം (Topic Tree creation)
LLM ജനറേഷൻ (LLM Generation)
ഡ്യൂപ്ലിക്കേഷൻ ഒഴിവാക്കൽ (Deduplication)
ക്വാളിറ്റി സ്കോറിംഗ് (Quality Scoring)
ഡാറ്റാസെറ്റ് എക്സ്പോർട്ട് (Dataset Export)
QLoRA ഫൈൻ ട്യൂണിംഗ് (QLoRA Fine Tuning)
മൂല്യനിർണ്ണയം (Evaluation)

പ്രധാന രൂപകൽപ്പന നിയമങ്ങൾ:

സന്തുലിതമായ കവറേജ് ഉറപ്പാക്കാൻ 51 ഡൊമെയ്‌നുകൾ.
ആവർത്തനപരമായ ആശയങ്ങൾ ഒഴിവാക്കാൻ സെമാന്റിക് ഡ്യൂപ്ലിക്കേഷൻ.
പക്ഷപാതം കുറയ്ക്കുന്നതിനായി GPT മോഡലുകൾ ഉപയോഗിച്ചുള്ള മൾട്ടി-മോഡൽ ജനറേഷൻ.
അവസാന ഫൈൻ ട്യൂണിംഗിനായി Qwen2.5 3B Instruct ഉപയോഗിക്കുന്നു.

ഡാറ്റ എഞ്ചിൻ എങ്ങനെ പ്രവർത്തിക്കുന്നു: വൈവിധ്യം കൊണ്ടുവരാൻ ഞാൻ ഒന്നിലധികം മോഡലുകൾ ഉപയോഗിക്കുന്നു. GPT മോഡലുകൾ യുക്തിപരമായ ചിന്തയും (reasoning) വൈവിധ്യവും നൽകുന്നു. ഇത് ചിലവ് കുറയ്ക്കാനും വൈവിധ്യം വർദ്ധിപ്പിക്കാനും സഹായിക്കുന്നു.

ഡാറ്റ ശുദ്ധീകരിക്കാൻ ഞാൻ സെമാന്റിക് ഫിൽട്ടറിംഗ് ഉപയോഗിക്കുന്നു. രണ്ട് നിർദ്ദേശങ്ങൾ തമ്മിൽ 0.75-ന് മുകളിൽ സമാനത (similarity score) ഉണ്ടെങ്കിൽ, ഞാൻ അവയിൽ ഒന്ന് നീക്കം ചെയ്യുന്നു. ഇത് ഒരേ പാറ്റേണുകളിൽ മോഡൽ ഓവർഫിറ്റ് ചെയ്യുന്നത് തടയുന്നു.

ഗുണനിലവാരം അളക്കാൻ ഞാൻ ഒരു LLM-നെ ജഡ്ജിയായി ഉപയോഗിക്കുന്നു. അത് താഴെ പറയുന്നവ പരിശോധിക്കുന്നു:

ഒഴുക്ക് (Fluency)
പ്രസക്തി (Relevance)
പൂർണ്ണത (Completeness)

3.5 അല്ലെങ്കിൽ അതിനു മുകളിൽ സ്കോർ ഉള്ള ഡാറ്റ മാത്രമേ സെറ്റിൽ നിലനിർത്തുകയുള്ളൂ.

ഫൈൻ ട്യൂണിംഗ് ഫലങ്ങൾ: ഞാൻ Google Colab വഴി Qwen2.5 3B Instruct മോഡലിൽ QLoRA ഉപയോഗിച്ചു. QLoRA മുഴുവൻ വെയ്റ്റുകൾക്കും (weights) പകരം ചെറിയ അഡാപ്റ്ററുകൾ (adapters) പരിശീലിപ്പിക്കുന്നു. ഇത് പെർഫോമൻസ് നിലനിർത്തിക്കൊണ്ടുതന്നെ മെമ്മറി ലാഭിക്കുന്നു.

ഫലങ്ങൾ വലിയ വ്യത്യാസം കാണിക്കുന്നു:

അടിസ്ഥാന മോഡൽ പലപ്പോഴും അറബിയിലേക്ക് മാറുന്നു.
ഫൈൻ ട്യൂൺ ചെയ്ത മോഡൽ ഒഴുക്കുള്ളതും കൃത്യവുമായ പേർഷ്യൻ സംസാരിക്കുന്നു.

പ്രധാന പാഠം വ്യക്തമാണ്: മോഡൽ സ്കെയിലിംഗിനേക്കാൾ ഡാറ്റാ എഞ്ചിനീയറിംഗാണ് പ്രധാനം. ഡാറ്റയുടെ ഗുണനിലവാരമാണ് പ്രധാന തടസ്സം.

പ്രധാന ഉൾക്കാഴ്ചകൾ:

ശുദ്ധമായ ഡാറ്റയ്ക്ക് ഡ്യുവൽ ഫിൽട്ടറിംഗ് ആവശ്യമാണ്.
ഫ്രീ പ്രോംപ്റ്റുകളെക്കാൾ ഘടനാപരമായ ടോപ്പിക് ഗ്രാഫുകൾ മികച്ച രീതിയിൽ പ്രവർത്തിക്കുന്നു.
ഒരു LLM ജഡ്ജി സിസ്റ്റത്തിന്റെ സുപ്രധാന ഭാഗമാണ്.

കുറഞ്ഞ വിഭവങ്ങളുള്ള (low resource) LLM അലൈൻമെന്റിനായുള്ള സമ്പൂർണ്ണ എഞ്ചിനാണ് ഈ സിസ്റ്റം.

Source: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Optional learning community: https://t.me/GyaanSetuAi

Designing A Persian Synthetic Data Pipeline

ഒരു പേർഷ്യൻ സിന്തറ്റിക് ഡാറ്റാ പൈപ്പ്‌ലൈൻ രൂപകൽപ്പന ചെയ്യുന്നു

Continue reading

𝗣𝗿𝗼𝗺𝗽𝘁 𝗘𝗻𝗴𝗶𝗻𝗲𝗲𝗿𝗶𝗻𝗴 𝗳𝗼𝗿 𝗦𝘆𝗻𝘁𝗵𝗲𝘁𝗶𝗰 𝗗𝗮𝘁𝗮

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁𝗶𝗻𝗴: 𝗔 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿'𝘀 𝗚𝘂𝗶𝗱𝗲