ഒരു പേർഷ്യൻ സിന്തറ്റിക് ഡാറ്റാ പൈപ്പ്‌ലൈൻ രൂപകൽപ്പന ചെയ്യുന്നു

LLM-കൾ പരിശീലിപ്പിക്കുന്നത് ഇനി മോഡലുകളുടെ വലിപ്പം കൂട്ടുന്നതിനെക്കുറിച്ചല്ല. അത് ഡാറ്റയുടെ ഗുണനിലവാരം വർദ്ധിപ്പിക്കുന്നതിനെക്കുറിച്ചാണ്.

മിക്ക പേർഷ്യൻ ഡാറ്റാസെറ്റുകൾക്കും കൃത്യമായ ഘടനയില്ല. ഇത് നിർദ്ദേശങ്ങൾ പാലിക്കുന്നതിൽ മോഡലുകൾ പരാജയപ്പെടാൻ കാരണമാകുന്നു. പ്രശ്നം ഡാറ്റയുടെ കുറവാണ്, മോഡലിന്റെ വലിപ്പമല്ല.

ഇത് പരിഹരിക്കുന്നതിനായി ഞാൻ ഒരു പൈപ്പ്‌ലൈൻ നിർമ്മിച്ചു. ഇത് ടോപ്പിക് ഗ്രാഫുകൾ മുതൽ QLoRA ഫൈൻ ട്യൂണിംഗ് വരെ നീളുന്നു.

പൈപ്പ്‌ലൈൻ പ്രക്രിയ:

  • ടോപ്പിക് ട്രീ നിർമ്മാണം (Topic Tree creation)
  • LLM ജനറേഷൻ (LLM Generation)
  • ഡ്യൂപ്ലിക്കേഷൻ ഒഴിവാക്കൽ (Deduplication)
  • ക്വാളിറ്റി സ്കോറിംഗ് (Quality Scoring)
  • ഡാറ്റാസെറ്റ് എക്സ്പോർട്ട് (Dataset Export)
  • QLoRA ഫൈൻ ട്യൂണിംഗ് (QLoRA Fine Tuning)
  • മൂല്യനിർണ്ണയം (Evaluation)

പ്രധാന രൂപകൽപ്പന നിയമങ്ങൾ:

  • സന്തുലിതമായ കവറേജ് ഉറപ്പാക്കാൻ 51 ഡൊമെയ്‌നുകൾ.
  • ആവർത്തനപരമായ ആശയങ്ങൾ ഒഴിവാക്കാൻ സെമാന്റിക് ഡ്യൂപ്ലിക്കേഷൻ.
  • പക്ഷപാതം കുറയ്ക്കുന്നതിനായി GPT മോഡലുകൾ ഉപയോഗിച്ചുള്ള മൾട്ടി-മോഡൽ ജനറേഷൻ.
  • അവസാന ഫൈൻ ട്യൂണിംഗിനായി Qwen2.5 3B Instruct ഉപയോഗിക്കുന്നു.

ഡാറ്റ എഞ്ചിൻ എങ്ങനെ പ്രവർത്തിക്കുന്നു: വൈവിധ്യം കൊണ്ടുവരാൻ ഞാൻ ഒന്നിലധികം മോഡലുകൾ ഉപയോഗിക്കുന്നു. GPT മോഡലുകൾ യുക്തിപരമായ ചിന്തയും (reasoning) വൈവിധ്യവും നൽകുന്നു. ഇത് ചിലവ് കുറയ്ക്കാനും വൈവിധ്യം വർദ്ധിപ്പിക്കാനും സഹായിക്കുന്നു.

ഡാറ്റ ശുദ്ധീകരിക്കാൻ ഞാൻ സെമാന്റിക് ഫിൽട്ടറിംഗ് ഉപയോഗിക്കുന്നു. രണ്ട് നിർദ്ദേശങ്ങൾ തമ്മിൽ 0.75-ന് മുകളിൽ സമാനത (similarity score) ഉണ്ടെങ്കിൽ, ഞാൻ അവയിൽ ഒന്ന് നീക്കം ചെയ്യുന്നു. ഇത് ഒരേ പാറ്റേണുകളിൽ മോഡൽ ഓവർഫിറ്റ് ചെയ്യുന്നത് തടയുന്നു.

ഗുണനിലവാരം അളക്കാൻ ഞാൻ ഒരു LLM-നെ ജഡ്ജിയായി ഉപയോഗിക്കുന്നു. അത് താഴെ പറയുന്നവ പരിശോധിക്കുന്നു:

  • ഒഴുക്ക് (Fluency)
  • പ്രസക്തി (Relevance)
  • പൂർണ്ണത (Completeness)

3.5 അല്ലെങ്കിൽ അതിനു മുകളിൽ സ്കോർ ഉള്ള ഡാറ്റ മാത്രമേ സെറ്റിൽ നിലനിർത്തുകയുള്ളൂ.

ഫൈൻ ട്യൂണിംഗ് ഫലങ്ങൾ: ഞാൻ Google Colab വഴി Qwen2.5 3B Instruct മോഡലിൽ QLoRA ഉപയോഗിച്ചു. QLoRA മുഴുവൻ വെയ്റ്റുകൾക്കും (weights) പകരം ചെറിയ അഡാപ്റ്ററുകൾ (adapters) പരിശീലിപ്പിക്കുന്നു. ഇത് പെർഫോമൻസ് നിലനിർത്തിക്കൊണ്ടുതന്നെ മെമ്മറി ലാഭിക്കുന്നു.

ഫലങ്ങൾ വലിയ വ്യത്യാസം കാണിക്കുന്നു:

  • അടിസ്ഥാന മോഡൽ പലപ്പോഴും അറബിയിലേക്ക് മാറുന്നു.
  • ഫൈൻ ട്യൂൺ ചെയ്ത മോഡൽ ഒഴുക്കുള്ളതും കൃത്യവുമായ പേർഷ്യൻ സംസാരിക്കുന്നു.

പ്രധാന പാഠം വ്യക്തമാണ്: മോഡൽ സ്കെയിലിംഗിനേക്കാൾ ഡാറ്റാ എഞ്ചിനീയറിംഗാണ് പ്രധാനം. ഡാറ്റയുടെ ഗുണനിലവാരമാണ് പ്രധാന തടസ്സം.

പ്രധാന ഉൾക്കാഴ്ചകൾ:

  • ശുദ്ധമായ ഡാറ്റയ്ക്ക് ഡ്യുവൽ ഫിൽട്ടറിംഗ് ആവശ്യമാണ്.
  • ഫ്രീ പ്രോംപ്റ്റുകളെക്കാൾ ഘടനാപരമായ ടോപ്പിക് ഗ്രാഫുകൾ മികച്ച രീതിയിൽ പ്രവർത്തിക്കുന്നു.
  • ഒരു LLM ജഡ്ജി സിസ്റ്റത്തിന്റെ സുപ്രധാന ഭാഗമാണ്.

കുറഞ്ഞ വിഭവങ്ങളുള്ള (low resource) LLM അലൈൻമെന്റിനായുള്ള സമ്പൂർണ്ണ എഞ്ചിനാണ് ഈ സിസ്റ്റം.

Source: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Optional learning community: https://t.me/GyaanSetuAi