একটি পার্সিয়ান সিন্থেটিক ডেটা পাইপলাইন ডিজাইন করা

LLM ট্রেনিং এখন আর কেবল মডেল স্কেলিংয়ের বিষয় নয়। এটি এখন ডেটার গুণমান বৃদ্ধির বিষয়।

বেশিরভাগ পার্সিয়ান ডেটাসেটে কাঠামোর অভাব রয়েছে। এর ফলে মডেলগুলো নির্দেশাবলী অনুসরণ করতে ব্যর্থ হয়। সমস্যাটি ডেটার স্বল্পতা, মডেলের আকারের নয়।

আমি এটি সমাধানের জন্য একটি পাইপলাইন তৈরি করেছি। এটি টপিক গ্রাফ থেকে শুরু করে QLoRA fine tuning পর্যন্ত কাজ করে।

The Pipeline Process:

  • টপিক ট্রি (Topic Tree) তৈরি করা
  • LLM জেনারেশন
  • ডিডুপ্লিকেশন (Deduplication)
  • কোয়ালিটি স্কোরিং
  • ডেটাসেট এক্সপোর্ট
  • QLoRA Fine Tuning
  • ইভ্যালুয়েশন (Evaluation)

Core Design Rules:

  • ভারসাম্যপূর্ণ কভারেজ নিশ্চিত করতে ৫১টি ডোমেইন।
  • পুনরাবৃত্তিমূলক ধারণাগুলো দূর করতে সিম্যান্টিক ডিডুপ্লিকেশন।
  • পক্ষপাতিত্ব কমাতে GPT মডেল ব্যবহার করে মাল্টি-মডেল জেনারেশন।
  • চূড়ান্ত fine tuning-এর জন্য Qwen2.5 3B Instruct।

How the Data Engine Works: আমি বৈচিত্র্য আনার জন্য একাধিক মডেল ব্যবহার করি। GPT মডেলগুলো রিজনিং এবং বৈচিত্র্য প্রদান করে। এটি খরচ কম রাখে এবং বৈচিত্র্য বজায় রাখে।

ডেটা পরিষ্কার করার জন্য আমি সিম্যান্টিক ফিল্টারিং ব্যবহার করি। যদি দুটি নির্দেশনার সিমিলারিটি স্কোর ০.৭৫-এর বেশি হয়, তবে আমি একটি সরিয়ে ফেলি। এটি মডেলকে একই প্যাটার্নের ওপর ওভারফিটিং করা থেকে বিরত রাখে।

কোয়ালিটি স্কোর করার জন্য আমি একটি LLM-কে জাজ (judge) হিসেবে ব্যবহার করি। এটি নিচের বিষয়গুলো পরীক্ষা করে:

  • সাবলীলতা (Fluency)
  • প্রাসঙ্গিকতা (Relevance)
  • পূর্ণতা (Completeness)

শুধুমাত্র ৩.৫ বা তার বেশি স্কোর পাওয়া ডেটা সেটটিতে থাকে।

Fine Tuning Results: আমি Google Colab-এর মাধ্যমে Qwen2.5 3B Instruct মডেলে QLoRA ব্যবহার করেছি। QLoRA সম্পূর্ণ ওয়েট (weights)-এর পরিবর্তে ছোট অ্যাডাপ্টার (adapters) ট্রেনিং করে। এটি পারফরম্যান্স বজায় রেখে মেমরি সাশ্রয় করে।

ফলাফলগুলো একটি বিশাল পার্থক্য দেখায়:

  • বেস মডেলটি প্রায়ই আরবি ভাষায় চলে যায়।
  • fine tuned মডেলটি সাবলীল এবং সামঞ্জস্যপূর্ণ পার্সিয়ান ভাষায় কথা বলে।

মূল শিক্ষাটি স্পষ্ট: মডেল স্কেলিংয়ের চেয়ে ডেটা ইঞ্জিনিয়ারিং বেশি গুরুত্বপূর্ণ। ডেটার গুণমানই হলো প্রধান বাধা।

Key Insights:

  • পরিষ্কার ডেটার জন্য ডুয়াল ফিল্টারিং প্রয়োজন।
  • ফ্রি প্রম্পটের চেয়ে স্ট্রাকচার্ড টপিক গ্রাফ বেশি কার্যকর।
  • একটি LLM জাজ সিস্টেমের একটি অপরিহার্য অংশ।

এই সিস্টেমটি লো-রিসোর্স LLM অ্যালাইনমেন্টের জন্য একটি পূর্ণাঙ্গ ইঞ্জিন।

Source: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Optional learning community: https://t.me/GyaanSetuAi