একটি ফারসি সিন্থেটিক ডেটা পাইপলাইন ডিজাইন করা

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial২ ঘন্টা আগে2min read

একটি ফারসি সিন্থেটিক ডেটা পাইপলাইন ডিজাইন করা

একটি পার্সিয়ান সিন্থেটিক ডেটা পাইপলাইন ডিজাইন করা

LLM ট্রেনিং এখন আর কেবল মডেল স্কেলিংয়ের বিষয় নয়। এটি এখন ডেটার গুণমান বৃদ্ধির বিষয়।

বেশিরভাগ পার্সিয়ান ডেটাসেটে কাঠামোর অভাব রয়েছে। এর ফলে মডেলগুলো নির্দেশাবলী অনুসরণ করতে ব্যর্থ হয়। সমস্যাটি ডেটার স্বল্পতা, মডেলের আকারের নয়।

আমি এটি সমাধানের জন্য একটি পাইপলাইন তৈরি করেছি। এটি টপিক গ্রাফ থেকে শুরু করে QLoRA fine tuning পর্যন্ত কাজ করে।

The Pipeline Process:

টপিক ট্রি (Topic Tree) তৈরি করা
LLM জেনারেশন
ডিডুপ্লিকেশন (Deduplication)
কোয়ালিটি স্কোরিং
ডেটাসেট এক্সপোর্ট
QLoRA Fine Tuning
ইভ্যালুয়েশন (Evaluation)

Core Design Rules:

ভারসাম্যপূর্ণ কভারেজ নিশ্চিত করতে ৫১টি ডোমেইন।
পুনরাবৃত্তিমূলক ধারণাগুলো দূর করতে সিম্যান্টিক ডিডুপ্লিকেশন।
পক্ষপাতিত্ব কমাতে GPT মডেল ব্যবহার করে মাল্টি-মডেল জেনারেশন।
চূড়ান্ত fine tuning-এর জন্য Qwen2.5 3B Instruct।

How the Data Engine Works: আমি বৈচিত্র্য আনার জন্য একাধিক মডেল ব্যবহার করি। GPT মডেলগুলো রিজনিং এবং বৈচিত্র্য প্রদান করে। এটি খরচ কম রাখে এবং বৈচিত্র্য বজায় রাখে।

ডেটা পরিষ্কার করার জন্য আমি সিম্যান্টিক ফিল্টারিং ব্যবহার করি। যদি দুটি নির্দেশনার সিমিলারিটি স্কোর ০.৭৫-এর বেশি হয়, তবে আমি একটি সরিয়ে ফেলি। এটি মডেলকে একই প্যাটার্নের ওপর ওভারফিটিং করা থেকে বিরত রাখে।

কোয়ালিটি স্কোর করার জন্য আমি একটি LLM-কে জাজ (judge) হিসেবে ব্যবহার করি। এটি নিচের বিষয়গুলো পরীক্ষা করে:

সাবলীলতা (Fluency)
প্রাসঙ্গিকতা (Relevance)
পূর্ণতা (Completeness)

শুধুমাত্র ৩.৫ বা তার বেশি স্কোর পাওয়া ডেটা সেটটিতে থাকে।

Fine Tuning Results: আমি Google Colab-এর মাধ্যমে Qwen2.5 3B Instruct মডেলে QLoRA ব্যবহার করেছি। QLoRA সম্পূর্ণ ওয়েট (weights)-এর পরিবর্তে ছোট অ্যাডাপ্টার (adapters) ট্রেনিং করে। এটি পারফরম্যান্স বজায় রেখে মেমরি সাশ্রয় করে।

ফলাফলগুলো একটি বিশাল পার্থক্য দেখায়:

বেস মডেলটি প্রায়ই আরবি ভাষায় চলে যায়।
fine tuned মডেলটি সাবলীল এবং সামঞ্জস্যপূর্ণ পার্সিয়ান ভাষায় কথা বলে।

মূল শিক্ষাটি স্পষ্ট: মডেল স্কেলিংয়ের চেয়ে ডেটা ইঞ্জিনিয়ারিং বেশি গুরুত্বপূর্ণ। ডেটার গুণমানই হলো প্রধান বাধা।

Key Insights:

পরিষ্কার ডেটার জন্য ডুয়াল ফিল্টারিং প্রয়োজন।
ফ্রি প্রম্পটের চেয়ে স্ট্রাকচার্ড টপিক গ্রাফ বেশি কার্যকর।
একটি LLM জাজ সিস্টেমের একটি অপরিহার্য অংশ।

এই সিস্টেমটি লো-রিসোর্স LLM অ্যালাইনমেন্টের জন্য একটি পূর্ণাঙ্গ ইঞ্জিন।

Source: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

Optional learning community: https://t.me/GyaanSetuAi

একটি ফারসি সিন্থেটিক ডেটা পাইপলাইন ডিজাইন করা

Continue reading

সিন্থেটিক ডেটার জন্য প্রম্পট ইঞ্জিনিয়ারিং

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁𝗶𝗻𝗴: 𝗔 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿'𝘀 𝗚𝘂𝗶𝗱𝗲