রিয়েল-টাইম AI অ্যাসিস্ট্যান্ট তৈরি করা কেন কঠিন
রিয়েল-টাইম AI তৈরি করা কঠিন। বেশিরভাগ সিস্টেম আলাদা আলাদা অংশের একটি শৃঙ্খল ব্যবহার করে। একটি অংশ কণ্ঠস্বর শনাক্ত করে। অন্যটি কথাকে টেক্সটে রূপান্তর করে। তৃতীয়টি একটি প্রতিক্রিয়া তৈরি করে। চতুর্থটি টেক্সটকে কথায় রূপান্তর করে। পঞ্চমটি একটি অবতার রেন্ডার করে।
এই অংশগুলোর মধ্যে প্রতিটি হস্তান্তর (handoff) বিলম্ব যোগ করে। প্রতিটি সীমানা টাইমিং ত্রুটি তৈরি করে। এটি মিথস্ক্রিয়াকে রোবোটিক করে তোলে।
Wan-Streamer v0.1 এই পদ্ধতিটি পরিবর্তন করে। আলাদা আলাদা সার্ভিসের পরিবর্তে, এটি একটি একক streaming Transformer ব্যবহার করে। এটি অডিও, ভিডিও এবং টেক্সটকে একটি একক লুপ হিসেবে বিবেচনা করে।
সাধারণ অ্যাসিস্ট্যান্টগুলো এভাবে কাজ করে: • ব্যবহারকারী কথা বলেন। • সিস্টেম কথাকে টেক্সটে রূপান্তর করে। • মডেল একটি টেক্সট প্রতিক্রিয়া তৈরি করে। • সিস্টেম টেক্সটকে কথায় রূপান্তর করে। • অবতার অডিওর সাথে ঠোঁটের নড়াচড়া মেলানোর (sync) চেষ্টা করে।
এই পদ্ধতিটি ভঙ্গুর। যদি একটি ধাপ ধীরগতির হয়, তবে পুরো সিস্টেমকে অপেক্ষা করতে হয়। যদি ব্যবহারকারী কথা বলতে বাধা দেন, তবে সিস্টেম প্রায়শই তা বুঝতে ব্যর্থ হয়।
Wan-Streamer ভাষা, অডিও এবং ভিডিওকে একসাথে মডেলিং করার মাধ্যমে এই সমস্যার সমাধান করে। এটি block-causal attention ব্যবহার করে। এটি মডেলটিকে তার স্টেট (state) ক্রমাগত আপডেট করার সুযোগ দেয়। এটি কাজ করার জন্য একটি সম্পূর্ণ টার্ন শেষ হওয়ার জন্য অপেক্ষা করে না।
সিস্টেমটি একটি thinker-performer বিভাজন ব্যবহার করে: • thinker অংশটি পারসেপশন এবং স্টেট আপডেট পরিচালনা করে। • performer অংশটি জেনারেশনের পরবর্তী ইউনিট পরিচালনা করে।
এই ওভারল্যাপ লুপের অংশগুলোকে একে অপরকে বাধা দিতে বাধা দেয়। মডেলটি প্রায় 200 ms মডেল-সাইড ল্যাটেন্সি অর্জন করে। মোট ইন্টারঅ্যাকশন ল্যাটেন্সি প্রায় 550 ms-এর মধ্যে থাকে।
যখন প্রতিক্রিয়ার সময় এক সেকেন্ডের নিচে থাকে, তখন কথোপকথনগুলো জীবন্ত মনে হয়। এটি নিচের ক্ষেত্রগুলোর জন্য গুরুত্বপূর্ণ: • কাস্টমার সাপোর্ট অবতার। • টিউটরিং এজেন্ট। • টেলিপ্রেজেন্স টুলস। • ইন্টারেক্টিভ ডেমো।
Wan-Streamer এখনও ভার্সন 0.1-এ রয়েছে। ভিডিওর মান কম। একটি একক মডেল নিরাপত্তা বা নির্ভরযোগ্যতার সমস্যার সমাধান করে না। তবে, এটি প্রমাণ করে যে ইন্টারঅ্যাকশন লুপের গঠন অত্যন্ত গুরুত্বপূর্ণ।
আপনি যদি রিয়েল-টাইম AI তৈরি করেন, তবে এই প্রশ্নগুলো করুন: • আপনি কি আলাদা মডিউলগুলোকে একটি ব্যাকবোন (backbone)-এ যুক্ত করতে পারেন? • আপনার পাইপলাইনে কোথায় দেরি হচ্ছে? • বিলম্ব কমাতে কোন অংশগুলোকে ওভারল্যাপ করা যেতে পারে?
রিয়েল-টাইম AI-তে, তথ্য যেভাবে প্রবাহিত হয়, সেটিই হলো আসল পণ্য।
Optional learning community: https://t.me/GyaanSetuAi
