১৫০ মিলিসেকেন্ডের বাইরে: কীভাবে আমি রিয়েল-টাইম AI ভয়েস অ্যাসিস্ট্যান্টের ল্যাটেন্সি কমিয়েছি

লাইভ কোডিং এবং টেকনিক্যাল ইন্টারভিউ ডেভেলপারদের জন্য বেশ চাপের। কেউ আপনার কোডের প্রতিটি লাইন মূল্যায়ন করছে তা দেখা মানসিক চাপের সৃষ্টি করে।

জেনারেটিভ AI এখন এই পরিস্থিতি বদলে দিচ্ছে। আপনি আসল ইন্টারভিউ পরিস্থিতির সিমুলেশন করতে AI ব্যবহার করতে পারেন।

আমি ইন্টারভিউয়ের জন্য একটি AI অ্যাসিস্ট্যান্ট তৈরি করেছি। আমার লক্ষ্য ছিল রেসপন্স টাইম ১৫০ মিলিসেকেন্ডের নিচে রাখা।

মানুষের কথোপকথনে ২০০ মিলিসেকেন্ডের বেশি বিরতি থাকলে তা অস্বস্তিকর মনে হয়। একটি AI-কে মানুষের মতো করতে হলে পুরো পাইপলাইনটি দ্রুত হতে হবে। এর মধ্যে রয়েছে অডিও ক্যাপচার, স্ট্রিমিং, LLM ইনফারেন্স এবং টেক্সট-টু-স্পিচ।

এর জন্য স্ট্যান্ডার্ড HTTP রিকোয়েস্টগুলো অনেক ধীরগতির। আপনাকে ক্লায়েন্ট সাইডে ডেটা প্রসেস করতে হবে।

প্রথম সমস্যাটি হলো Voice Activity Detection (VAD)। ব্যবহারকারী ঠিক কখন কথা বলা শুরু করছেন এবং কখন শেষ করছেন তা আপনাকে জানতে হবে। এটি আপনার সার্ভারে নিরবতা (silence) পাঠানো রোধ করে।

আমি একটি আলাদা থ্রেডে র (raw) PCM স্যাম্পল হ্যান্ডেল করার জন্য JavaScript-এ একটি AudioWorklet ব্যবহার করেছি। এটি মেইন UI থ্রেডকে মুক্ত রাখে। এটি নিশ্চিত করে যে AI অ্যাসিস্ট্যান্ট ব্রাউজার বা কোড এডিটরকে ধীর করে দিচ্ছে না।

আরেকটি চ্যালেঞ্জ হলো রিয়েল-টাইম কোড অ্যানালাইসিস। সিস্টেমটিকে অডিও এবং কোড এডিটরের অবস্থা—উভয়ই বুঝতে হবে।

টেক্সট এডিটরের ডেটার সাথে ভয়েস ইনপুট যুক্ত করতে WebSockets ব্যবহার করার মাধ্যমে, ব্যবহারকারী টাইপ করার সময় AI বাগ (bug) বা এজ কেস (edge case) শনাক্ত করতে পারে।

আপনি যদি ইন্টারভিউয়ের জন্য প্রস্তুতি নিতে চান, তবে এই ধাপগুলো অনুসরণ করতে পারেন:

• "Think Aloud" পদ্ধতিটি অনুশীলন করুন। কোড করার সময় আপনার লজিকটি জোরে জোরে ব্যাখ্যা করুন। • AI সিমুলেশন ব্যবহার করুন। এটি আপনার রেসপন্স টাইম এবং কোডের গুণমান সম্পর্কে রিপোর্ট প্রদান করে।

লো ল্যাটেন্সি ভয়েস অ্যাপের জন্য অডিও কমপ্রেশন এবং সার্ভার পাওয়ারের মধ্যে ভারসাম্য প্রয়োজন।

আপনি আপনার প্রজেক্টে অডিও স্ট্রিমিং কীভাবে হ্যান্ডেল করেন? আপনি কি ব্রাউজারে VAD মডেল ব্যবহার করেছেন?

কমেন্টে আপনার মতামত জানান।

উৎস: https://dev.to/websterliu/oltre-i-150ms-come-ho-ridotto-la-latenza-per-creare-un-assistente-vocale-ai-in-tempo-reale-1jj5

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi