𝗕𝗲𝘆𝗼𝗻𝗱 𝟭𝟱𝟬𝗺𝘀: 𝗛𝗼𝘄 𝗜 𝗥𝗲𝗱𝘂𝗰𝗲𝗱 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗳𝗼𝗿 𝗥𝗲𝗮𝗹 𝗧𝗶𝗺𝗲 𝗔𝗜 𝗩𝗼𝗶𝗰𝗲 𝗔𝘀𝘀𝗶𝘀𝘁𝗮

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial7 گھنٹے پہلے1min read

150ms سے آگے: میں نے ریئل ٹائم AI وائس اسسٹنٹس کے لیے لیٹنسی (latency) کو کیسے کم کیا

لائیو کوڈنگ اور تکنیکی انٹرویوز ڈویلپرز کے لیے تناؤ کا باعث بنتے ہیں۔ کسی کو اپنے کوڈ کی ہر لائن کا جائزہ لیتے ہوئے دیکھنا دباؤ پیدا کرتا ہے۔

جنریٹیو AI اب اسے بدل رہا ہے۔ آپ حقیقی انٹرویو کے منظرناموں کی نقل کرنے کے لیے AI کا استعمال کر سکتے ہیں۔

میں نے انٹرویوز کے لیے ایک AI اسسٹنٹ بنایا۔ میرا مقصد رسپانس ٹائم (response time) کو 150ms سے کم رکھنا تھا۔

اگر 200ms سے زیادہ کا وقفہ ہو تو انسانی گفتگو عجیب لگتی ہے۔ AI کو انسانی محسوس کروانے کے لیے، پورا پائپ لائن (pipeline) تیز ہونا چاہیے۔ اس میں آڈیو کیپچر، اسٹریمنگ، LLM inference، اور text-to-speech شامل ہیں۔

اس کے لیے اسٹینڈرڈ HTTP ریکویسٹس بہت سست ہیں۔ آپ کو کلائنٹ سائیڈ پر ڈیٹا پروسیس کرنے کی ضرورت ہے۔

پہلا مسئلہ وائس ایکٹیویٹی ڈیٹیکشن (VAD) ہے۔ آپ کو بالکل معلوم ہونا چاہیے کہ صارف کب بولنا شروع کرتا ہے اور کب رکتا ہے۔ یہ آپ کے سرور پر خاموشی (silence) بھیجنے سے روکتا ہے۔

میں نے علیحدہ تھریڈ میں خام (raw) PCM سیمپلز کو ہینڈل کرنے کے لیے JavaScript میں AudioWorklet کا استعمال کیا۔ یہ مین UI تھریڈ کو آزاد رکھتا ہے۔ اس سے یہ یقینی بنتا ہے کہ AI اسسٹنٹ براؤزر یا کوڈ ایڈیٹر کو سست نہ کرے۔

ایک اور چیلنج ریئل ٹائم کوڈ اینالیسس (code analysis) ہے۔ سسٹم کو آڈیو اور کوڈ ایڈیٹر کی حالت، دونوں کو سمجھنا چاہیے۔

ٹیکسٹ ایڈیٹر کے ڈیٹا کو وائس ان پٹ کے ساتھ جوڑنے کے لیے WebSockets کا استعمال کرتے ہوئے، AI صارف کے ٹائپ کرتے وقت بگ (bugs) یا ایج کیسز (edge cases) کا پتہ لگا سکتا ہے۔

اگر آپ انٹرویوز کے لیے پریکٹس کرنا چاہتے ہیں، تو ان اقدامات کو آزمائیں:

• "Think Aloud" طریقہ کار کی مشق کریں۔ کوڈنگ کرتے وقت اپنے لاجک (logic) کو اونچی آواز میں بیان کریں۔ • AI سیمولیشنز کا استعمال کریں۔ یہ آپ کے رسپانس ٹائم اور کوڈ کی کوالٹی پر رپورٹس فراہم کرتا ہے۔

کم لیٹنسی والی وائس ایپس کے لیے آڈیو کمپریشن اور سرور پاور کے درمیان توازن کی ضرورت ہوتی ہے۔

آپ اپنے پروجیکٹس میں آڈیو اسٹریمنگ کو کیسے ہینڈل کرتے ہیں؟ کیا آپ نے براؤزر میں VAD ماڈلز کا استعمال کیا ہے؟

اپنے خیالات کمنٹس میں شیئر کریں۔

ماخذ: https://dev.to/websterliu/oltre-i-150ms-come-ho-ridotto-la-latenza-per-creare-un-assistente-vocale-ai-in-tempo-reale-1jj5

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi

𝗕𝗲𝘆𝗼𝗻𝗱 𝟭𝟱𝟬𝗺𝘀: 𝗛𝗼𝘄 𝗜 𝗥𝗲𝗱𝘂𝗰𝗲𝗱 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗳𝗼𝗿 𝗥𝗲𝗮𝗹 𝗧𝗶𝗺𝗲 𝗔𝗜 𝗩𝗼𝗶𝗰𝗲 𝗔𝘀𝘀𝗶𝘀𝘁𝗮

Continue reading

𝗛𝗶𝗴𝗵 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗿𝗲 𝗗𝗶𝘀𝘁𝗿𝗶𝗯𝘂𝘁𝗲𝗱 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

𝗛𝗼𝘄 𝗜 𝗙𝗶𝘅𝗲𝗱 𝗔𝗜 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗪𝗶𝘁𝗵 𝗦𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝗻𝗱 𝗖𝗮𝗰𝗵𝗶𝗻𝗴

انفرنس لیٹنسی کو کم کرنے کے 9 طریقے

زیادہ تر وائس اے آئی پائلٹس کیوں ناکام ہو جاتے ہیں

ریئل ٹائم اے آئی وائس اسسٹنٹس کے لیے 150ms لیٹنسی پر قابو پانا