เอาชนะความหน่วง 150ms สำหรับผู้ช่วยเสียง AI แบบเรียลไทม์

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial4 ชั่วโมงที่ผ่านมา2min read

เอาชนะความหน่วง 150ms สำหรับผู้ช่วยเสียง AI แบบเรียลไทม์

การทำ Live coding และการสัมภาษณ์ทางเทคนิคสร้างความเครียดอย่างมากให้กับนักพัฒนา คนส่วนใหญ่มักจะลำบากเมื่อมีผู้เชี่ยวชาญคอยจับตาดูโค้ดทุกบรรทัด

ปัจจุบัน Generative AI กำลังเข้ามาเปลี่ยนสิ่งนี้ คุณสามารถจำลองสถานการณ์การสัมภาษณ์จริงผ่านการฝึกฝนแบบโต้ตอบได้

ผมใช้เวลาหลายเดือนในการสร้างโซลูชัน SaaS สำหรับการสรรหาบุคลากร และผมได้พบกับปัญหาใหญ่ นั่นคือความหน่วงของเครือข่าย (network latency) การจะสร้างผู้ช่วยเสียง AI ที่ลื่นไหลได้นั้น เวลาในการตอบสนองต้องต่ำกว่า 150ms

มนุษย์จะเริ่มสังเกตเห็นความล่าช้าหากนานกว่า 200ms หาก AI ของคุณใช้เวลานานเกินไปในการตอบสนอง บทสนทนาจะรู้สึกติดขัดและไม่เป็นธรรมชาติ

การส่ง HTTP requests แบบมาตรฐานนั้นช้าเกินไปสำหรับเรื่องนี้ เนื่องจากมันโหลดข้อมูลเสียงเป็นส่วนๆ (chunks) ทางออกคือต้องประมวลผลข้อมูลโดยตรงที่ฝั่ง client

ผมมุ่งเน้นไปที่สองส่วนหลักเพื่อแก้ไขปัญหานี้:

Voice Activity Detection (VAD): คุณต้องรู้ให้แน่ชัดว่าผู้ใช้เริ่มพูดและหยุดพูดเมื่อใด เพื่อป้องกันไม่ให้ส่งช่วงเงียบไปยังเซิร์ฟเวอร์ของคุณ
Thread Management: ผมใช้ JavaScript AudioWorklet ซึ่งจะประมวลผลเสียงใน thread แยกต่างหาก ช่วยให้ main UI thread ว่างอยู่เสมอ เพื่อให้เบราว์เซอร์ยังคงทำงานได้อย่างรวดเร็ว

การตั้งค่านี้ช่วยให้ AI co-pilot สามารถทำงานในพื้นหลังได้โดยไม่ทำให้ IDE หรือ CPU ของคุณช้าลง

ผมยังได้รวมการวิเคราะห์โค้ดเข้าไปด้วย โดยการใช้ WebSockets ทำให้ AI สามารถติดตามสถานะของ text editor ไปพร้อมๆ กับเสียงของคุณ ซึ่งช่วยให้ระบบสามารถตรวจหาบั๊กหรือแนะนำการปรับแต่งโค้ด (optimizations) ได้ในขณะที่คุณกำลังเขียน

หากคุณต้องการเตรียมตัวสำหรับการสัมภาษณ์ทางเทคนิค ให้ทำตามขั้นตอนเหล่านี้:

ฝึกคิดดังๆ (thinking aloud) อธิบายตรรกะของคุณในขณะที่เขียนโค้ด
ใช้การจำลองด้วย AI ตรวจสอบเวลาในการตอบสนองและความคล่องแคล่วในการเขียนโค้ดของคุณผ่านข้อมูล

การสร้างแอปพลิเคชันเสียงที่มีความหน่วงต่ำนั้นเป็นเรื่องยาก คุณต้องสร้างสมดุลระหว่างการบีบอัดเสียง (audio compression) กับประสิทธิภาพของเซิร์ฟเวอร์ อย่างไรก็ตาม การได้เห็นการตอบสนองที่ทันทีทันใดทำให้การทำงานนั้นคุ้มค่า

คุณจัดการกับการสตรีมเสียง (audio streaming) ในโปรเจกต์ของคุณอย่างไร? คุณเคยลองใช้โมเดล VAD ในเบราว์เซอร์บ้างหรือยัง? ร่วมแบ่งปันความคิดเห็นของคุณได้ที่ด้านล่างนี้

ที่มา: https://dev.to/websterliu/oltre-i-150ms-come-ho-ridotto-la-latenza-per-creare-un-assistente-vocale-ai-in-tempo-reale-1jj5

เอาชนะความหน่วง 150ms สำหรับผู้ช่วยเสียง AI แบบเรียลไทม์

Continue reading

การฝึกสอน Brand Voice สำหรับเครื่องมือ AI

𝗛𝗼𝘄 𝗜 𝗙𝗶𝘅𝗲𝗱 𝗔𝗜 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗪𝗶𝘁𝗵 𝗦𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝗻𝗱 𝗖𝗮𝗰𝗵𝗶𝗻𝗴

𝟵 𝗪𝗮𝘆𝘀 𝗧𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲 𝗟𝗮𝘁𝗲𝗻𝗰𝘆

ทำไมโครงการนำร่อง Voice AI ส่วนใหญ่ถึงล้มเหลว

𝗕𝗲𝘆𝗼𝗻𝗱 𝟭𝟱𝟬𝗺𝘀: 𝗛𝗼𝘄 𝗜 𝗥𝗲𝗱𝘂𝗰𝗲𝗱 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗳𝗼𝗿 𝗥𝗲𝗮𝗹 𝗧𝗶𝗺𝗲 𝗔𝗜 𝗩𝗼𝗶𝗰𝗲 𝗔𝘀𝘀𝗶𝘀𝘁𝗮