เมื่อ Physical AI มาบรรจบกับ Software Agents
สัปดาห์นี้มีการเปิดตัวครั้งสำคัญสองรายการที่เปลี่ยนโฉมหน้าวงการ AI โดย Alibaba ได้เปิดตัวโมเดลหุ่นยนต์ และ OpenAI ได้ปล่อยเฟรมเวิร์กสำหรับเอเจนต์ (agent framework) ออกมา
Alibaba ได้เปิดตัว Qwen-Robot ซึ่งเป็นโมเดลที่ช่วยให้หุ่นยนต์สามารถเคลื่อนที่และสัมผัสวัตถุได้ โดยโมเดลหนึ่งจะเน้นไปที่การเคลื่อนไหวของมือ ซึ่งเป็นการเชื่อมโยงการมองเห็นเข้ากับการควบคุมทางกายภาพ
ข้อมูลสำคัญเกี่ยวกับ Qwen-Robot:
- ใช้สถาปัตยกรรม Vision-Language-Action
- หุ่นยนต์จะมองเห็น คิด และลงมือทำ
- ใช้ข้อมูลทางอุตสาหกรรมสำหรับการขนส่ง (logistics) และการผลิต
- เป็นการเปิดตัวแบบ open-weight สำหรับนักวิจัย
สิ่งนี้ทำให้ Alibaba ก้าวข้ามจากอีคอมเมิร์ซเข้าสู่โลกของ Physical Intelligence และเป็นการแข่งขันกับ Google และ NVIDIA
ในขณะเดียวกัน OpenAI ก็ได้เปิดตัว Agents SDK แบบ open-source ซึ่งช่วยให้คุณสามารถสร้างระบบ multi-agent ได้ด้วยโค้ด Python เพียง 50 บรรทัด
ทำไม SDK นี้ถึงสำคัญ:
- สามารถใช้งานร่วมกับผู้ให้บริการโมเดลรายใดก็ได้
- จัดการการส่งต่องานระหว่างเอเจนต์ (agent handoffs) โดยเอเจนต์หนึ่งสามารถส่งต่องานไปยังผู้เชี่ยวชาญเฉพาะด้านได้
- รวมการเชื่อมต่อเครื่องมือ (tool integration) และการประมวลผลแบบขนาน (parallel execution)
- มียอดดาวน์โหลดถึง 10 ล้านครั้งภายในเวลาเพียง 3 เดือน
คุณสามารถเชื่อมต่อเอเจนต์เข้าด้วยกันเป็นทอดๆ เช่น เอเจนต์เขียนโค้ด (code agent) ทำหน้าที่เขียนโค้ด เอเจนต์ทดสอบ (testing agent) ทำหน้าที่ตรวจสอบ และเอเจนต์ติดตั้ง (deployment agent) ทำหน้าที่ปิดงาน โดยพวกมันทำงานร่วมกันได้โดยไม่ต้องเขียนโค้ดเพิ่มเติม
การเปิดตัวเหล่านี้แสดงให้เห็นถึงทิศทางหนึ่ง นั่นคือ Alibaba มอบ "มือ" ให้กับหุ่นยนต์ ส่วน OpenAI มอบ "สมอง" ให้กับมือเหล่านั้นเพื่อประสานงานในด้านต่างๆ
คุณสามารถใช้งานทั้งสองเฟรมเวิร์กได้แล้ววันนี้ ทั้งคู่เป็นแบบฟรีและเปิดกว้าง
คุณคิดว่าโมเดล AI ทุกตัวจะมีร่างกายทางกายภาพในเร็วๆ นี้หรือไม่? ร่วมแบ่งปันความคิดเห็นของคุณได้เลย
Optional learning community: https://t.me/GyaanSetuAi