Sakana AI เปิดตัว Fugu เพื่อประสานการทำงานของ Multi-LLM Intelligence
Sakana AI ซึ่งมีฐานอยู่ในโตเกียว ได้เปิดตัว Fugu ซึ่งเป็นตัวประสานงาน (orchestrator) แบบ multi-LLM ที่ซับซ้อน ซึ่งได้รับการออกแบบมาเพื่อประสานงานกลุ่มโมเดลเฉพาะทาง (specialized models) เพื่อแก้ปัญหาที่ซับซ้อน ด้วยการทำหน้าที่เป็นเลเยอร์อัจฉริยะเพียงหนึ่งเดียว Fugu จึงมุ่งหวังที่จะเทียบเคียงประสิทธิภาพกับผู้นำในอุตสาหกรรมอย่าง Anthropic พร้อมทั้งเป็นกลยุทธ์ในการป้องกันความเสี่ยงจากการผูกขาดโดยผู้ให้บริการรายเดียว (vendor lock-in)
อินเทอร์เฟซที่เป็นหนึ่งเดียวสำหรับกลุ่ม Agent ที่สามารถสลับเปลี่ยนได้
Fugu ไม่ใช่แค่โมเดลภาษาขนาดใหญ่ (LLM) แบบเดี่ยวทั่วไป แต่เป็นโมเดลภาษาที่ได้รับการฝึกฝนมาโดยเฉพาะเพื่อจัดการกับ "agent pool" (กลุ่มเอเจนต์) สำหรับผู้ใช้งานทั่วไป ระบบจะทำงานเสมือนเป็นหน่วยเดียวผ่าน OpenAI-compatible API อย่างไรก็ตาม ในเชิงระบบภายใน Fugu จะดำเนินการผ่านวงจรที่ซับซ้อน ทั้งการคัดเลือก (selection), การมอบหมายงาน (delegation), การประมวลผล (execution), การตรวจสอบ (checking) และการสังเคราะห์ข้อมูล (synthesis) ทั้งนี้ขึ้นอยู่กับความซับซ้อนของคำสั่ง (prompt) Fugu อาจจะแก้ปัญหาด้วยตัวคนเดียว หรือสรรหา "ทีม" ของโมเดลเฉพาะทาง—ซึ่งรวมถึงโมเดลที่เป็นสำเนาของตัวมันเองด้วย—มาช่วยจัดการภาระงานอย่างคล่องตัว
Sakana AI นำเสนอสองเวอร์ชันที่แตกต่างกันเพื่อตอบสนองความต้องการทางวิชาชีพที่หลากหลาย:
- Fugu Base: ปรับแต่งมาเพื่อความหน่วงต่ำ (low latency) และงานทั่วไป เช่น การโต้ตอบผ่านแชทบอทและการรีวิวโค้ดมาตรฐาน
- Fugu Ultra: ออกแบบมาเพื่อคุณภาพการใช้เหตุผล (reasoning) สูงสุด โดยมุ่งเป้าไปที่เวิร์กโฟลว์ที่มีความสำคัญสูง เช่น การทำซ้ำงานวิจัยทางวิทยาศาสตร์ (scientific paper reproduction), การวิเคราะห์ความปลอดภัยทางไซเบอร์ และการค้นหาสิทธิบัตร
ทำผลงานได้เหนือกว่าโมเดลระดับแนวหน้าใน Benchmark
ตัวชี้วัดประสิทธิภาพของ Fugu Ultra นั้นน่าทึ่งมาก โดยทำให้สามารถแข่งขันโดยตรงกับ Fable 5 และ Mythos Preview ของ Anthropic ที่หลายคนตั้งตารอ ที่น่าสังเกตคือ Fugu Ultra ทำคะแนนเหล่านี้ได้โดยใช้กลุ่มโมเดลที่ไม่มีโมเดลของ Anthropic รวมอยู่ด้วย ซึ่งบ่งชี้ว่าประสิทธิภาพอาจจะสูงขึ้นไปได้อีกหากมีการรวมเอเจนต์เหล่านั้นเข้ามาด้วย
ในการทดสอบที่เข้มงวด Fugu Ultra ได้แสดงให้เห็นถึงความสามารถที่เหนือกว่าในเกณฑ์มาตรฐานทางเทคนิคที่สำคัญหลายประการ:
- SWE Bench Pro: Fugu Ultra ทำคะแนนได้ 73.7 ซึ่งเหนือกว่า GPT 5.5 (58.6) และ Gemini 3.1 Pro (54.2) อย่างมีนัยสำคัญ
- LiveCodeBench: Fugu Ultra ทำคะแนนได้ถึง 93.2 แซงหน้า Opus 4.8 (87.8) และ GPT 5.5 (85.3)
- Humanity's Last Exam: โมเดลทำคะแนนได้ 50.0 เฉือนชนะ Opus 4.8 (49.8) ไปเพียงเล็กน้อย
- GPQA-D: Fugu Ultra ทำคะแนนได้สูงถึงมาตรฐานที่ 95.5
ผู้ทดสอบเวอร์ชันเบต้าในช่วงแรกรายงานว่าได้รับประสิทธิภาพที่เพิ่มขึ้นอย่างมหาศาลในสาขาเฉพาะทาง นักพัฒนาคนหนึ่งระบุว่าในระหว่างการรีวิวโค้ด Fugu Ultra สามารถตรวจพบข้อผิดพลาด (bugs) ได้มากกว่า 20 จุด ในขณะที่ GPT-5.5 ตรวจพบเพียงประมาณ 3 จุดเท่านั้น
การลดความเสี่ยงจากการผูกขาดโดยผู้ให้บริการ AI (AI Vendor Lock-in)
นอกเหนือจากเรื่องประสิทธิภาพเพียงอย่างเดียว Sakana AI กำลังวางตำแหน่ง Fugu ให้เป็นเครื่องมือสำคัญสำหรับอธิปไตยทางดิจิทัล (digital sovereignty) ในยุคที่การควบคุมการส่งออกและการเปลี่ยนแปลงด้านกฎระเบียบสามารถจำกัดการเข้าถึงโมเดลเฉพาะเจาะจงได้อย่างกะทันหัน (เช่น ข้อจำกัดล่าสุดของ Anthropic) การพึ่งพาผู้ให้บริการเพียงรายเดียวจึงถือเป็นจุดอ่อนที่สำคัญสำหรับภาคการเงิน การบริหารปกครอง และโครงสร้างพื้นฐานที่สำคัญ
เนื่องจาก Fugu ใช้กลุ่มเอเจนต์ที่สามารถสลับเปลี่ยนได้ องค์กรต่างๆ จึงสามารถเปลี่ยนเส้นทางเวิร์กโฟลว์ไปยังผู้ให้บริการรายอื่นได้หาก API รายใดรายหนึ่งใช้งานไม่ได้ แม้ว่าจะไม่ใช่ทางออกที่สมบูรณ์แบบสำหรับ "อธิปไตยทาง AI" (AI sovereignty) เนื่องจากข้อจำกัดที่ครอบคลุมทั้งอุตสาหกรรมอาจยังคงจำกัดกลุ่มโมเดลที่มีอยู่ แต่สิ่งนี้ก็ช่วยสร้างชั้นความยืดหยุ่น (resilience) ที่สำคัญสำหรับองค์กรที่ต้องการกระจายความเสี่ยงจากการพึ่งพา AI
สรุปประเด็นสำคัญ
- Dynamic Orchestration: Fugu ทำหน้าที่เป็น API เดียวที่จัดการทีมโมเดลเฉพาะทางภายใน เพื่อแก้ปัญหาที่ซับซ้อนและมีหลายขั้นตอน
- Benchmark Dominance: Fugu Ultra แข่งขันโดยตรงกับ Fable 5 และ Mythos ของ Anthropic โดยแสดงให้เห็นถึงความเป็นผู้นำอย่างชัดเจนในเกณฑ์มาตรฐานด้านการเขียนโค้ด (SWE Bench Pro) และการใช้เหตุผล
- Strategic Resilience: กลุ่มโมเดลที่สลับเปลี่ยนได้ช่วยให้ผู้ใช้สามารถลดความเสี่ยงจากการผูกขาดโดยผู้ให้บริการและการหยุดชะงักจากกฎระเบียบ โดยการกระจายผู้ให้บริการ AI