Sakana AI ra mắt Fugu nhằm điều phối trí tuệ đa mô hình ngôn ngữ lớn (Multi-LLM)
Sakana AI, có trụ sở tại Tokyo, vừa công bố Fugu, một bộ điều phối đa LLM (multi-LLM orchestrator) tinh vi được thiết kế để phối hợp một nhóm các mô hình chuyên biệt nhằm giải quyết các tác vụ phức tạp. Bằng cách đóng vai trò như một lớp trí tuệ duy nhất, Fugu đặt mục tiêu cạnh tranh với hiệu suất của các đơn vị dẫn đầu ngành như Anthropic, đồng thời cung cấp một giải pháp phòng ngừa chiến lược chống lại tình trạng lệ thuộc vào nhà cung cấp (vendor lock-in).
Giao diện thống nhất cho một nhóm tác nhân có thể thay thế
Fugu không chỉ là một mô hình ngôn ngữ lớn độc lập khác; nó là một mô hình ngôn ngữ được huấn luyện đặc biệt để quản lý một "nhóm tác nhân" (agent pool). Đối với người dùng cuối, hệ thống hoạt động như một thực thể duy nhất thông qua API tương thích với OpenAI. Tuy nhiên, về mặt nội bộ, Fugu thực hiện một chu trình phức tạp gồm lựa chọn, ủy thác, thực thi, kiểm tra và tổng hợp. Tùy thuộc vào độ phức tạp của câu lệnh (prompt), Fugu có thể tự giải quyết vấn đề hoặc huy động linh hoạt một "đội ngũ" các mô hình chuyên biệt—bao gồm cả các bản sao của chính nó—để xử lý khối lượng công việc.
Sakana AI đang cung cấp hai phiên bản riêng biệt để đáp ứng các nhu cầu chuyên môn khác nhau:
- Fugu Base: Được tối ưu hóa cho độ trễ thấp và các tác vụ hàng ngày như tương tác chatbot và đánh giá mã nguồn (code review) tiêu chuẩn.
- Fugu Ultra: Được thiết kế để đạt chất lượng suy luận tối đa, hướng tới các quy trình công việc có tính rủi ro cao như tái lập các bài báo khoa học, phân tích an ninh mạng và tìm kiếm bằng sáng chế.
Vượt mặt các mô hình tiên phong trong các bài kiểm tra chuẩn (benchmarks)
Các chỉ số hiệu suất của Fugu Ultra rất ấn tượng, đưa nó vào cuộc cạnh tranh trực tiếp với các mô hình Fable 5 và Mythos Preview đầy hứa hẹn của Anthropic. Đáng chú ý, Fugu Ultra đạt được những điểm số này bằng cách sử dụng một nhóm mô hình không bao gồm các mô hình của Anthropic, cho thấy tiềm năng còn cao hơn nữa nếu các tác nhân đó được tích hợp vào.
Trong các thử nghiệm nghiêm ngặt, Fugu Ultra đã chứng minh khả năng vượt trội qua nhiều bài kiểm tra kỹ thuật then chốt:
- SWE Bench Pro: Fugu Ultra đạt 73.7, vượt xa GPT 5.5 (58.6) và Gemini 3.1 Pro (54.2).
- LiveCodeBench: Fugu Ultra đạt 93.2, vượt qua Opus 4.8 (87.8) và GPT 5.5 (85.3).
- Humanity's Last Exam: Mô hình đạt 50.0, nhỉnh hơn Opus 4.8 (49.8).
- GPQA-D: Fugu Ultra đạt mức tiêu chuẩn cao là 95.5.
Những người thử nghiệm bản beta sớm đã báo cáo mức tăng hiệu quả khổng lồ trong các lĩnh vực chuyên biệt. Một nhà phát triển lưu ý rằng trong quá trình đánh giá mã nguồn, Fugu Ultra đã xác định được hơn 20 lỗi, trong khi GPT-5.5 chỉ phát hiện được khoảng ba lỗi.
Giảm thiểu rủi ro lệ thuộc vào nhà cung cấp AI
Bên cạnh hiệu suất thuần túy, Sakana AI đang định vị Fugu như một công cụ quan trọng cho chủ quyền kỹ thuật số. Trong kỷ nguyên mà các biện pháp kiểm soát xuất khẩu và sự thay đổi quy định có thể đột ngột hạn chế quyền truy cập vào các mô hình cụ thể (chẳng hạn như các hạn chế gần đây của Anthropic), việc phụ thuộc vào một nhà cung cấp duy nhất sẽ tạo ra lỗ hổng lớn cho các lĩnh vực tài chính, quản trị và cơ sở hạ tầng trọng yếu.
Vì Fugu sử dụng một nhóm tác nhân có thể thay thế, các tổ chức có thể chuyển hướng quy trình làm việc của họ sang các nhà cung cấp khác nếu một API bị ngừng hoạt động. Mặc dù đây không phải là giải pháp toàn diện cho "chủ quyền AI" — vì một lệnh hạn chế trên toàn ngành vẫn có thể làm giới hạn nhóm mô hình — nhưng nó cung cấp một lớp khả năng phục hồi quan trọng cho các doanh nghiệp đang muốn đa dạng hóa sự phụ thuộc vào AI của mình.
Các điểm chính cần lưu ý
- Điều phối linh hoạt: Fugu hoạt động như một API duy nhất, bên trong quản lý một đội ngũ các mô hình chuyên biệt để giải quyết các vấn đề phức tạp gồm nhiều bước.
- Thống trị các bài kiểm tra chuẩn: Fugu Ultra cạnh tranh trực tiếp với Fable 5 và Mythos của Anthropic, cho thấy sự dẫn đầu đáng kể trong các bài kiểm tra về lập trình (SWE Bench Pro) và suy luận.
- Khả năng phục hồi chiến lược: Nhóm mô hình có thể thay thế cho phép người dùng giảm thiểu rủi ro lệ thuộc vào nhà cung cấp và các gián đoạn về quy định bằng cách đa dạng hóa các nhà cung cấp AI.