Netris huy động 15 triệu USD từ a16z để đẩy nhanh việc triển khai AI Neocloud

Khi cuộc đua giành quyền thống trị GPU trở nên gay gắt, nút thắt cổ chai đối với các nhà cung cấp đám mây AI mới đã chuyển từ việc thu mua chip sang việc cấu hình các mạng lưới phức tạp cần thiết để vận hành chúng. Netris, một startup về tự động hóa mạng, đã huy động được 15 triệu USD trong vòng gọi vốn Series A do Andreessen Horowitz (a16z) dẫn đầu nhằm giải quyết thách thức hạ tầng quan trọng này.

Giải quyết nút thắt cổ chai trong triển khai Neocloud

Sự trỗi dậy của các "neocloud"—những nhà cung cấp đám mây chuyên biệt tập trung vào suy luận (inference) và huấn luyện (training) AI—đã tạo ra nhu cầu khổng lồ về việc triển khai trung tâm dữ liệu nhanh chóng. Theo truyền thống, việc thiết lập một trung tâm dữ liệu để hỗ trợ tính toán hiệu năng cao có thể mất nhiều tháng, khiến các GPU đắt tiền phải nằm chờ trong khi các kỹ sư phải vật lộn với các cấu hình thủ công.

Netris giải quyết vấn đề này bằng cách cung cấp một nền tảng phần mềm chuyên dụng chạy trực tiếp trên các thiết bị chuyển mạch mạng (network switches). Công nghệ của họ tự động hóa việc thiết lập, cấu hình và các hoạt động vận hành hàng ngày của trung tâm dữ liệu. Quan trọng hơn, nền tảng này cung cấp khả năng trừu tượng hóa mạng (network abstraction) và cô lập tài nguyên ở lớp phần cứng, cho phép đa thuê bao (multi-tenancy). Điều này cho phép các nhà vận hành neocloud phục vụ nhiều khách hàng một cách an toàn trên cùng một phần cứng, một kỳ tích mà trước đây đòi hỏi các đội ngũ kỹ sư khổng lồ như tại AWS hay Google.

Tăng tốc phần cứng so với SDN truyền thống

Một điểm khác biệt kỹ thuật then chốt của Netris là cách tiếp cận tốc độ mạng. CEO Alex Saroyan lưu ý rằng Mạng xác định bằng phần mềm (Software-Defined Networking - SDN) truyền thống không đủ đáp ứng nhu cầu lưu lượng khổng lồ của các khối lượng công việc AI. Vì SDN chủ yếu là công nghệ dựa trên phần mềm, nó không thể đáp ứng được băng thông (throughput) cần thiết.

Netris cung cấp cái mà Saroyan mô tả là "SDN tăng tốc bằng phần cứng". Bằng cách đưa trí thông minh đến gần phần cứng hơn, nền tảng này có thể xử lý khối lượng dữ liệu cực lớn của các cụm AI mà không gặp phải các hình phạt về độ trễ (latency) như các giải pháp chỉ dựa trên phần mềm. Cách tiếp cận không phụ thuộc vào nhà cung cấp (vendor-agnostic) này đảm bảo khả năng tương thích với cả hệ sinh thái máy chủ của Nvidia và AMD, biến nó thành một công cụ linh hoạt cho các ngăn xếp phần cứng (hardware stacks) đa dạng.

Độ tin cậy thông qua các thuật toán xác định

Thật thú vị, mặc dù hoạt động trong lĩnh vực hạ tầng AI, Netris không sử dụng AI để quản lý mạng lưới của mình. Saroyan giải thích rằng khi quản lý hàng nghìn cấu hình switch, "sự sáng tạo" lại là một rủi ro. AI có tính phi xác định (non-deterministic), nghĩa là nó có thể tạo ra các kết quả không thể dự đoán trước—một rủi ro mà không nhà vận hành trung tâm dữ liệu nào có thể chấp nhận.

Thay vào đó, Netris dựa vào các thuật toán có tính nhất quán và có thể lặp lại cao được phát triển trong tám năm qua. Cách tiếp cận xác định này đảm bảo rằng các thay đổi mạng là có thể dự đoán và chính xác. Hiệu quả của phương pháp này được chứng minh qua quy mô hiện tại: Netris đã triển khai tại hơn 35 cụm GPU trên toàn cầu, quản lý khoảng một triệu GPU cho các tên tuổi lớn bao gồm Lightning AI, Foxconn, HPE, Tensorwave và Telus.

Mở rộng quy mô cho tương lai của hạ tầng AI

Với khoản rót vốn 15 triệu USD mới và việc bổ sung đối tác của a16z là Guido Appenzeller vào hội đồng quản trị, Netris có kế hoạch mở rộng mạnh mẽ. Công ty đặt mục tiêu tăng số lượng nhân sự kỹ thuật và bán hàng, hỗ trợ nhiều nhà cung cấp phần cứng hơn và làm sâu sắc thêm các chức năng của các thuật toán tự động hóa cốt lõi. Khi ngành công nghiệp AI chuyển dịch từ các cụm thử nghiệm sang các môi trường sản xuất quy mô lớn, khả năng triển khai mạng "chìa khóa trao tay" (turnkey) sẽ là yếu tố quyết định cho thế hệ nhà cung cấp đám mây tiếp theo.

Các điểm chính cần lưu ý

  • Triển khai nhanh chóng: Netris tự động hóa việc cấu hình phức tạp của các cụm GPU, giúp giảm đáng kể thời gian để các neocloud đi vào hoạt động và bắt đầu tạo ra doanh thu.
  • Mạng tăng tốc bằng phần cứng: Không giống như SDN truyền thống, Netris cung cấp khả năng tăng tốc ở cấp độ phần cứng để xử lý các nhu cầu lưu lượng cực lớn của việc huấn luyện và suy luận AI.
  • Quy mô đã được chứng minh: Nền tảng này đã hoạt động trên khoảng một triệu GPU, phục vụ các đơn vị dẫn đầu ngành như Foxconn, HPE và Lightning AI.