Trí tuệ Quỹ đạo: Cách các VLM đang thay đổi khả năng tự chủ của vệ tinh

Kỷ nguyên quan sát Trái đất thụ động đang dần khép lại khi các vệ tinh chuyển mình từ những cảm biến đơn thuần thành các tác nhân thông minh. Trong một cột mốc mang tính đột phá, một tàu vũ trụ đã sử dụng thành công mô hình thị giác-ngôn ngữ (VLM) ngay trên quỹ đạo để nhận diện các đối tượng và môi trường phức tạp mà không cần sự can thiệp của con người.

Bình minh của các Mô hình Thị giác-Ngôn ngữ trên Quỹ đạo

Trong lịch sử, các hoạt động vệ tinh thường tuân theo một quy trình tuyến tính và tiêu tốn nhiều dữ liệu: tàu vũ trụ thu thập lượng lớn hình ảnh thô, truyền về Trái đất và chờ đợi các nhà phân tích con người hoặc các thuật toán chuyên dụng giải mã kết quả. Quy trình này thường gặp trở ngại bởi tình trạng nghẽn băng thông và độ trễ đáng kể.

Mô hình đó đã thay đổi với tàu vũ trụ Yam-9, được chế tạo bởi nhà cung cấp hạ tầng không gian Loft Orbital. Được vận hành bởi gói phần mềm mang tên NAVI-Orbital — do Phòng Thí nghiệm Phản lực (JPL) của NASA phát triển — vệ tinh này đã triển khai thành công mô hình Gemma 3 VLM của Google DeepMind. Khác với các mô hình truyền thống, Gemma 3 được xây dựng chuyên biệt cho các ứng dụng "edge" (tại biên), nghĩa là nó được tối ưu hóa để chạy trên các phần cứng hạn chế trong không gian thay vì các trung tâm dữ liệu khổng lồ trên mặt đất.

Bằng cách kết hợp khả năng lập luận theo ngữ cảnh của các Mô hình Ngôn ngữ Lớn (LLM) với xử lý thị giác, Yam-9 đã có thể phản hồi các truy vấn bằng ngôn ngữ tự nhiên. Các nhà nghiên cứu đã giao cho mô hình thành công các nhiệm vụ phân loại phức tạp, chẳng hạn như xác định điểm giao thoa giữa môi trường tự nhiên và sự phát triển của con người, hoặc định vị các cơ sở hạ tầng cụ thể xung quanh các đầu mối đường sắt.

Tính toán tại Biên trong Môi trường Khắc nghiệt của Không gian

Việc vận hành AI tinh vi trên quỹ đạo đòi hỏi phần cứng chuyên dụng có khả năng sống sót trong các điều kiện khắc nghiệt, đồng thời phải quản lý các giới hạn nghiêm ngặt về năng lượng và bộ nhớ. Yam-9 đóng vai trò là người tiên phong cho thực tế mới này, được trang bị GPU Nvidia Jetson Orin AGX — một trong những con chip hàng đầu của ngành dành cho tính toán dựa trên không gian.

Thách thức kỹ thuật không chỉ dừng lại ở phần cứng. Trưởng nhóm kỹ thuật tại NASA JPL, Juan Delfa Victoria, lưu ý rằng mặc dù Gemma 3 là một mô hình "có sẵn" (off-the-shelf), các kỹ sư vẫn phải tinh giản mạnh mẽ khung phần mềm NAVI-Orbital để giảm mức chiếm dụng bộ nhớ và các phụ thuộc thư viện. Sự tối ưu hóa này là cực kỳ quan trọng đối với "edge AI", nơi mà mỗi byte RAM và mỗi milliwatt điện năng đều vô cùng quý giá.

Những tác động đối với ngành công nghiệp là vô cùng lớn. Các công ty như Planet Labs đã và đang sử dụng bộ xử lý Jetson Orin cho việc phát hiện đối tượng đơn giản hơn, trong khi Kepler Communications vận hành nhóm GPU lớn nhất trong không gian. Thành công của Yam-9 chứng minh rằng "hướng đi" của toàn bộ lĩnh vực này là hướng tới các chòm sao vệ tinh tự hành và thông minh.

Từ phân loại dữ liệu đến trợ lý kỹ thuật số cho các phi hành gia

Giá trị tức thời của các VLM quỹ đạo nằm ở việc phân loại dữ liệu. Bằng cách thực hiện phân tích ban đầu ngay trên quỹ đạo, các vệ tinh có thể lọc bỏ các dữ liệu không liên quan và chỉ truyền đi các "khu vực được quan tâm", giúp giảm đáng kể lượng dữ liệu thô khổng lồ mà các nhà phân tích phải xử lý. Điều này cho phép thiết lập các lớp tuần tra "luôn trực chiến", nơi người dùng chỉ cần ra lệnh cho vệ tinh "giám sát biên giới này và cảnh báo cho tôi nếu có bất kỳ điều gì khả nghi xuất hiện".

Bên cạnh việc quan sát Trái Đất, công nghệ này còn có những tác động sâu sắc đến việc thám hiểm không gian sâu. Khái niệm về NAVI-Space bắt nguồn từ nhu cầu về các trợ lý kỹ thuật số tương tác dành cho các phi hành gia trên Mặt Trăng hoặc Sao Hỏa. Trong môi trường mà các phi hành gia phải mặc bộ đồ áp suất và không thể sử dụng bàn phím, một trợ lý được hỗ trợ bởi VLM có thể đóng vai trò là giao diện tương tác, điều khiển bằng giọng nói cho các nhiệm vụ phức tạp.

Các điểm chính cần lưu ý

  • Khả năng suy luận tự hành: Việc triển khai Gemma 3 của Google DeepMind trên Yam-9 đánh dấu lần đầu tiên một mô hình ngôn ngữ-thị giác sử dụng ngôn ngữ tự nhiên để phân loại hình ảnh quỹ đạo một cách tự hành.
  • Hiệu quả AI tại biên: Thành công phụ thuộc vào các phần cứng chuyên dụng như Nvidia Jetson Orin AGX và các khung phần mềm được tối ưu hóa cao (NAVI-Orbital) để quản lý năng lượng và bộ nhớ hạn chế.
  • Sự chuyển dịch trong mô hình kinh doanh: Các công ty không gian đang chuyển đổi từ những nhà cung cấp dữ liệu đơn thuần sang mô hình "hạ tầng dưới dạng dịch vụ" (infrastructure-as-a-service), cho phép giám sát thông minh và theo thời gian thực Trái Đất và xa hơn nữa.