General Intuition pozyskuje 320 mln USD, aby przekształcić dane z gier wideo w AI do świata rzeczywistego
General Intuition stawia na to, że klucz do inteligencji fizycznej kryje się w milionach godzin nagrań z gier wideo, zarejestrowanych przez graczy. Wykorzystując wysokiej jakości dane o akcjach z rozgrywek, startup dąży do budowy modeli agentowych, które będą mogły płynnie przechodzić ze środowisk wirtualnych, takich jak Fortnite, do fizycznych robotów czworonożnych.
Przewaga etykiet akcji nad samym wideo
W przeciwieństwie do wielu konkurentów, którzy próbują trenować agentów AI poprzez samo obserwowanie wideo, General Intuition wykorzystuje autorską przewagę odziedziczoną po swoim poprzedniku, firmie Medal. Podczas gdy większość modeli próbuje wnioskować o ruchach wyłącznie na podstawie pikseli, General Intuition korzysta z „etykiet akcji” (action labels) – dokładnych naciśnięć przycisków i znaczników czasu zarejestrowanych wraz z klipami z rozgrywki.
To rozróżnienie jest kluczowe dla rozwoju rozumowania czasoprzestrzennego. Wiedząc dokładnie, jak ludzkie polecenie skutkuje konkretnym ruchem w przestrzeni 3D, model uczy się przyczynowości: w jaki sposób dana akcja wpływa na otoczenie. CEO Pim de Witte argumentuje, że pozwala to modelowi odróżnić „siebie” od „otoczenia”, co jest fundamentalnym wymogiem dla każdego agenta przeznaczonego do działania w świecie fizycznym.
Od symulacji w Fortnite do ucieleśnienia w robotach
Architektura techniczna firmy opiera się na „modelu świata” (world model), który funkcjonuje jako wewnętrzna siłownia treningowa. Zamiast polegać na tradycyjnych silnikach gier, model generuje środowiska klatka po klatce, co pozwala agentom uczyć się rzeczywistości opartej na fizyce – takiej jak stałość ścian czy ruch cieni – poprzez samą powtarzalność.
Praktyczne zastosowanie tego treningu jest już widoczne w ich demonstracjach sprzętowych. Firmie udało się z sukcesem przenieść ten sam „mózg”, który służy do nawigacji w wirtualnych krajobrazach, do dużego robota czworonożnego. Co zdumiewające, zespół poinformował, że wystarczyło zaledwie osiem minut danych z rzeczywistej robotyki, zebranych na ulicach, aby dostroić model do fizycznej nawigacji robota. Sugeruje to, że najtrudniejsza praca nad inteligencją odbywa się w symulacji, co sprawia, że wdrożenie w świecie rzeczywistym jest znacznie szybsze i tańsze.
Gigantyczna wycena na poziomie 2,3 miliarda dolarów
Skala tych ambicji znajduje odzwierciedlenie w niedawnym finansowaniu firmy. General Intuition pozyskało 320 mln USD w rundzie prowadzonej przez Khosla Ventures, co podniosło całkowitą wycenę spółki do 2,3 mld USD. Grupa inwestorów to potęga świata technologii, w tym Jeff Bezos, Eric Schmidt oraz badacze z Google DeepMind i MIT.
Kapitał został przeznaczony na dwa główne cele:
- Skalowanie mocy obliczeniowej: Dzięki partnerstwu z CoreWeave firma skupi się na wstępnym trenowaniu (pre-training) kolejnej generacji swojego modelu.
- Dostępność API: Część funduszy zostanie wykorzystana do uruchomienia szerszego API, co potencjalnie pozwoli programistom korzystać z ich modeli agentowych do końca lata.
W miarę jak branża wykracza poza erę zdominowaną przez tekstowe Duże Modele Językowe (LLM), General Intuition pozycjonuje się na czele „modeli świata” – AI, która nie tylko mówi o świecie, ale rozumie, jak się w nim poruszać.
Kluczowe wnioski
- Trening oparty na akcjach: Dzięki wykorzystaniu ludzkich „etykiet akcji” z rozgrywki, a nie tylko samego wideo, model uczy się przyczynowości i rozumowania przestrzennego znacznie skuteczniej niż podejścia oparte wyłącznie na wideo.
- Skalowalna symulacja: Startup wykorzystuje gry wideo jako „siłownię” do trenowania agentów, co drastycznie zmniejsza ilość kosztownych danych ze świata rzeczywistego potrzebnych do sterowania fizycznymi robotami.
- Strategiczne wsparcie: Przy wycenie 2,3 mld USD i wsparciu takich gigantów jak Khosla Ventures i Jeff Bezos, firma jest pozycjonowana jako fundament dla uogólnionych agentów AI.
