Dlaczego standardowe benchmarki AI systematycznie zaniżają możliwości agentów
Obecne metody ewaluacji AI nie są w stanie uchwycić prawdziwego potencjału modeli typu frontier, często myląc brak budżetu obliczeniowego z brakiem inteligencji. Brytyjski Instytut Bezpieczeństwa AI (AISI) ujawnił, że wydajność agentów AI nie jest stałym wynikiem, lecz krzywą skalowania, która gwałtownie rośnie wraz ze zwiększeniem mocy obliczeniowej wykorzystywanej podczas testów (test-time compute).
Krzywa mocy obliczeniowej i zdolności
Głównym wnioskiem z badań AISI jest to, że współczynnik sukcesu agenta AI jest nierozerwalnie związany z jego „test-time compute” – ilością mocy obliczeniowej i tokenów, z których agent może korzystać podczas wykonywania zadania. Gdy badacze nakładają sztywne limity budżetowe na ewaluacje, mierzą minimalne możliwości modelu, a nie jego maksymalny potencjał.
Zjawisko to jest widoczne w wielu kluczowych obszarach. W zadaniach z zakresu inżynierii oprogramowania, przy użyciu benchmarków takich jak TerminalBench 2.0 i SWE-Bench Pro, współczynnik sukcesu wzrósł o około 25%, gdy budżet tokenów zwiększono z miliona do dziesięciu milionów. Podobnie, w zadaniach matematycznych i akademickich w „Humanity's Last Exam” odnotowano 22-procentowy wzrost, gdy budżet osiągnął pięć milionów tokenów.
Prawo potęgowe czasu wykonywania zadań przez ludzi i AI
Badanie wykazało bezpośrednią korelację między czasem potrzebnym ekspertowi na wykonanie zadania a zużyciem tokenów przez agenta AI. Relacja ta podąża za prawem potęgowym: zadanie, które zajmuje człowiekowi minutę, kosztuje agenta tysiące tokenów, podczas gdy zadanie trwające godzinę kosztuje miliony.
Tworzy to ogromną lukę w obecnych testach. Na przykład zadanie z zakresu cyberbezpieczeństwa „The Last Ones” przeprowadzone przez AISI wymaga około 20 godzin pracy eksperckiej człowieka. Żaden model przetestowany przez instytut nie był w stanie rozwiązać tego zadania przy użyciu mniej niż 30 milionów tokenów. Stosując standardowe ewaluacje o niższym budżecie, badacze w praktyce wykluczają najbardziej złożone i krytyczne zadania z procesu pomiarowego.
Przyspieszający postęp i trzy osie poprawy
AISI zauważa, że „horyzont czasowy” modeli typu frontier – czyli złożoność zadań, jakie mogą one wykonywać – rozszerza się znacznie szybciej, niż wcześniej sądzono. Podczas gdy wcześniejsze szacunki sugerowały, że horyzont czasowy dla zadań cybernetycznych podwaja się co 4,7 miesiąca przy stałym budżecie 2,5 miliona tokenów, tempo to znacząco przyspiesza przy wyższych budżetach. Przy 50 milionach tokenów tempo podwajania przyspiesza do raz na 40–50 dni.
Nowsze modele (takie testowane serie GPT i Claude) wykazują poprawę w trzech konkretnych wymiarach:
- Zasięg: Zdolność do podejmowania coraz trudniejszych zadań.
- Niezawodność: Zdolność do bardziej spójnego rozwiązywania tego samego zadania.
- Efektywność: Zdolność do rozwiązywania zadań przy użyciu mniejszej liczby tokenów.
Implikacje dla bezpieczeństwa i wdrażania AI
Badania te zmieniają paradygmat ewaluacji AI z „stałych wyników” na „krzywe uwzględniające moc obliczeniową”. Dla programistów i założycieli oznacza to, że użyteczność modelu nie jest jedynie funkcją jego trenowania, ale także ilości mocy obliczeniowej przeznaczonej na wnioskowanie (inference compute) podczas wdrażania.
W miarę jak koszt pojedynczego tokena stale spada, zdolności, które wcześniej wydawały się ekonomicznie nieuzasadnione, staną się standardem. W kontekście bezpieczeństwa AI oznacza to, że ryzyka związane z autonomicznymi agentami – takie jak złożone cyberataki – mogą być znacząco niedoszacowane, jeśli regulatorzy i firmy będą polegać na tradycyjnych benchmarkach o niskim budżecie.
Kluczowe wnioski
- Benchmarki wprowadzają w błąd: Sztywne budżety tokenów rejestrują minimalną wydajność modelu, systematycznie zaniżając sufit możliwości, jakie mogą osiągnąć agenci AI.
- Moc obliczeniowa skaluje możliwości: Współczynniki sukcesu w inżynierii oprogramowania i matematyce gwałtownie rosną wraz ze zwiększaniem budżetu mocy obliczeniowej podczas testów.
- Tempo „podwajania” przyspiesza: Przy wyższych budżetach obliczeniowych tempo, w jakim modele typu frontier opanowują złożone zadania, jest znacznie wyższe, niż wcześniej szacowano.
