Kłamstwo benchmarków LLM
Wyniki w rankingach często cię oszukują.
W zeszłym miesiącu testowałem modele pod kątem potoku agentowego (agentic pipeline). Wybrałem najlepszy model z popularnego rankingu. Wdrożyłem go. Natychmiast poległ na podstawowych zadaniach związanych z użyciem narzędzi.
Wynik był prawdziwy. Ale był on również bezużyteczny dla moich potrzeb.
Większość publicznych benchmarków testuje modele w izolacji. W środowisku produkcyjnym uruchamiasz agentów. Ci agenci wywołują narzędzia, przeszukują sieć i wykonują kod. Standardowe benchmarki tego nie mierzą.
Dane z raportu LXT z lutego 2026 roku pokazują ogromną lukę, gdy dostęp do narzędzi jest włączony:
• Claude Opus 4.6: 53,1% • GPT-5.3 Codex: 36% • GLM-5: 32%
Bez dostępu do narzędzi te wyniki spadają. Luka między wynikami z pomocą narzędzi a wynikami bez nich to jedyna metryka, która ma znaczenie dla agentów.
BenchLM.ai to potwierdza. Modele, które wygrywają w quizach lub testach statycznych, takich jak MMLU, często zawodzą przy napisaniu nawet jednego wywołania funkcji.
Jeśli potrzebujesz napisania e-maila, standardowy benchmark wystarczy. Jeśli budujesz agenta, skup się na tych trzech rzeczach:
Niezawodność wywoływania narzędzi. Czy model potrafi poprawnie formatować wywołania pod presją? Czy potrafi podnieść się po błędach?
Koszty okna kontekstowego. Korzystanie z serwerów MCP wiąże się z znacznie większym zużyciem tokenów. Duże okno kontekstowe jest obciążeniem, jeśli zużywasz mnóstwo tokenów przy każdym wywołaniu narzędzia.
Precyzja planowania. Czy model potrafi postępować zgodnie z 5-stopniowym planem? Większość modeli gubi wątek już przy trzecim kroku.
Przestań traktować publiczne rankingi jako jedyny drogowskaz. Zrób to zamiast tego:
• Przeprowadź mini-benchmark. Wykorzystaj od 20 do 50 rzeczywistych wywołań narzędzi z własnych logów. Zmierz dokładność na podstawie swojego własnego schematu.
• Testuj warunki błędów. Sprawdź, jak model zachowuje się, gdy narzędzie zwraca pusty wynik lub błąd.
• Mierz koszt na zadanie. Model, który jest o 5% lepszy, ale 3-krotnie droższy, to często zły wybór.
• Korzystaj ze specjalistycznych rankingów. Szukaj wyników dotyczących użycia narzędzi konkretnie na LLM-stats.com lub BenchLM.ai.
Poświęć jedno popołudnie na testowanie własnych danych. Zaoszczędzi Ci to tydzień debugowania modelu, który dobrze wyglądał tylko na papierze.
Jak Ty oceniasz swoje modele? Daj mi znać w komentarzach.
Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi