Kłamstwo benchmarków LLM

Wyniki w rankingach często cię oszukują.

W zeszłym miesiącu testowałem modele pod kątem potoku agentowego (agentic pipeline). Wybrałem najlepszy model z popularnego rankingu. Wdrożyłem go. Natychmiast poległ na podstawowych zadaniach związanych z użyciem narzędzi.

Wynik był prawdziwy. Ale był on również bezużyteczny dla moich potrzeb.

Większość publicznych benchmarków testuje modele w izolacji. W środowisku produkcyjnym uruchamiasz agentów. Ci agenci wywołują narzędzia, przeszukują sieć i wykonują kod. Standardowe benchmarki tego nie mierzą.

Dane z raportu LXT z lutego 2026 roku pokazują ogromną lukę, gdy dostęp do narzędzi jest włączony:

• Claude Opus 4.6: 53,1% • GPT-5.3 Codex: 36% • GLM-5: 32%

Bez dostępu do narzędzi te wyniki spadają. Luka między wynikami z pomocą narzędzi a wynikami bez nich to jedyna metryka, która ma znaczenie dla agentów.

BenchLM.ai to potwierdza. Modele, które wygrywają w quizach lub testach statycznych, takich jak MMLU, często zawodzą przy napisaniu nawet jednego wywołania funkcji.

Jeśli potrzebujesz napisania e-maila, standardowy benchmark wystarczy. Jeśli budujesz agenta, skup się na tych trzech rzeczach:

  1. Niezawodność wywoływania narzędzi. Czy model potrafi poprawnie formatować wywołania pod presją? Czy potrafi podnieść się po błędach?

  2. Koszty okna kontekstowego. Korzystanie z serwerów MCP wiąże się z znacznie większym zużyciem tokenów. Duże okno kontekstowe jest obciążeniem, jeśli zużywasz mnóstwo tokenów przy każdym wywołaniu narzędzia.

  3. Precyzja planowania. Czy model potrafi postępować zgodnie z 5-stopniowym planem? Większość modeli gubi wątek już przy trzecim kroku.

Przestań traktować publiczne rankingi jako jedyny drogowskaz. Zrób to zamiast tego:

• Przeprowadź mini-benchmark. Wykorzystaj od 20 do 50 rzeczywistych wywołań narzędzi z własnych logów. Zmierz dokładność na podstawie swojego własnego schematu.

• Testuj warunki błędów. Sprawdź, jak model zachowuje się, gdy narzędzie zwraca pusty wynik lub błąd.

• Mierz koszt na zadanie. Model, który jest o 5% lepszy, ale 3-krotnie droższy, to często zły wybór.

• Korzystaj ze specjalistycznych rankingów. Szukaj wyników dotyczących użycia narzędzi konkretnie na LLM-stats.com lub BenchLM.ai.

Poświęć jedno popołudnie na testowanie własnych danych. Zaoszczędzi Ci to tydzień debugowania modelu, który dobrze wyglądał tylko na papierze.

Jak Ty oceniasz swoje modele? Daj mi znać w komentarzach.

Źródło: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-3neo

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi