CEO Snowflake: GLM-5.2 dorównuje Claude Opus 4.7 za ułamek ceny

Niedawny test benchmarkowy przeprowadzony przez Snowflake wywołał poruszenie w branży AI, wykazując, że chiński model GLM-5.2 może konkurować z czołowymi zachodnimi modelami w specjalistycznych zadaniach programistycznych. Choć Claude Opus 4.7 utrzymuje przewagę techniczną, ogromna dysproporcja cenowa sugeruje nadchodzącą zmianę w ekonomice dużych modeli językowych (LLM).

Benchmark: Porównywalność w kodowaniu w złożonych środowiskach

CEO Snowflake, Sridhar Ramaswamy, przeprowadził rygorystyczny test obejmujący 103 odrębne zadania, zaprojektowane w celu oceny generowania kodu zarówno w środowisku DuckDB, jak i Snowflake. Wyniki okazały się zaskakująco zbliżone: przy trzech próbach na każde zadanie, GLM-5.2 rozwiązał 66% zadań, ustępując jedynie nieznacznie modelowi Claude Opus 4.7, który osiągnął 67% skuteczności.

Jednak niuanse wydajności ujawniają różnice w niezawodności. Opus 4.7 wykazał się wyższą spójnością, osiągając 53,7% dokładności przy pierwszej próbie, w porównaniu do 47,6% dla GLM-5.2. Chiński model wykazywał również tendencję do „nadmiernego myślenia” lub zapętlania się w niepotrzebnych procesach. W jednym znaczącym przypadku GLM-5.2 wykonał 411 wywołań narzędzi w ciągu 24 minut — sprawdzając liczbę wierszy, rozkłady i wartości null — a mimo to zawiódł we wszystkich trzech próbach. W przeciwieństwie do niego, Opus 4.7 rozwiązał to samo zadanie w zaledwie 9 minut, wykonując tylko 49 wywołań.

Ekonomia AI: Presja cenowa ze strony Chin

Choć Opus 4.7 jest modelem bardziej wydajnym i spójnym, prawdziwa historia kryje się w ekonomice jednostkowej. Różnica w kosztach między zachodnimi modelami flagowymi a GLM-5.2 jest oszałamiająca i może fundamentalnie zmienić obliczenia ROI dla wdrożeń AI w przedsiębiorstwach.

Zgodnie z oficjalnym cennikiem Zhipu, GLM-5.2 kosztuje 1,40 USD za milion tokenów wejściowych i 4,40 USD za milion tokenów wyjściowych. Aby to zobrazować:

  • Claude Opus 4.7: 5,00 USD (Input) / 25,00 USD (Output)
  • GPT-5.5: 5,00 USD (Input) / 30,00 USD (Output)

Mimo że GLM-5.2 jest bardziej „tokenożerny” — średnio wykonuje 99 przebiegów na zadanie w porównaniu do 80 w przypadku Opus i zużywa 860 milionów tokenów w zestawieniu z 439 milionami u Opus — pozostaje znacznie bardziej przystępny cenowo. Ten model cenowy stanowi bezpośrednie wyzwanie dla strategii wysokomarżowych stosowanych obecnie przez OpenAI i Anthropic.

Dlaczego ma to znaczenie dla krajobrazu AI

Pojawienie się wysoce zdolnych, niskokosztowych modeli, takich jak GLM-5.2, działa jak test obciążeniowy dla „bańki AI”. Ogromne wyceny zachodnich laboratoriów AI op