Warum sich Groq wie Schummeln anfühlt
Ich habe vor Kurzem eine Multi-Agenten-Pipeline mit LangGraph gebaut. Ich habe Groq mit Standard-LLM-Anbietern verglichen. Der Unterschied war gewaltig.
Andere Anbieter fühlen sich wie ein normaler API-Aufruf an. Man sendet eine Anfrage und wartet auf den Text. Groq fühlt sich wie Schummeln an. Ein 70B-Modell lieferte eine vollständige Antwort, noch bevor ich meinen eigenen Prompt zu Ende gelesen hatte.
Die meisten Menschen nehmen an, dass Groq bessere GPUs besitzt. Das ist falsch. Groq nutzt überhaupt keine GPUs. Sie haben einen neuen Chip namens LPU, oder Language Processing Unit, entwickelt.
GPUs wurden für Grafiken und das Training von Modellen entwickelt. Sie funktionieren gut, wenn man massive Datenpakete verarbeitet. Aber sie haben Schwierigkeiten bei der Echtzeit-Inferenz.
Das Problem ist die „Memory Wall“. In einer GPU liegen die Modellgewichte in einem Speicher, der von den Rechenkernen getrennt ist. Der Chip verbringt zu viel Zeit damit, darauf zu warten, dass die Daten eintreffen.
Groq hat dies gelöst, indem sie den Speicher direkt auf den Chip gelegt haben. Sie verwenden SRAM anstelle von HBM. Dies schafft eine zehnmal höhere Bandbreite. Wenn man die Latenz mit einbezieht, macht es den Datenzugriff zudem 20-mal schneller.
Es gibt noch einen weiteren Grund für die Geschwindigkeit: Determinismus.
GPUs nutzen dynamisches Scheduling. Der Chip entscheidet während des Betriebs, was zu tun ist. Dies verursacht winzige Verzögerungen. Groq verfolgt einen Software-First-Ansatz. Ihr Compiler berechnet jede einzelne Operation und jeden Befehl im Voraus. Der Chip folgt einem vordefinierten Zeitplan. Er muss nicht darüber nachdenken, was als Nächstes zu tun ist.
Die Ergebnisse sprechen für sich selbst: • Llama 2 70B läuft mit 300 Token pro Sekunde auf Groq. • Eine Nvidia H100 lässt es mit 30–40 Token pro Sekunde laufen. • Llama 3 8B erreicht über 1.300 Token pro Sekunde auf Groq.
Groq ist zudem effizienter. Es verbraucht insgesamt weniger Energie pro Token, weil es die Arbeit so viel schneller erledigt.
Dieses Design hat Kompromisse zur Folge. SRAM ist teuer und nimmt viel physischen Platz ein. Ein einzelner Chip kann kein riesiges Modell halten. Man benötigt hunderte von LPUs, die zusammenarbeiten, um große Modelle bereitzustellen. Das macht die Hardware teurer als GPUs.
Groq versucht nicht, Modelle zu trainieren. Sie konzentrieren sich darauf, bestehende Modelle wie Llama oder Mixtral so schnell wie möglich auszuführen.
Die Branche bewegt sich in Richtung einer kombinierten Nutzung. GPUs übernehmen das schwere Training und die initiale Verarbeitung. LPUs übernehmen die schnelle Echtzeit-Konversation.
Nvidia hat auf die gesamte Rechenleistung optimiert. Groq hat darauf optimiert, sicherzustellen, dass die Rechenleistung niemals auf Daten warten muss. Für KI-Agenten in Echtzeit ist das zweite Ziel entscheidend.
Quelle: https://dev.to/priyanshu79/why-groq-feels-like-cheating-29hm
Optionale Lern-Community: https://t.me/GyaanSetuAi
