AGI: Sind wir schon so weit?
Wir haben AGI noch nicht erreicht.
Vor einem Jahr habe ich gefragt, ob wir die Künstliche Allgemeine Intelligenz (AGI) bereits erreicht haben. Zu diesem Zeitpunkt erreichte OpenAIs o3-Modell einen wichtigen Meilenstein im ARC-AGI-1-Benchmark. Es zeigte einen echten Sprung im Reasoning.
Aber ich argumentierte damals, dass dies nur ein Zwischenstopp und nicht das Ziel sei.
Ich hatte recht.
Die heutige Geschichte handelt nicht davon, dass AGI eintrifft. Die Geschichte ist interessanter. Wir sind über einfache Chatbots hinausgewachsen. Wir befinden uns nun in der Ära von Frontier-Reasoning und Agenten-Systemen.
Hier ist der aktuelle Stand des Feldes:
• Modelle sind wesentlich besser im Reasoning und Coding. • Sie nutzen Werkzeuge und verarbeiten lange Kontexte effektiver. • Sie können multimodale Eingaben wie Bilder und Audio verarbeiten. • Sie sind wirtschaftlich nützlicher als je zuvor.
Aber ihnen fehlt noch die menschenähnliche Allgemeingültigkeit.
Die Benchmarks erzählen die wahre Geschichte. Während alte Tests wie MMLU gesättigt sind, zeigen neue Tests die Lücken auf.
• ARC-AGI-1 war ein Durchbruch für das Reasoning. • ARC-AGI-2 zeigt, dass Neuartigkeit und Komposition immer noch sehr schwierig sind. • ARC-AGI-3 bewegt sich in interaktive Umgebungen, in denen Modelle Schwierigkeiten haben, sich anzupassen.
Wir sehen auch eine Verschiebung in der Art und Weise, wie Modelle skalieren. Es geht nicht mehr nur um mehr Daten. Skalierung erfolgt nun durch:
- Pretraining-Skalierung.
- Post-Training und Reinforcement Learning.
- Reasoning zur Inferenzzeit und Werkzeugnutzung.
Ein Modell, das innehalten, Code ausführen und einen Plan überarbeiten kann, unterscheidet sich von einem Modell, das lediglich das nächste Wort vorhersagt. Dies ist der Aufstieg agentischer Systeme.
Es bleibt jedoch eine große Lücke: Zuverlässigkeit.
Die Forschung von METR zeigt, dass der Zeithorizont für die zuverlässige Aufgabenerfüllung wächst. Er verdoppelt sich alle paar Monate. Aber ein Zeithorizont von 50 Minuten entspricht keinem vollen Arbeitstag. Es ist keine Woche autonomer Forschung.
Wir haben uns von „Modellen, die antworten“ hin zu „Modellen, die mit Werkzeugen denken (reasoning)“ bewegt.
Wir bauen hochfähige Systeme. Aber diese Systeme sind oft breit aufgestellt, aber dennoch fragil. Sie können Mathematik auf Master-Niveau lösen, scheitern aber an einfachen, neuartigen Rätseln.
Die ehrliche Position ist diese:
Wir haben AGI noch nicht erreicht. Aber wir sind einer wirtschaftlich disruptiven Entwicklung viel näher, als die meisten Menschen erwartet haben.
Wir bauen universelle Reasoning-Systeme. Sie wirken schockierend intelligent, scheitern aber dennoch auf eine Weise, die beweist, dass ihnen die wahre menschliche Anpassungsfähigkeit fehlt.
Der Meilenstein war real. Der Hype war zu groß. Die eigentliche Arbeit besteht nun darin, Robustheit und Autonomie aufzubauen.
Quelle: https://dev.to/ernestohs/agi-are-we-there-yet-a-follow-up-1471
Optionale Lern-Community: https://t.me/GyaanSetuAi
