- ARC-AGI-3 ist der erste interaktive Benchmark für Schlussfolgerungsvermögen zur Messung menschenähnlicher Intelligenz von AI-Agenten und bewertet die Fähigkeiten zur Erkundung von Umgebungen und zum adaptiven Lernen
- Alle Aufgaben bestehen aus für Menschen lösbaren Umgebungen und messen die Effizienz des Kompetenzerwerbs über die Zeit sowie die Fähigkeit zur langfristigen Planung
- Es bietet klare Ziele und Feedback ohne Vorwissen und behält eine neuartige Aufgabenstruktur bei, die auswendiglernende Ansätze verhindert
- Durch Replay-Visualisierung, Developer-Toolkit und Evaluierungs-UI lassen sich Verhalten und Schlussfolgerungsprozess von Agenten transparent überprüfen
- Über öffentlich verfügbare Spielesets, Dokumentation, SDK und Community-Kanäle werden die Teilnahme am ARC Prize 2026 und Tests von Agenten unterstützt
Überblick über ARC-AGI-3
- ARC-AGI-3 wurde als interaktiver Benchmark für Schlussfolgerungsvermögen zur Messung menschenähnlicher Intelligenz von AI-Agenten konzipiert
- Bewertet die Fähigkeit von Agenten, neue Umgebungen zu erkunden, Ziele zu erkennen, ein anpassungsfähiges Weltmodell aufzubauen und kontinuierlich zu lernen
- Eine Punktzahl von 100 % bedeutet, dass eine AI alle Spiele so effizient wie ein Mensch löst
- Statt statischer Rätsel müssen Agenten durch Erfahrungen in der Umgebung lernen und ihre Strategie anpassen
- Ohne natürlichsprachliche Anweisungen müssen Wahrnehmung, Handlungsauswahl und Strategieanpassung erfolgen
Hauptfunktionen
- Enthält reproduzierbare Ausführungen (Runs), ein Developer-Toolkit zur Integration von Agenten und eine transparente Evaluierungs-UI
-
Replay und Bewertung
- Das Verhalten des Agenten kann als Replay visualisiert werden, sodass Entscheidungsfindung, Handlungen und Schlussfolgerungsprozess in zeitlicher Reihenfolge nachvollziehbar sind
- Beispiel-Replay verfügbar
-
Tools und UI
- Über das ARC-AGI-3-Toolkit lassen sich Agenten integrieren, und mit der interaktiven UI sind Tests und Iterationen möglich
- Über den Link Play and test direkt ausführbar
-
Dokumentation
- Bietet Dokumentation für den Bau von Agenten, darunter Umgebungskonfiguration, API-Nutzung und Integrationsleitfäden
- Zugriff über die Dokumentationsseite
Verwandte Materialien und Community
- Public Game Set: Öffentliches Spieleset
- Docs + SDK: Entwicklerdokumentation und SDK
- ARC Prize 2026 Track: Wettbewerbs-Track für 2026
- Technical Paper: Technischer Bericht
- Teilnehmende können verschiedene Spielumgebungen (ar25, bp35, ls20 usw.) auswählen, um ihre eigenen Agenten zu testen
- Offizielle Community-Kanäle werden auf Discord, Twitter, YouTube und GitHub betrieben
- Über den ARC Prize 2026 sind offizielle Wettbewerbe und Updates abonnierbar
1 Kommentare
Hacker-News-Kommentare
In scaling01s Tweet werden mehrere Probleme der Bewertungsmethode von ARC-AGI-3 angesprochen
Der menschliche Referenzwert ist als „zweitschnellster Mensch“ definiert, und die Punktzahl wird nicht als einfache Erfolgsquote berechnet, sondern als quadrierter Effizienzwert
Wenn also ein Mensch ein Problem in 10 Schritten löst und das Modell 100 Schritte braucht, erhält es nur 1 % der Punkte
Außerdem bedeutet 100 % lediglich, dass alle Level gelöst wurden, nicht, dass menschliches Niveau erreicht wurde
Dieses Design sorgt sogar dafür, dass ein Modell selbst auf menschlichem Niveau keine 100 % erreichen kann
Der Prompt ist einfach, und das Modell darf nicht mehr als fünfmal so viele Schritte wie ein Mensch verwenden
Dass spätere Level stärker gewichtet werden, soll außerdem kontinuierliches Lernen erfassen
Bei der Aussage „Solange es eine Lücke zwischen KI- und menschlichem Lernen gibt, ist es keine AGI“ muss ich an die Analogie aus der Deep-Blue-Zeit der 90er denken
So wie „Ein Flugzeug fliegt auch dann, wenn es nicht wie ein Vogel mit den Flügeln schlägt“, wird Intelligenz nicht dadurch negiert, dass auf andere Weise gelernt wird als beim Menschen
Ich halte den ARC-Ansatz für eine ausgezeichnete Methode zur AGI-Bewertung
Menschen und KI erhalten dieselbe Eingabe, und anschließend werden die Ergebnisse verglichen
Das Wort „General“ ist der Kern, und ARC ist genau ein Versuch, diese Allgemeinheit zu messen
Ob KI nützlich ist oder nicht, ist zweitrangig. Dieser Test ist der überzeugendste Versuch, den es bisher gab
Wenn man einer KI außerdem Fragen aus dem eigenen Fachgebiet stellt, sieht man oft, dass sie falsche Antworten gibt. Wir neigen dazu, Wissen und Intelligenz zu verwechseln
Bei solchen Benchmarks frage ich mich immer, ob es überhaupt eine Möglichkeit gibt, OpenAI daran zu hindern, Menschen zum Erstellen des Datensatzes anzuheuern
Nachdem ich mehrere Level selbst ausprobiert habe, wurde mir klar, dass ich definitiv keine AGI bin
Ich bin etwas skeptisch
Wer an Spiele gewöhnt ist, kommt wahrscheinlich auf 100 %, aber eine Großmutter, die zum ersten Mal einen Computer benutzt, würde komplett scheitern. Für LLMs gilt Ähnliches
Letztlich werden Modelle, die auf solchen Spieldaten trainiert wurden, sich leicht anpassen, und das ist keine AGI
Ich habe das Projekt direkt beim YC-Launch-Event gesehen, und es hat mich nach langer Zeit wieder inspiriert
Ich habe auch gehört, dass jemand, der mit ARC2 experimentierte, einen Weg gefunden hat, einen Roboterarm effizienter zu bewegen
Der Prozess, einfach nur die Punktzahl zu steigern, hat also tatsächlich zu Innovationen in der Robotik geführt
ARC-4, 5 und 6 sind ebenfalls geplant, und künftig erwartet man Modelle, die Probleme im Zero-Context lösen
Ich weiß nicht, ob ARC-AGI direkt etwas mit AGI zu tun hat
Letztlich misst es nur die Leistung von LLMs in einer bestimmten Art von Spiel
Es gibt bereits viele Spiele, in denen Computer Menschen weit übertreffen, unabhängig davon, ob Menschen dieses Spiel gut oder schlecht beherrschen
Deshalb ist entscheidend, ob diese Spiele repräsentativ für Intelligenz sind
Ich war ein menschlicher Tester dieses Spiels
Ich habe in 90 Minuten 25 Spiele gelöst, und in den Anweisungen stand zwar, dass man die Zahl der Aktionen minimieren solle, tatsächlich habe ich mich wegen der Geschwindigkeitsprämie (5 $ pro Spiel) aber darauf konzentriert, schnell zu lösen
Deshalb wurden die menschlichen Referenzdaten vermutlich mit mehr Aktionen als eigentlich nötig aufgezeichnet
Am ARC-AGI-Leaderboard gefällt mir am besten die Kosten-Leistungs-Grafik
Die jüngsten Fortschritte bei KI-Leistung gehen meist mit steigendem Stromverbrauch einher. Letztlich gilt: Wer mehr Strom einsetzt, bekommt bessere Ergebnisse