ARC-AGI-3 – der erste interaktive Benchmark für Schlussfolgerungsvermögen

(arcprize.org)

1 Punkte von GN⁺ 2026-03-27 | 1 Kommentare | Auf WhatsApp teilen

ARC-AGI-3 ist der erste interaktive Benchmark für Schlussfolgerungsvermögen zur Messung menschenähnlicher Intelligenz von AI-Agenten und bewertet die Fähigkeiten zur Erkundung von Umgebungen und zum adaptiven Lernen
Alle Aufgaben bestehen aus für Menschen lösbaren Umgebungen und messen die Effizienz des Kompetenzerwerbs über die Zeit sowie die Fähigkeit zur langfristigen Planung
Es bietet klare Ziele und Feedback ohne Vorwissen und behält eine neuartige Aufgabenstruktur bei, die auswendiglernende Ansätze verhindert
Durch Replay-Visualisierung, Developer-Toolkit und Evaluierungs-UI lassen sich Verhalten und Schlussfolgerungsprozess von Agenten transparent überprüfen
Über öffentlich verfügbare Spielesets, Dokumentation, SDK und Community-Kanäle werden die Teilnahme am ARC Prize 2026 und Tests von Agenten unterstützt

Überblick über ARC-AGI-3

ARC-AGI-3 wurde als interaktiver Benchmark für Schlussfolgerungsvermögen zur Messung menschenähnlicher Intelligenz von AI-Agenten konzipiert
- Bewertet die Fähigkeit von Agenten, neue Umgebungen zu erkunden, Ziele zu erkennen, ein anpassungsfähiges Weltmodell aufzubauen und kontinuierlich zu lernen
- Eine Punktzahl von 100 % bedeutet, dass eine AI alle Spiele so effizient wie ein Mensch löst
- Statt statischer Rätsel müssen Agenten durch Erfahrungen in der Umgebung lernen und ihre Strategie anpassen
- Ohne natürlichsprachliche Anweisungen müssen Wahrnehmung, Handlungsauswahl und Strategieanpassung erfolgen

Hauptfunktionen

Enthält reproduzierbare Ausführungen (Runs), ein Developer-Toolkit zur Integration von Agenten und eine transparente Evaluierungs-UI
Replay und Bewertung
- Das Verhalten des Agenten kann als Replay visualisiert werden, sodass Entscheidungsfindung, Handlungen und Schlussfolgerungsprozess in zeitlicher Reihenfolge nachvollziehbar sind
- Beispiel-Replay verfügbar
Tools und UI
- Über das ARC-AGI-3-Toolkit lassen sich Agenten integrieren, und mit der interaktiven UI sind Tests und Iterationen möglich
- Über den Link Play and test direkt ausführbar
Dokumentation
- Bietet Dokumentation für den Bau von Agenten, darunter Umgebungskonfiguration, API-Nutzung und Integrationsleitfäden
- Zugriff über die Dokumentationsseite

1 Kommentare

GN⁺ 2026-03-27

Hacker-News-Kommentare

In scaling01s Tweet werden mehrere Probleme der Bewertungsmethode von ARC-AGI-3 angesprochen
Der menschliche Referenzwert ist als „zweitschnellster Mensch“ definiert, und die Punktzahl wird nicht als einfache Erfolgsquote berechnet, sondern als quadrierter Effizienzwert
Wenn also ein Mensch ein Problem in 10 Schritten löst und das Modell 100 Schritte braucht, erhält es nur 1 % der Punkte
Außerdem bedeutet 100 % lediglich, dass alle Level gelöst wurden, nicht, dass menschliches Niveau erreicht wurde
Dieses Design sorgt sogar dafür, dass ein Modell selbst auf menschlichem Niveau keine 100 % erreichen kann
Der Prompt ist einfach, und das Modell darf nicht mehr als fünfmal so viele Schritte wie ein Mensch verwenden
Dass spätere Level stärker gewichtet werden, soll außerdem kontinuierliches Lernen erfassen
- Das wirkt weniger wie ein Problem als vielmehr wie der richtige Ansatz. Mein Eindruck von ARC-AGI ist dadurch eher besser geworden
- Dass der Prompt einfach ist, ist etwas, das im Kaggle-Wettbewerb gelöst werden kann. Wenn man ein aktuelles LLM anschließt, wird es deutlich besser abschneiden als Teilnehmer mit GPU-Beschränkungen
- Die Definition des menschlichen Referenzwerts kann ohnehin nur willkürlich sein. Der „durchschnittliche Mensch“ ist schließlich entweder Analphabet oder bereits tot
- Eigentlich ist dieses Design vernünftig. Zu den oberen 80 % zu gehören ist für die meisten Menschen leicht, und selbst über 95 % zu kommen ist mit genügend Motivation möglich
- Im Gegenteil: Dieser Ansatz macht den Test für LLMs deutlich schwieriger, wodurch die aktuellen Punktzahlen noch beeindruckender wirken
Bei der Aussage „Solange es eine Lücke zwischen KI- und menschlichem Lernen gibt, ist es keine AGI“ muss ich an die Analogie aus der Deep-Blue-Zeit der 90er denken
So wie „Ein Flugzeug fliegt auch dann, wenn es nicht wie ein Vogel mit den Flügeln schlägt“, wird Intelligenz nicht dadurch negiert, dass auf andere Weise gelernt wird als beim Menschen
- Diese Lücke ist nicht nur eine philosophische Frage, sondern eine Frage der ökonomischen Auswirkungen. Wenn die Lücke auf null sinkt, wird menschliche Wissensarbeit vollständig ersetzt. Selbst ohne vollständige AGI könnte die Wirtschaft kollabieren
- Mich erinnert das an Dijkstras Text (EWD867). Die Analogie lautet, dass „Können Computer denken?“ ungefähr so sinnvoll ist wie „Kann ein U-Boot schwimmen?“
- Das „G“ in AGI steht für General, aber Menschen sind ebenfalls nicht allgemein in allem. Flugzeuge sind nicht vielseitiger als Vögel, erweitern aber unsere Mobilität
- Für mich ist die AGI-Debatte längst vorbei. Schon die heutigen Werkzeuge sind ausreichend nützlich, und es gibt bereits Anzeichen von ASI (selbstverbessernder Intelligenz). Der ARC-AGI-Wettbewerb ist nur ein interessantes Experiment zur Vermessung des aktuellen Stands
- Intelligenz existiert nicht nur in menschenähnlicher Form. Entscheidend ist die Nützlichkeit des Outputs. Ob Bewusstsein vorliegt, ist dagegen eine moralische Frage; da es sich nicht beweisen lässt, sollte man vorerst davon ausgehen, dass Bewusstsein vorhanden ist
Ich halte den ARC-Ansatz für eine ausgezeichnete Methode zur AGI-Bewertung
Menschen und KI erhalten dieselbe Eingabe, und anschließend werden die Ergebnisse verglichen
Das Wort „General“ ist der Kern, und ARC ist genau ein Versuch, diese Allgemeinheit zu messen
Ob KI nützlich ist oder nicht, ist zweitrangig. Dieser Test ist der überzeugendste Versuch, den es bisher gab
Wenn man einer KI außerdem Fragen aus dem eigenen Fachgebiet stellt, sieht man oft, dass sie falsche Antworten gibt. Wir neigen dazu, Wissen und Intelligenz zu verwechseln
- Ich halte den Ausdruck „General“ für falsch. Menschen sind ebenfalls nicht allgemein in allem und haben stark ungleichmäßige Fähigkeiten. Bei Sprache haben LLMs den Menschen bereits übertroffen
- Dieser Test ist ein Spiel, das visuelle Wahrnehmung erfordert, also ähnlich, als würde man einem Blinden eine Fahrprüfung abnehmen. Würde man das Spiel in Text umwandeln, könnten LLMs besser abschneiden als Menschen
- Das frühere ARC-AGI war wie ein IQ-Test, aber diese Version ist zu einfach. Dass LLMs es nicht lösen, könnte schlicht an einem Missverhältnis im Eingabeformat liegen. Schon mit Training an textbasierten Spielen dürfte das bald lösbar sein
Bei solchen Benchmarks frage ich mich immer, ob es überhaupt eine Möglichkeit gibt, OpenAI daran zu hindern, Menschen zum Erstellen des Datensatzes anzuheuern
- Die wichtige Frage ist nicht das, sondern: Kann das Modell generalisieren? ARC-AGI scheint darauf ausgelegt zu sein, visuelle Langkontext-Problemlösung und Agency zu bewerten
Nachdem ich mehrere Level selbst ausprobiert habe, wurde mir klar, dass ich definitiv keine AGI bin
- Man sollte es NGI nennen, also Natural General Intelligence
- KI kann allerdings auf das gesamte Internet zugreifen, hat kein Zeitlimit und muss sich auch nicht schämen, unzählige falsche Antworten einzureichen. Unter solchen Bedingungen ist das mit einer menschlichen Prüfung überhaupt nicht vergleichbar
- Ich habe auch den Witz gehört: „Danke, dass ihr die AGI-Messlatte gesenkt habt“
Ich bin etwas skeptisch
Wer an Spiele gewöhnt ist, kommt wahrscheinlich auf 100 %, aber eine Großmutter, die zum ersten Mal einen Computer benutzt, würde komplett scheitern. Für LLMs gilt Ähnliches
Letztlich werden Modelle, die auf solchen Spieldaten trainiert wurden, sich leicht anpassen, und das ist keine AGI
- Aber auch Menschen werden durch Lernen gut in solchen Spielen; solange Online-Lernen nicht erlaubt ist, bildet dieser Test menschliches Lernen nicht wirklich ab
- Ich selbst bin seit 40 Jahren Gamer, und diese Rätsel waren viel zu leicht. Sobald man die Regeln verstanden hat, löst man sie sofort. Solche Aufgaben sind mein Spezialgebiet
Ich habe das Projekt direkt beim YC-Launch-Event gesehen, und es hat mich nach langer Zeit wieder inspiriert
Ich habe auch gehört, dass jemand, der mit ARC2 experimentierte, einen Weg gefunden hat, einen Roboterarm effizienter zu bewegen
Der Prozess, einfach nur die Punktzahl zu steigern, hat also tatsächlich zu Innovationen in der Robotik geführt
ARC-4, 5 und 6 sind ebenfalls geplant, und künftig erwartet man Modelle, die Probleme im Zero-Context lösen
- Aber eine solche Ausweitung wirkt am Ende auch ein wenig wie Goalpost Moving
Ich weiß nicht, ob ARC-AGI direkt etwas mit AGI zu tun hat
Letztlich misst es nur die Leistung von LLMs in einer bestimmten Art von Spiel
Es gibt bereits viele Spiele, in denen Computer Menschen weit übertreffen, unabhängig davon, ob Menschen dieses Spiel gut oder schlecht beherrschen
Deshalb ist entscheidend, ob diese Spiele repräsentativ für Intelligenz sind
- Der Schöpfer von ARC-AGI, Chollet, definiert Intelligenz als die Fähigkeit, in einer völlig neuen Situation gut zu funktionieren. Genau das misst ARC-AGI
- Aber „AGI“ ist eher ein Marketingbegriff, und solche Benchmarks dienen eher der Werbung als der realen Produktivitätssteigerung
Ich war ein menschlicher Tester dieses Spiels
Ich habe in 90 Minuten 25 Spiele gelöst, und in den Anweisungen stand zwar, dass man die Zahl der Aktionen minimieren solle, tatsächlich habe ich mich wegen der Geschwindigkeitsprämie (5 $ pro Spiel) aber darauf konzentriert, schnell zu lösen
Deshalb wurden die menschlichen Referenzdaten vermutlich mit mehr Aktionen als eigentlich nötig aufgezeichnet
Am ARC-AGI-Leaderboard gefällt mir am besten die Kosten-Leistungs-Grafik
Die jüngsten Fortschritte bei KI-Leistung gehen meist mit steigendem Stromverbrauch einher. Letztlich gilt: Wer mehr Strom einsetzt, bekommt bessere Ergebnisse

ARC-AGI-3 – der erste interaktive Benchmark für Schlussfolgerungsvermögen

Überblick über ARC-AGI-3

Hauptfunktionen

Replay und Bewertung

Tools und UI

Dokumentation

Verwandte Materialien und Community

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare