50 % (SoTA) auf Arc-AGI mit GPT-4o erreicht

(redwoodresearch.substack.com)

1 Punkte von GN⁺ 2024-06-19 | 1 Kommentare | Auf WhatsApp teilen

Mit GPT-4 50 % Genauigkeit auf ARC-AGI erreichen

Was ist ARC-AGI?

ARC-AGI ist ein Datensatz, der entwickelt wurde, um die allgemeine Schlussfolgerungsfähigkeit von KI zu bewerten.
Er besteht aus Aufgaben, bei denen aus Eingabe-Ausgabe-Beispielen in Form von Gittern aus farbigen Zellen Transformationsregeln abgeleitet werden müssen.
Die durchschnittliche Genauigkeit von Menschen liegt im Trainingssatz bei 85 %, aber der Testsatz ist deutlich schwieriger.

Meine Methode

Ich habe GPT-4 verwendet, um pro Aufgabe etwa 8.000 Python-Programme zu erzeugen, und dann die Programme ausgewählt, die die korrekte Ausgabe liefern.
Durch einige zusätzliche Ansätze und Anpassungen konnte die Leistung deutlich verbessert werden:
- Few-shot-Prompts: Verwendung von Prompts, die schrittweises Schlussfolgern durchführen.
- Code-Korrektur: GPT-4 passt Teile der Implementierung anhand der Ausgabeergebnisse der Beispiele an.
- Feature Engineering: Dem Modell werden bessere Gitterdarstellungen bereitgestellt.
- Spezialisierte Prompts: Unterschiedliche Prompts je nachdem, ob sich die Gittergröße ändert oder nicht.

Der Effekt von mehr Sampling

Mit steigender Anzahl an Samples verbessert sich die Leistung.
Zum Beispiel wurden mit 1024 Samples 25 % Genauigkeit erreicht, mit 2048 Samples dagegen 34 %.

Der Effekt besserer Prompts und von Code-Korrekturen

Verbesserte Prompts und der Schritt zur Code-Korrektur sind wichtig für die Steigerung der Genauigkeit.
In der finalen Version wurden 50 % Genauigkeit erreicht.

Grenzen und Prognosen

Die visuelle Wahrnehmungsfähigkeit und die Coding-Fähigkeiten von GPT-4 sind begrenzt.
Es braucht mehr Sampling und bessere Prompts.
Es ist sehr wahrscheinlich, dass die nächste Generation von LLMs die Leistung auf ARC-AGI deutlich verbessert.

Meinung von GN⁺

Visuelle Wahrnehmungsfähigkeit: Die visuelle Wahrnehmung von GPT-4 ist begrenzt, daher werden bessere Modelle für visuelle Wahrnehmung benötigt.
Coding-Fähigkeiten: GPT-4 macht beim Coding häufig einfache Fehler. Zur Verbesserung werden bessere Debugging-Tools benötigt.
Sampling-Kosten: Da umfangreiches Sampling nötig ist, können die Kosten hoch sein. Es werden effizientere Sampling-Methoden benötigt.
Zukünftiges Potenzial: Es ist sehr wahrscheinlich, dass die nächste Generation von LLMs die Leistung auf ARC-AGI deutlich verbessert. Dadurch könnte dies zu einem wichtigen Maßstab für die Bewertung allgemeiner Schlussfolgerungsfähigkeit von KI werden.
Praktische Anwendungen: Es braucht Forschung dazu, wie Problemlösungsfähigkeiten wie bei ARC-AGI in realen Anwendungsbereichen genutzt werden können.

1 Kommentare

GN⁺ 2024-06-19

Hacker-News-Kommentare

ARC-Prize-Mitgründer: Ryans Forschung ist eine interessante und neue Arbeit zu „LLM-Reasoning“: Mit GPT-4o werden 8.000 Python-Programme erzeugt, dann wird das richtige Programm ausgewählt und auf zusätzliche Testeingaben angewendet. Das Ergebnis stammt aus dem öffentlichen Evaluierungs-Set und ist nicht validiert, aber vielversprechend. Glückwunsch an Ryan und danke für die Mühe.
Kritik am Artikel: Der Artikel springt zu der Schlussfolgerung, dass „heutige LLMs bei ARC-AGI ziemlich gut abschneiden können“, obwohl die Ergebnisse mithilfe mehrerer manueller Tricks erzielt wurden. Die Angriffe auf Francois Chollet schaden der Community.
Meinung zu GPT-4: GPT-4 ist eine schlechte AGI, und sogar GPT-1 war schon AGI. So wie sich auch menschliche Intelligenz schrittweise entwickelt, kann man GPT-4 als ein kleines Gehirn betrachten, das auf textbasiertes Denken spezialisiert ist. Zu behaupten, ARC sei der absolute Maßstab für allgemeine Intelligenz, verfehlt das große Ganze von Intelligenz.
Frühe Versuche mit GPT-4: GPT-4 erzielte bei den Rätseln eine „ordentliche“ Leistung, scheiterte aber teils an den logischen Teilen. Visuell-räumliche Elemente sind wichtig, und es könnte ein multimodales Modell nötig sein. Python-Lösungen zufällig zu erzeugen, ist ein „unmenschlicher“ Ansatz.
Die Bedeutung von LLM-Manipulation: Dass viele Menschen LLMs so manipulieren, dass sie einen AGI-Test bestehen, untergräbt den Zweck eines AGI-Tests. Trotzdem ist es nützlich herauszufinden, welche Manipulationen wirksam sind. Die meisten Probleme laufen letztlich auf Pattern Matching hinaus.
Wichtige Punkte:
- Die meisten Aufgaben werden durch Suche erledigt.
- Mehr Samples verbessern die Leistung.
- LLMs erzeugen bessere Programme als zufällige Programme.
- Es gibt keine Sicherheit, dass GPT-4 ARC-Rätsel lösen kann.
Mängel von ARC-AGI: ARC-AGI scheint fehlerhaft zu sein. Was sich mit AGI erklären ließe, lässt sich auch damit erklären, dass es im Trainingsset enthalten war.
System 2 und AGI: Viele Programme zu erzeugen und zu bewerten könnte die Rolle von System 2 bei AGI spielen. Das ähnelt der Art, wie Menschen intelligent denken.
Die Bedeutung physischen Verständnisses: Diese Herausforderung hängt von physischem Verständnis, räumlicher Wahrnehmung und Objektgrenzen ab. Wichtig ist, Objekte zu identifizieren und Transformationen oder Beziehungen abzubilden. Das lässt sich durch die Kombination von Programmsuche und LLM lösen.
Die Planungsfähigkeit von GPT-4: GPT-4 kann Pläne erzeugen, die den im Artikel beschriebenen ähneln. Dazu gehören Merkmalsextraktion, Programmsynthese und iterative Verbesserung. Es hat Schwächen beim Coden und bei visuellen Eingaben.

50 % (SoTA) auf Arc-AGI mit GPT-4o erreicht

Mit GPT-4 50 % Genauigkeit auf ARC-AGI erreichen

Was ist ARC-AGI?

Meine Methode

Der Effekt von mehr Sampling

Der Effekt besserer Prompts und von Code-Korrekturen

Grenzen und Prognosen

Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare