OpenAI o3 erzielt bahnbrechend hohe Punktzahl bei ARC-AGI-PUB

(arcprize.org)

3 Punkte von GN⁺ 2024-12-21 | 1 Kommentare | Auf WhatsApp teilen

Das o3-System von OpenAI hat im öffentlichen ARC-AGI-1-Datensatz einen neuen Rekord aufgestellt
- Semi-Private Evaluation: 75,7 % im hocheffizienten Modus
- Modus mit hohen Kosten (172-fach höherer Rechenaufwand): 87,5 %
Ein wichtiger Fortschritt, der über die Grenzen der GPT-Modellfamilie hinausgeht und neue, adaptive Fähigkeiten zur Aufgabenbearbeitung zeigt
GPT-3 (2020) 0 % → GPT-4o (2024) 5 % → Fortschritt bis auf 75,7 % mit o3
Die ARC-AGI-1-Ergebnisse liefern neue Intuitionen zur Verbesserung von KI-Fähigkeiten

Die Zukunft von ARC Prize und AGI-Forschung

ARC Prize soll als Orientierungspunkt für die AGI-Forschung dienen
ARC-AGI-2 ist für 2025 geplant:
- Zusammengesetzt aus Problemen, die für Menschen leicht, für KI jedoch schwierig sind
- Ziel ist die Entwicklung neuer hocheffizienter Open-Source-Lösungen
Die Leistung von o3 unterstreicht die Notwendigkeit neuer AGI-Benchmark-Designs

Testergebnisse von OpenAI o3 bei ARC-AGI

Testdatensatz und Methode

Semi-Private Eval: 100 nicht öffentliche Aufgaben zur Vermeidung von Overfitting
Public Eval: 400 öffentliche Aufgaben
Getestet wurde mit zwei Rechenaufwands-Einstellungen: hohe Effizienz (6 Samples) und niedrige Effizienz (1024 Samples)

Zentrale Ergebnisse (hohe Effizienz vs. niedrige Effizienz)

Semi-Private Eval:
- Hohe Effizienz: 75,7 % / Kosten von $20 / 1,3 Minuten pro Aufgabe
- Niedrige Effizienz: 87,5 % / 13,8 Minuten pro Aufgabe
Public Eval:
- Hohe Effizienz: 82,8 % / Kosten von $17
- Niedrige Effizienz: 91,5 %

Zusammenhang zwischen Effizienz und Leistung

Die Punktzahl im hocheffizienten Modus belegt Platz 1 nach ARC-AGI-Pub-Kriterien (unter $10.000)
Die Punktzahl im wenig effizienten Modus deutet darauf hin, dass mehr Rechenaufwand die Leistung verbessert, allerdings zu hohen Kosten
o3 ist keine Leistung, die nur durch mehr Rechenaufwand erzielt wurde, sondern Ausdruck einer grundlegenden Verbesserung der adaptiven Fähigkeiten von KI

Diskussion über AGI

Unterschied zwischen ARC-AGI und AGI

ARC-AGI ist ein Forschungswerkzeug zur Bewertung der Generalisierungsfähigkeit von KI
o3 zeigte bei ARC-AGI hervorragende Leistungen, reicht jedoch nicht aus, um als AGI zu gelten
- Es gibt Fälle, in denen es an einfachen Aufgaben scheitert
- Bei ARC-AGI-2 könnte die Punktzahl künftig auf unter 30 % fallen

Die wichtigsten Unterscheidungsmerkmale von o3

Verbesserte Verarbeitung neuer Aufgaben und höhere Anpassungsfähigkeit im Vergleich zu bisherigen GPT-Modellen
Einführung eines Ansatzes zur Suche und Ausführung natürlicher Sprachprogramme:
- Während des Tests wird der "Gedankengang (Chain of Thought)" zur Lösung der Aufgabe durchsucht
- Ein Ansatz ähnlich der Monte-Carlo-Baumsuche
- Programmierung in Form der Erzeugung und Ausführung natürlichsprachlicher Anweisungen

Vergleich mit bisherigen GPT-Modellen

Frühere GPT-Modelle arbeiten nach dem Prinzip „speichern → abrufen → anwenden“
Ihre begrenzte Anpassungsfähigkeit an neue Aufgaben war eine zentrale Schwäche
o3 kann bestehende Fähigkeiten neu kombinieren und sich so an neue Aufgaben anpassen

Zukünftige Forschungsrichtungen

Open-Source-Analyse von o3

ARC Prize verfolgt das Ziel, hocheffiziente Open-Source-Lösungen zu entwickeln
Veröffentlichung von o3-Testdaten und ungelösten Aufgaben:
- Die Community ist eingeladen, die Merkmale ungelöster Aufgaben zu analysieren
- Diskussionen sind im Discord-Kanal und auf GitHub möglich

Nächste Benchmark-Generation

Die Entwicklung von ARC-AGI-2 läuft:
- Veröffentlichung gegen Ende des 1. Quartals 2025 geplant
- Ein vollständig neues Design jenseits des bisherigen ARC-AGI-Formats
Die ARC Prize Foundation plant, weiterhin neue Benchmarks für die AGI-Forschung zu entwickeln

Fazit

OpenAI o3 ist ein bahnbrechender Erfolg, der adaptive KI-Fähigkeiten über die Grenzen der GPT-Modellfamilie hinaus belegt
Die Einführung LLM-gesteuerter Suche nach natürlichen Sprachprogrammen erschließt ein neues Feld
Künftige Forschung muss Effizienz und Leistung ausbalancieren und Zusammenarbeit durch Open Source fördern

1 Kommentare

GN⁺ 2024-12-21

Hacker-News-Kommentare

Effizienz wird wichtiger. Der Begriff ARC-AGI-TUNED deutet darauf hin, dass viele Rechenressourcen eingesetzt wurden. Verglichen mit den Kosten, die Menschen zum Lösen von ARC-AGI-Rätseln benötigen, sind die Kosten für menschenähnliches Schlussfolgern mit aktueller Rechenleistung derzeit erheblich höher.
Das Entschlüsseln natürlicher Sprachmuster ist komplexer als Rätsel. Wenn eine AI darauf trainiert wird, Rätsel zu lösen, ist es schwierig, Trainingsdaten für externe Medien zu erzeugen. Es ist beeindruckend, Antworten auf Blockmuster mit minimalem zusätzlichem Training abzuleiten.
Die Programmieraufgabe für o3-mini war nicht besonders schwierig. Als ich Claude 3.5 Sonnet die Aufgabe gab, hat es sie beim ersten Versuch gelöst.
Francois Chollets ARC ist ein sehr interessanter und anspruchsvoller LLM-Benchmark. Viele Menschen haben kritisiert, dass ARC kein echtes Schlussfolgern abbilde, aber es zeigt, dass das, was ARC misst, für Schlussfolgern wichtig ist.
Die menschliche Leistung liegt bei 85 % und o3 high bei 87,5 %. Das bedeutet, dass es einen Algorithmus gibt, der menschliches Leistungsniveau erreichen kann. Das erklärt, warum es sich anfühlt, als rücke AGI näher.
o3 enthält wesentliche Aspekte von AGI. Das Lösen von ARC-Problemen erfordert den Einsatz mehrerer zentraler Wissensbestände und die Verwendung eines angemessenen Abstraktionsniveaus.
Die Ausführungskosten des o3-Modells sind sehr hoch. Auf staatlicher Ebene könnte dies jedoch selbst dann ein wichtiger Fortschritt sein, wenn es wirtschaftlich nicht sinnvoll ist. Wenn AI mit menschenähnlicher Intelligenz bedarfsgerecht bereitgestellt werden kann, könnten die Auswirkungen früher sichtbar werden als erwartet.
ARC-AGI bedeutet nicht, dass AGI erreicht wurde. o3 scheitert weiterhin an einfachen Aufgaben. Der Benchmark ARC-AGI-2 wird für o3 weiterhin eine Herausforderung sein.
Weder ARC noch irgendein anderer Benchmark sollte mit echter allgemeiner Intelligenz verwechselt werden. Allgemeine Intelligenz wird sich vermutlich nur mit dem erheblichen Vorteil der Rückschau identifizieren lassen.

OpenAI o3 erzielt bahnbrechend hohe Punktzahl bei ARC-AGI-PUB

Die Zukunft von ARC Prize und AGI-Forschung

Testergebnisse von OpenAI o3 bei ARC-AGI

Testdatensatz und Methode

Zentrale Ergebnisse (hohe Effizienz vs. niedrige Effizienz)

Zusammenhang zwischen Effizienz und Leistung

Diskussion über AGI

Unterschied zwischen ARC-AGI und AGI

Die wichtigsten Unterscheidungsmerkmale von o3

Vergleich mit bisherigen GPT-Modellen

Zukünftige Forschungsrichtungen

Open-Source-Analyse von o3

Nächste Benchmark-Generation

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare