3 Punkte von GN⁺ 2024-12-21 | 1 Kommentare | Auf WhatsApp teilen
  • Das o3-System von OpenAI hat im öffentlichen ARC-AGI-1-Datensatz einen neuen Rekord aufgestellt
    • Semi-Private Evaluation: 75,7 % im hocheffizienten Modus
    • Modus mit hohen Kosten (172-fach höherer Rechenaufwand): 87,5 %
  • Ein wichtiger Fortschritt, der über die Grenzen der GPT-Modellfamilie hinausgeht und neue, adaptive Fähigkeiten zur Aufgabenbearbeitung zeigt
  • GPT-3 (2020) 0 % → GPT-4o (2024) 5 % → Fortschritt bis auf 75,7 % mit o3
  • Die ARC-AGI-1-Ergebnisse liefern neue Intuitionen zur Verbesserung von KI-Fähigkeiten

Die Zukunft von ARC Prize und AGI-Forschung

  • ARC Prize soll als Orientierungspunkt für die AGI-Forschung dienen
  • ARC-AGI-2 ist für 2025 geplant:
    • Zusammengesetzt aus Problemen, die für Menschen leicht, für KI jedoch schwierig sind
    • Ziel ist die Entwicklung neuer hocheffizienter Open-Source-Lösungen
  • Die Leistung von o3 unterstreicht die Notwendigkeit neuer AGI-Benchmark-Designs

Testergebnisse von OpenAI o3 bei ARC-AGI

Testdatensatz und Methode

  • Semi-Private Eval: 100 nicht öffentliche Aufgaben zur Vermeidung von Overfitting
  • Public Eval: 400 öffentliche Aufgaben
  • Getestet wurde mit zwei Rechenaufwands-Einstellungen: hohe Effizienz (6 Samples) und niedrige Effizienz (1024 Samples)

Zentrale Ergebnisse (hohe Effizienz vs. niedrige Effizienz)

  • Semi-Private Eval:
    • Hohe Effizienz: 75,7 % / Kosten von $20 / 1,3 Minuten pro Aufgabe
    • Niedrige Effizienz: 87,5 % / 13,8 Minuten pro Aufgabe
  • Public Eval:
    • Hohe Effizienz: 82,8 % / Kosten von $17
    • Niedrige Effizienz: 91,5 %

Zusammenhang zwischen Effizienz und Leistung

  • Die Punktzahl im hocheffizienten Modus belegt Platz 1 nach ARC-AGI-Pub-Kriterien (unter $10.000)
  • Die Punktzahl im wenig effizienten Modus deutet darauf hin, dass mehr Rechenaufwand die Leistung verbessert, allerdings zu hohen Kosten
  • o3 ist keine Leistung, die nur durch mehr Rechenaufwand erzielt wurde, sondern Ausdruck einer grundlegenden Verbesserung der adaptiven Fähigkeiten von KI

Diskussion über AGI

Unterschied zwischen ARC-AGI und AGI

  • ARC-AGI ist ein Forschungswerkzeug zur Bewertung der Generalisierungsfähigkeit von KI
  • o3 zeigte bei ARC-AGI hervorragende Leistungen, reicht jedoch nicht aus, um als AGI zu gelten
    • Es gibt Fälle, in denen es an einfachen Aufgaben scheitert
    • Bei ARC-AGI-2 könnte die Punktzahl künftig auf unter 30 % fallen

Die wichtigsten Unterscheidungsmerkmale von o3

  • Verbesserte Verarbeitung neuer Aufgaben und höhere Anpassungsfähigkeit im Vergleich zu bisherigen GPT-Modellen
  • Einführung eines Ansatzes zur Suche und Ausführung natürlicher Sprachprogramme:
    • Während des Tests wird der "Gedankengang (Chain of Thought)" zur Lösung der Aufgabe durchsucht
    • Ein Ansatz ähnlich der Monte-Carlo-Baumsuche
    • Programmierung in Form der Erzeugung und Ausführung natürlichsprachlicher Anweisungen

Vergleich mit bisherigen GPT-Modellen

  • Frühere GPT-Modelle arbeiten nach dem Prinzip „speichern → abrufen → anwenden“
  • Ihre begrenzte Anpassungsfähigkeit an neue Aufgaben war eine zentrale Schwäche
  • o3 kann bestehende Fähigkeiten neu kombinieren und sich so an neue Aufgaben anpassen

Zukünftige Forschungsrichtungen

Open-Source-Analyse von o3

  • ARC Prize verfolgt das Ziel, hocheffiziente Open-Source-Lösungen zu entwickeln
  • Veröffentlichung von o3-Testdaten und ungelösten Aufgaben:
    • Die Community ist eingeladen, die Merkmale ungelöster Aufgaben zu analysieren
    • Diskussionen sind im Discord-Kanal und auf GitHub möglich

Nächste Benchmark-Generation

  • Die Entwicklung von ARC-AGI-2 läuft:
    • Veröffentlichung gegen Ende des 1. Quartals 2025 geplant
    • Ein vollständig neues Design jenseits des bisherigen ARC-AGI-Formats
  • Die ARC Prize Foundation plant, weiterhin neue Benchmarks für die AGI-Forschung zu entwickeln

Fazit

  • OpenAI o3 ist ein bahnbrechender Erfolg, der adaptive KI-Fähigkeiten über die Grenzen der GPT-Modellfamilie hinaus belegt
  • Die Einführung LLM-gesteuerter Suche nach natürlichen Sprachprogrammen erschließt ein neues Feld
  • Künftige Forschung muss Effizienz und Leistung ausbalancieren und Zusammenarbeit durch Open Source fördern

1 Kommentare

 
GN⁺ 2024-12-21
Hacker-News-Kommentare
  • Effizienz wird wichtiger. Der Begriff ARC-AGI-TUNED deutet darauf hin, dass viele Rechenressourcen eingesetzt wurden. Verglichen mit den Kosten, die Menschen zum Lösen von ARC-AGI-Rätseln benötigen, sind die Kosten für menschenähnliches Schlussfolgern mit aktueller Rechenleistung derzeit erheblich höher.

  • Das Entschlüsseln natürlicher Sprachmuster ist komplexer als Rätsel. Wenn eine AI darauf trainiert wird, Rätsel zu lösen, ist es schwierig, Trainingsdaten für externe Medien zu erzeugen. Es ist beeindruckend, Antworten auf Blockmuster mit minimalem zusätzlichem Training abzuleiten.

  • Die Programmieraufgabe für o3-mini war nicht besonders schwierig. Als ich Claude 3.5 Sonnet die Aufgabe gab, hat es sie beim ersten Versuch gelöst.

  • Francois Chollets ARC ist ein sehr interessanter und anspruchsvoller LLM-Benchmark. Viele Menschen haben kritisiert, dass ARC kein echtes Schlussfolgern abbilde, aber es zeigt, dass das, was ARC misst, für Schlussfolgern wichtig ist.

  • Die menschliche Leistung liegt bei 85 % und o3 high bei 87,5 %. Das bedeutet, dass es einen Algorithmus gibt, der menschliches Leistungsniveau erreichen kann. Das erklärt, warum es sich anfühlt, als rücke AGI näher.

  • o3 enthält wesentliche Aspekte von AGI. Das Lösen von ARC-Problemen erfordert den Einsatz mehrerer zentraler Wissensbestände und die Verwendung eines angemessenen Abstraktionsniveaus.

  • Die Ausführungskosten des o3-Modells sind sehr hoch. Auf staatlicher Ebene könnte dies jedoch selbst dann ein wichtiger Fortschritt sein, wenn es wirtschaftlich nicht sinnvoll ist. Wenn AI mit menschenähnlicher Intelligenz bedarfsgerecht bereitgestellt werden kann, könnten die Auswirkungen früher sichtbar werden als erwartet.

  • ARC-AGI bedeutet nicht, dass AGI erreicht wurde. o3 scheitert weiterhin an einfachen Aufgaben. Der Benchmark ARC-AGI-2 wird für o3 weiterhin eine Herausforderung sein.

  • Weder ARC noch irgendein anderer Benchmark sollte mit echter allgemeiner Intelligenz verwechselt werden. Allgemeine Intelligenz wird sich vermutlich nur mit dem erheblichen Vorteil der Rückschau identifizieren lassen.