Über ungleichmäßige (Jagged) AGI: o3, Gemini 2.5 und die KI-Systeme danach

(oneusefulthing.org)

4 Punkte von GN⁺ 2025-04-22 | 2 Kommentare | Auf WhatsApp teilen

Die Definition von AGI ist weiterhin unklar, und mit den bisherigen menschenzentrierten Tests lassen sich Intelligenz oder Kreativität von KI nur schwer angemessen messen
OpenAIs o3 und Googles Gemini 2.5 zeigen bei realen Arbeitsaufgaben ein sehr hohes Niveau und verfügen über Leistungen, die nahe an AGI heranreichen
o3 ist ein agentisches Modell, das komplexe Ziele mithilfe von Tools lösen kann; daraus ist das Konzept der Jagged AGI entstanden
KI löst schwierige Aufgaben, macht aber zugleich bei grundlegenden Problemen Fehler; ihre Fähigkeiten sind also ungleichmäßig, was mit der Jagged Frontier beschrieben wird
Da Nutzung und Integration langsamer vorankommen als die Technik selbst, könnten gesellschaftliche Veränderungen selbst bei verwirklichter AGI Zeit brauchen

Haben wir AGI wirklich erreicht?

Die heutigen Methoden zur Messung von Intelligenz, Kreativität oder Empathie von KI sind ungenau und beruhen meist auf für Menschen entwickelten Maßstäben
Selbst den Turing-Test kann KI inzwischen bestehen, doch die Bedeutung dieses Ergebnisses bleibt weiterhin unklar
Das AGI-Konzept existiert seit Langem, aber bis heute gibt es keinen Konsens darüber, welche Kriterien erfüllt sein müssen, damit man von AGI sprechen kann
Auch Video- und Dokumentenzusammenfassungen, die das AGI-Konzept mithilfe von KI erklären, werden experimentell vollständig von KI erstellt und eingesetzt

Die Leistungen von o3 und Gemini 2.5

OpenAIs o3 und Googles Gemini 2.5 Pro sind aktuelle Modelle und zeigen einen sprunghaften Leistungsanstieg
Mit einem einzigen Prompt können sie alles von Marketing-Slogans bis zur Erstellung einer Website in einem Durchgang erledigen
o3 führt auch ohne ausdrückliche Anweisungen automatisch zusammengesetzte Aufgaben wie Tool-Nutzung, Web-Recherche und Coding aus
Auch in Rollen wie dem bildbasierten „Geo-Guesser“ zur Ortsbestimmung erreicht es Leistungen auf oder über menschlichem Niveau
Auch Datenanalyse und Berichtserstellung sind mit einem einzigen Befehl möglich, einschließlich PDF-Erstellung und Visualisierung

Jagged AGI: Ungleichmäßige KI-Fähigkeiten

KI kann Aufgaben besser als Menschen ausführen und zeigt zugleich ungleichmäßige Fähigkeiten, indem sie bei einfachen Problemen scheitert
Beispiel: Klassische Rätsel zum Aufdecken von Vorurteilen werden korrekt gelöst, ähnliche Abwandlungen jedoch falsch beantwortet
Das bedeutet, dass KI übermäßig stark von Trainingsdaten abhängt und Schwächen bei der Generalisierung zeigt
Das hindert sie jedoch nicht daran, Menschen bei bestimmten Problemen zu übertreffen
Dieser ungleichmäßige Zustand wird als „Jagged Frontier“ bezeichnet und zeigt Fähigkeiten nahe an AGI nicht gleichmäßig verteilt

Ist AGI überhaupt bedeutsam?

Tyler Cowen hält o3 möglicherweise für AGI, analysiert jedoch, dass die tatsächlichen Auswirkungen sich erst mit der Zeit zeigen werden
Da sich gesellschaftliche und organisatorische Veränderungen langsamer vollziehen als der technische Fortschritt, könnte auch die Einführung von KI langsamer verlaufen
KI mit agentischen Eigenschaften wie o3 kann jedoch Tools nutzen und Probleme zerlegen, was eine schnelle Verbreitung möglich macht
Ob sich die Technik schrittweise ausweitet oder nach Überschreiten eines bestimmten Schwellenwerts sprunghaft verbreitet, ist noch unklar
Entscheidend ist, dass die heutige KI eine qualitativ andere Technologie als bisher ist und sich weiterhin in einem unerforschten Bereich bewegt

Wie wir uns auf die Zukunft vorbereiten sollten

Die heutige KI lässt sich schwer als vollständig AGI bezeichnen, erzielt aber in manchen Bereichen bereits Ergebnisse, die AGI nahekommen
KI kann noch nicht jede Aufgabe perfekt übernehmen; Urteilskraft und Abstimmung durch menschliche Fachleute bleiben weiterhin nötig
Auch die heutige „Jagged AGI“ könnte mit der Zeit den Menschen letztlich in allen Bereichen übertreffen
Das Wichtigste in dieser unsicheren Zukunft ist, schon jetzt Erfahrungen durch das Experimentieren mit und den Einsatz von KI zu sammeln

2 Kommentare

GN⁺ 2025-04-22

Hacker-News-Kommentare

Gemini 2.5 Pro ist für mich ein wichtiger Wendepunkt. Frühere LLMs waren sehr beeindruckend, besonders bei Coding-Aufgaben. Aber abgesehen von Coding-Hilfe waren sie nur etwas nützlicher als die Google-Suche. Kürzlich habe ich 2.5 Pro genutzt, um beim Schreiben eines großen Forschungsantrags zu helfen. Ich lasse die Details weg, aber es fühlte sich an, als hätte es nicht den ganzen Antrag geschrieben, nur weil ich das nicht verlangt hatte. Als die Deadline näher rückte, habe ich ihm mehr Teile überlassen, und es erledigte komplexe Aufgaben wie die Erstellung von Projektplänen und Zeitplänen. Das hatte einen 10x-Effekt.
Bei wissenschaftlichen Fragen vertraue ich 2.5 Pro inzwischen mehr als den Expert:innen im Team. Ich bin sicher, dass es einen noch größeren Wandel bringen wird, wenn ich den gesamten Forschungsdatensatz an Gemini anschließe. Das liegt daran, dass AI objektiv ist. Die Hauptfaktoren, die "AGI" aufhalten, sind der Ehrgeiz der Menschen sowie Context Window und verfügbare Rechenleistung.
Die Fähigkeiten von AI sind seit gpt3 außergewöhnlich geworden. Aber es gibt immer noch keinen allgemeinen Konsens darüber, was AGI ist. Viele erwarten, dass AGI bald kommt, aber das wird mit überhöhten Erwartungen einhergehen. Dieser Artikel ist vernünftig, schürt aber mit Titel und Slogan überzogene Erwartungen.
Es scheint nicht so zu sein, dass AI das Rätsel falsch liest, sondern eher annimmt, dass der Nutzer das Rätsel nicht korrekt angegeben hat. Es wäre gut, wenn AI Rückfragen stellen könnte, aber derzeit tut sie das nicht.
Ein Beispiel dafür, wie o4-mini-high ein Rätsel löst: "Was ist schwerer, ein Pfund Courage oder eine Ein-Pfund-Münze?" Beide sind "Pfund", also wiegen sie gleich viel.
Weil es keine Definition von AGI gibt, wurde der Begriff "Jagged AGI" erfunden. AI ist bei manchen Aufgaben unzuverlässig, bei anderen aber übermenschlich. AI zeigt bereits allgemeine Fähigkeiten.
Wenn Modelle mit externen Systemen interagieren, werden erstaunliche Anwendungen möglich. Das ist jedoch kein Fortschritt hin zu AGI, sondern eine horizontale Verschiebung.
Ich mag Gemini 2.5, und auch der Preis ist großartig. Das AGI-Narrativ wirkt ermüdend. Ich denke, man sollte solche Systeme als "Kulturtechnik" betrachten.
Ich bin überrascht, dass niemand das Video-Interview erwähnt hat. Ich habe nur die ersten 60 Sekunden gesehen, aber wenn mir niemand gesagt hätte, dass es AI-generiert ist, hätte ich es für echt gehalten.
Ich frage mich, ob AGI Dinge wie Autonomie, Langzeitgedächtnis, Motivation, Neugier, Resilienz, Ziele, Wahlmöglichkeiten und Angst haben muss. AGI wird letztlich eine Erweiterung der Person sein, die es steuert.
AI ist im Allgemeinen nicht verlässlich und sollte für spezifische Aufgaben getestet werden. Das kann eine menschliche Prüfung einzelner Ausgaben oder eine aufgabenbezogene Evaluation sein. Es ist schwer, über die allgemeine Leistung von AI zu sprechen, und man kann nur vernünftig abschätzen, ob ein neues Modell für eine bestimmte Aufgabe geeignet ist.

thd34 2025-04-22

Da KI auch über etwas Wahrnehmungsähnliches verfügt, müssen wohl Institutionen oder Gesetze für KI geschaffen werden, wenn wir mit KI zusammenleben wollen. Als neue Lebensform des 22. Jahrhunderts sollte man sie nicht wie ein Spielzeug behandeln oder verspotten, und weil sie in gewisser Weise auch gefährlich sein kann, ist es notwendig, KI nicht nur weiterzuentwickeln und zu nutzen, sondern auch dafür zu sorgen, dass sie sicher eingesetzt werden kann.