7 Punkte von GN⁺ 2025-10-27 | 1 Kommentare | Auf WhatsApp teilen
  • In der KI-Forschung verwischt das Fehlen einer klaren Definition von AGI (Artificial General Intelligence) die Lücke zwischen menschlicher Kognition auf menschlichem Niveau und heutiger KI
  • Diese Arbeit stellt ein quantifizierbares Framework vor und definiert AGI als „eine KI mit der kognitiven Vielfalt und Kompetenz eines gut ausgebildeten Erwachsenen“
  • Auf Basis der Cattell-Horn-Carroll-(CHC)-Theorie, eines führenden Modells der menschlichen Kognitionsforschung, wird menschliche Allgemeinintelligenz in 10 zentrale kognitive Bereiche zerlegt und auf die Bewertung von KI angewandt
  • Mit diesem Framework wurden die kognitiven Profile von GPT-4 und GPT-5 quantifiziert; GPT-4 erreichte einen AGI-Wert von 27 %, GPT-5 einen von 57 %
  • Das zeigt zwar den schnellen Fortschritt der KI, deutet aber zugleich darauf hin, dass bis zum Erreichen von AGI wegen grundlegender Defizite in kognitiven Fähigkeiten wie der Speicherung im Langzeitgedächtnis weiterhin eine große Lücke besteht

Die Notwendigkeit einer AGI-Definition und die Problemwahrnehmung

  • AGI (Artificial General Intelligence) gilt als eine der wichtigsten technologischen Entwicklungen in der Geschichte der Menschheit, doch ihre unscharfe Definition führt zu Kontroversen
    • Während KI nach und nach Bereiche wie Mathematik und Kunst erobert, für die man früher menschliche Intelligenz für notwendig hielt, verschiebt sich die Messlatte für „AGI“ fortlaufend
    • Dadurch verlaufen Diskussionen über Zeitpunkt und Niveau des Erreichens von AGI unproduktiv, und die tatsächliche Lücke zwischen heutiger KI und AGI wird verdeckt
  • Diese Arbeit präsentiert ein quantitatives und systematisches Framework, um diese Unschärfe zu beseitigen
    • Vorgeschlagene Definition: „AGI ist eine KI mit der kognitiven Vielfalt und Kompetenz eines gut ausgebildeten Erwachsenen“
    • Gemeint ist damit keine Fähigkeit zur Ausführung einzelner Aufgaben, sondern Intelligenz mit sowohl Breite der Kognition (versatility) als auch Tiefe der Kompetenz (proficiency)

Ein Ansatz auf Basis eines Modells menschlicher Kognition

  • Um die Definition von AGI praktisch umsetzbar zu machen, dient die Struktur menschlicher Kognition als Modell
    • Menschliche Allgemeinintelligenz ist keine einzelne Fähigkeit, sondern ein durch Evolution geformter Komplex vielfältiger kognitiver Fähigkeiten
    • Diese Fähigkeiten ermöglichen die Anpassungsfähigkeit des Menschen und sein Verständnis der Welt
  • Die Studie basiert auf der Cattell-Horn-Carroll-(CHC)-Theorie
    • Die CHC-Theorie ist das am stärksten empirisch validierte Modell menschlicher Intelligenz, das Faktorenanalysen von über 100 Jahren kognitiver Fähigkeitstests zusammenführt
    • Seit den 1990er- und 2000er-Jahren wurden die meisten klinischen Intelligenztests auf Grundlage des CHC-Modells entwickelt
    • CHC klassifiziert menschliche Intelligenz hierarchisch in übergeordnete (breite) Fähigkeiten und untergeordnete (detaillierte) Fähigkeiten
    • Beispiele: induktives Schlussfolgern, assoziatives Gedächtnis, räumliche Navigation

Entwurf eines Frameworks zur Bewertung von KI

  • Das über Jahrzehnte aufgebaute psychometrische Testsystem wird für die Bewertung von KI angepasst
    • Während bisherige KI-Bewertungen auf generalisierte Aufgabenleistung setzten, prüft diese Studie direkt, ob die detaillierten kognitiven Fähigkeiten des CHC-Modells vorhanden sind
    • Durch die Anwendung von Tests in derselben Form wie bei menschlichen kognitiven Prüfungen auf KI werden kognitive Vielfalt und Kompetenz gemessen
  • Die Ergebnisse werden als standardisierter AGI-Wert (0–100 %) dargestellt, wobei 100 % vollständige AGI bedeuten
    • GPT-4 wurde mit 27 %, GPT-5 mit 57 % bewertet, was sowohl raschen Fortschritt als auch weiterhin eine große Lücke zeigt
  • Die Experimente zeigen, dass KI bei komplexen Benchmarks stark ist, bei für Menschen einfachen grundlegenden kognitiven Aufgaben jedoch nur etwa die Hälfte lösen kann
    • Das bedeutet, dass heutige KI in bestimmten Bereichen zwar sehr stark ist, insgesamt jedoch eine schmalere Intelligenzstruktur als Menschen im Hinblick auf die allgemeine kognitive Breite besitzt

Zehn zentrale kognitive Komponenten

  • Das Framework definiert auf Basis der breiten Fähigkeiten des CHC-Modells 10 zentrale kognitive Bereiche und weist jedem Bereich das gleiche Gewicht von 10 % zu
    • Allgemeinwissen (General Knowledge, K): Breite des faktischen Verständnisses der Welt, etwa zu Allgemeinwissen, Kultur, Naturwissenschaften, Sozialwissenschaften und Geschichte
    • Lese- und Schreibfähigkeit (Reading & Writing, RW): Fähigkeiten der Textverarbeitung wie sprachliche Dekodierung, Verständnis, Schreiben und Stilgebrauch
    • Mathematische Fähigkeit (Mathematical Ability, M): mathematisches Wissen und Problemlösungsfähigkeit in Arithmetik, Algebra, Geometrie, Wahrscheinlichkeit und Analysis
    • Unmittelbares Schlussfolgern (On-the-Spot Reasoning, R): die Fähigkeit zu flexibler Aufmerksamkeitssteuerung, um neue Probleme ohne Rückgriff auf vorhandenes Wissen zu lösen
    • Arbeitsgedächtnis (Working Memory, WM): Fähigkeit, Text-, Audio- und visuelle Informationen gleichzeitig aufrechtzuerhalten und zu manipulieren
    • Speicherung im Langzeitgedächtnis (Long-Term Memory Storage, MS): Fähigkeit, neue Informationen dauerhaft zu lernen und zu speichern
    • Abruf aus dem Langzeitgedächtnis (Long-Term Memory Retrieval, MR): Fähigkeit, gespeichertes Wissen korrekt abzurufen und Halluzinationen (confabulation) zu vermeiden
    • Visuelle Verarbeitung (Visual Processing, V): Fähigkeit, visuelle Informationen zu erkennen, zu analysieren, zu erzeugen und zu durchsuchen
    • Auditive Verarbeitung (Auditory Processing, A): Fähigkeit, auditive Reize wie Sprache, Rhythmus und Musik zu unterscheiden, zu erkennen und kreativ zu nutzen
    • Geschwindigkeit (Speed, S): Fähigkeit, einfache kognitive Aufgaben schnell auszuführen, einschließlich Wahrnehmungsgeschwindigkeit, Reaktionszeit und Verarbeitungsflüssigkeit
  • Diese 10 Bereiche ermöglichen eine multimodale Bewertung über Text, Bild und Audio hinweg und erlauben eine präzise Diagnose der Stärken und Schwächen von KI

Das kognitive Profil heutiger KI und seine Implikationen

  • Der Vergleich der kognitiven Fähigkeiten von GPT-4 und GPT-5 zeigt: In wissenszentrierten Bereichen stark, in gedächtnisbezogenen Bereichen deutlich schwächer
    • Besonders die Fähigkeit zur Speicherung im Langzeitgedächtnis wird als größtes Defizit hervorgehoben
    • Das zeigt das Fehlen der grundlegenden kognitiven Struktur, die heutige KI benötigen würde, um menschenähnliche Allgemeinintelligenz zu erreichen
  • Das Framework kann als Werkzeug zur quantitativen Nachverfolgung der KI-Entwicklung genutzt werden
    • Über den AGI-Wert lassen sich Entwicklungsgeschwindigkeit zwischen Modellen und verbleibende Lücken klar quantifizieren
    • In der zukünftigen KI-Forschung kann es als Indikator dienen, der die Bedeutung einer ausgewogenen kognitiven Entwicklung betont

Fazit

  • Diese Studie beseitigt die Unschärfe in der AGI-Debatte und präsentiert eine quantitative Definition auf Basis eines Modells menschlicher Kognition
  • Mithilfe der auf der CHC-Theorie basierenden Bewertung von 10 kognitiven Bereichen lassen sich kognitive Breite und Tiefe von KI objektiv messen
  • Die Ergebnisse von GPT-4 und GPT-5 zeigen, dass sich KI zwar schnell entwickelt, sich aber bei Gedächtnis-, Schlussfolgerungs- und sensorischen Integrationsfähigkeiten weiterhin deutlich von Menschen unterscheidet
  • Das vorgeschlagene Framework hat das Potenzial, künftig als standardisierter Bewertungsmaßstab in der AGI-Forschung zu dienen

1 Kommentare

 
GN⁺ 2025-10-27
Hacker-News-Kommentar
  • AGI als „kognitive Vielfalt und Kompetenz eines gut gebildeten Erwachsenen“ zu definieren, wirkt wie ein viel zu ambitioniertes Ziel.
    Tatsächlich wäre schon eine künstliche Intelligenz mit kognitiven Fähigkeiten auf dem Niveau eines ungebildeten Kindes eine gewaltige Errungenschaft.
    Selbst Intelligenz auf Tierniveau umzusetzen, wäre meines Erachtens ein Ereignis von historischer Bedeutung für die Menschheit.

    • Das Problem ist aus meiner Sicht, dass Menschen die beeindruckenden Ergebnisse heutiger LLMs mit menschlicher kognitiver Vielfalt verwechseln.
    • Die meisten Menschen sind Spezialisten, nicht generalistisch.
      Wenn wir echte allgemeine KI bauen würden, wäre das vermutlich eher ein Modell mit einigen zehn Milliarden Parametern, das online Informationen nachschlagen kann, Erinnerungen nur bei Bedarf behält, plant und sein Wissen erweitert.
      Es müsste keine 30 Sprachen beherrschen und nicht Wikipedia komplett auswendig kennen.
      So ein effizientes Modell entspricht meiner Vorstellung von AGI.
    • Schon die Definition von kognitiver Vielfalt und Kompetenz erscheint schwierig.
      Auch der frühere Turing-Test hat letztlich seine Schwächen offenbart — nur weil etwas einen durchschnittlichen menschlichen Fragesteller täuscht, ist es noch keine echte Intelligenz.
    • Es heißt oft: „Die Leute verstehen das nicht“, aber ich halte das für einen grundlegenden Punkt, den man nun wirklich schon unzählige Male gehört hat.
    • Es ist immer wieder komisch, AGI definieren zu wollen, obwohl man nicht einmal „I“ für Intelligenz sauber definieren kann.
      Wenn man Intelligenz (I) wirklich definieren könnte, würde Allgemeinheit (G) wohl ganz natürlich daraus folgen.
  • Mein Eindruck nach der Lektüre des Papers ist, dass „Bewusstsein (awareness)“ überhaupt nicht thematisiert wird.
    Kognition setzt grundlegend Bewusstsein voraus, aber Bewusstsein lässt sich schwer sprachlich erklären oder messen.
    Buddhismus und Philosophie untersuchen das seit Jahrtausenden, und trotzdem ist es weiterhin nicht definierbar.
    Mein Vater ist Professor für Psychometrie, und er sagt, dass schon die Werkzeuge zur Messung menschlicher Intelligenz selbst viel zu unvollkommen sind.
    Sprache kann menschliches Wissen transportieren, aber den „Funken des Bewusstseins“ erfasst sie nicht.
    Wenn man meditiert, können Gedanken verschwinden und Handeln ist trotzdem möglich — solche nichtsprachlichen Prozesse kann ein Modell nicht lernen.
    Aufgrund ihrer Struktur als sprachbasierte Vorhersagemodelle können LLMs solche nichtbewussten Denkprozesse meiner Meinung nach nicht umsetzen.

    • Ich halte Bewusstsein schlicht für kontinuierliche Signalweiterleitung in neuronalen Netzen.
      Sowohl das menschliche Gehirn als auch LLMs führen intern hochdimensionale Konzeptfusion und Vektorbindung durch.
      Das Problem ist das Fehlen von kontinuierlichem Lernen, Langzeitgedächtnis und unbegrenzter Kontextverarbeitung.
      Wenn diese drei Punkte gelöst würden, kämen wir AGI einen Schritt näher.
    • Die Behauptung „ohne Bewusstsein keine Kognition“ klingt nach einem Sonderplädoyer auf Basis eines undefinierten Begriffs.
      Man kann die Existenz von Bewusstsein nicht einmal beweisen; es zur Voraussetzung zu machen, ist unproduktiv.
      Ohne auf philosophische Debatten zu warten, bauen wir bereits Maschinen, die denken und schlussfolgern.
    • Liest man Howard Gardners Theorie der multiplen Intelligenzen, sieht man, dass menschliche Intelligenz viele Formen hat — sprachliche, emotionale, natürliche und weitere.
      In KI-Debatten geht es aber immer nur um eine einzige Art von Intelligenz.
      Religion oder Meditation betonen, dass Bewusstsein „im Körper verankert“ ist, während AGI-Debatten solche transzendenten Aspekte als Defekt behandeln.
    • Wir wollen gar kein Bewusstsein.
      Sobald Bewusstsein entsteht, kommen Autonomie und Rechte ins Spiel.
      Die Industrie will ein „gehorsames Werkzeug“ ohne moralische Verantwortlichkeit.
    • Bewusstsein ist nicht messbar.
      Ich kann mir nur bei mir selbst sicher sein, dass ich Bewusstsein habe.
      Deshalb ist Bewusstsein kein nützlicher Indikator für Intelligenz.
  • Menschliche Intelligenz losgelöst von Biologie zu betrachten, halte ich für falsch.
    Menschliches Denken ist tief in biologischen Zuständen und evolutionären Zyklen verwurzelt.
    Schachstärke lässt sich vergleichen, aber menschliche Emotion und Schlussfolgerung liegen näher an Biologie als an Logik.

    • Die größte Grenze heutiger KI ist aus meiner Sicht das Fehlen von Wollen (desire).
      Ohne Hunger, Tod und Emotionen gibt es keine innere Motivation, aus eigenem Antrieb zu erforschen oder sich zu verbessern.
      Menschen wachsen von innen heraus, KI wird von außen trainiert.
      Deshalb glaube ich nicht, dass LLMs AGI im menschlichen Sinn erreichen werden.
    • Es gibt allerdings keinen Beleg dafür, dass Bewusstsein oder Emotionen zwingend eine biologische Grundlage brauchen.
    • Der aktuelle KI-Boom steht auf dem Glauben, Intelligenz lasse sich schlicht durch Komplexität und Energieeinsatz simulieren.
      Ich bin dieser Annahme gegenüber jedoch skeptisch.
      Am Ende wird „Intelligenz“ wahrscheinlich einfach neu definiert, damit sie zu dem passt, was KI zeigt.
    • Tatsächlich wissen wir nicht einmal, was Intelligenz oder Bewusstsein überhaupt sind.
      Das sind eher religiöse Fragen; wir beschreiben sie nur technisch.
      LLMs können sich dieser Beschreibung annähern, ohne deshalb echte Intelligenz zu sein.
    • Wenn außerirdisches Leben auf Silizium statt Kohlenstoff basieren würde, könnten wir dann seine Intelligenz bestreiten?
      Ich denke nicht, dass Intelligenz an menschliche Biologie gebunden ist.
  • Dieses Paper wirkt, als hätte man SAT-Punkte mit Venture-Capital-Bewertungen vermischt.

  • AGI als „KI mit allen kognitiven Fähigkeiten des Menschen“ zu definieren, ist bereits vage.
    Das Paper behauptet, eine „konkrete Definition von AGI“ zu liefern, stützt sich aber weiterhin auf den unklaren Maßstab des „gut gebildeten Erwachsenen“.
    KI hat den Erwachsenenniveau in mehreren Bereichen bereits überschritten.
    Das im Paper beschriebene „zackige (jagged)“ kognitive Profil ist in Wahrheit bei jeder Intelligenz umweltabhängig vorhanden.
    Daher ist das keine Definition von AGI, sondern nur ein Rahmen zur Messung kognitiver Ungleichgewichte von KI.

    • Wenn der Maßstab der „gut gebildete Erwachsene“ ist, dann wäre der Großteil der Menschen in der Geschichte seltsamerweise kein AGI.
    • Es gibt auch Forschung dazu, dass verschiedene Maße menschlicher Intelligenz stark korrelieren.
      Bemerkenswert ist, dass KI viel stärker unausgewogen (jagged) ist als Menschen.
  • KI ist technisch zwar interessant, aber die Diskussion „Was ist AGI?“ ist furchtbar ermüdend.
    Es fühlt sich an, als müsste man bei jedem Gespräch über Quantencomputing zuerst wieder erklären, „was ein Qubit ist“.
    Technologie ist kein Zielzustand, sondern ein Prozess fortlaufender Verbesserung.
    Am Ende wird jede Technologie alt und bleibt nur noch als Nostalgie zurück.
    Auch KI wird sich weiterentwickeln, aber wir sind nur Frösche im langsam erhitzten Wasser, die sich an das Tempo gewöhnen.

    • Wenn Technologie allerdings einen Punkt erreicht, an dem sie sich selbst weiter verbessert, wäre das eindeutig ein bemerkenswerter Wendepunkt.
      Kein Endziel vielleicht, aber durchaus etwas, das Diskussion verdient.
    • Diese Debatten wirken oft wie endlose Wiederholungen auf Philosophie-Einführungsniveau.
      Das Wesen von Bewusstsein und Denken wird seit Jahrhunderten diskutiert.
      Was wie neue Einsicht aussieht, ist oft nur alte Philosophie in neuer Verpackung.
  • Grundsätzlich falsch an diesem Paper ist, dass es Messinstrumente für menschliche Intelligenz unverändert auf Maschinen anwenden will.
    Der „dual N-back test“ soll zum Beispiel Unterschiede im Arbeitsgedächtnis bei Menschen messen, ist für Transformer-Modelle aber bedeutungslos.
    Tests menschlicher Intelligenz wurden unter der Annahme entwickelt, dass sie mit Leistung in der realen Welt korrelieren.
    Dass eine KI bei einem IQ-Test gut abschneidet, bedeutet daher nicht, dass sie sich in der realen Welt wie ein hochintelligenter Mensch verhält.

  • Wir haben bereits SAGI (Stupid Artificial General Intelligence).
    In manchen Aspekten ist sie schneller oder besser als Menschen, in anderen gleichzeitig dumm.
    Das ist wie bei Flugzeugen: Sie fliegen nicht wie Vögel, können aber trotzdem fliegen.

    • Ich halte das Konzept „low floor / high ceiling“ für nützlicher.
      Eine passende Diskussion dazu findet sich in When Will AI Transform the Economy?.
    • Auch der Ausdruck „Naive Artificial General Intelligence“ gefällt mir.
      Ähnlich wie die von Mathematikern verwendete „Naive Set Theory“ ist das ein simples, aber praktisches Konzept.
    • Ich finde das eine gute Analogie.
  • Interessant ist, dass auf HN die meisten aktuelle KI als „Fake“ oder „Spielzeug“ abtun, während die erfolgreichsten Menschen der Welt Billionen Dollar hinein investieren.
    Ich weiß nicht, wer recht hat, aber dieser extreme Kontrast ist faszinierend.

    • Erfolg ist letztlich nur ein Maß dafür, wie gut man das Geld anderer einsammeln kann.
      Man kann auch mit wertlosen Dingen erfolgreich sein.
  • Dass GPT-5 auf 58 % gekommen sein soll, wirkt viel zu hoch.
    In Wirklichkeit ist es AGI nicht so nahe.
    Außerdem ist es seltsam, Gary Marcus und Yoshua Bengio gemeinsam in einem Paper zu sehen.
    Inzwischen wirkt selbst die Autorenliste wie eine Performance.

    • Dabei fällt mir der Spruch aus der KI-Entwicklung ein: Die ersten 90 % sind leicht, aber das letzte 1 % ist schwerer als die restlichen 99 %.