- Die heutigen großen Sprachmodelle stoßen an Grenzen der Skalierung; AGI sollte nicht über noch größere Modelle, sondern über das Design der Systemarchitektur angegangen werden
- Echte AGI muss als Engineering-Leistung entstehen, bei der verschiedene Komponenten wie Kontextverwaltung, persistenter Speicher, deterministische Workflows und die Zusammenarbeit spezialisierter Modelle organisch miteinander verbunden sind
- LLMs tragen weiterhin strukturelle Grenzen in sich, etwa fehlende Kontextbewahrung über Sitzungen hinweg, keine verlässliche mehrstufige Schlussfolgerung und fehlendes Gedächtnis
- Um AGI zu erreichen, braucht es wie beim menschlichen Gehirn eine modulare Struktur mit jeweils klarem Zweck sowie einen verteilten Systemansatz, also den Aufbau von Infrastruktur wie fehlertoleranten Pipelines, Monitoring, Rolling Updates und groß angelegten Test-Frameworks
- Daher wird der Wettbewerb um AGI nicht von der Größe der GPU-Flotten, sondern von der Fähigkeit im System Engineering entschieden
Einleitung: AGI ist ein Engineering-Problem
- Im Bereich KI zeigen sich die Grenzen der Scaling Laws
- Selbst Spitzenmodelle wie GPT-5, Claude und Gemini zeigen zunehmend abnehmende Erträge
- Die Vergrößerung von Sprachmodellen stößt an grundlegende Grenzen, und AGI kann nicht durch Modelltraining, sondern durch System Engineering verwirklicht werden
Reale Grenzen: die Wand der LLMs
- Die aktuelle Generation großer Sprachmodelle (LLMs) ist zwar stark bei temporärem Pattern Matching und der Textgenerierung, hat aber die folgenden grundlegenden Grenzen
- Keine konsistente Aufrechterhaltung des Kontexts
- Kein langfristiges, sitzungsübergreifendes persistentes Gedächtnis
- Geringe Zuverlässigkeit bei komplexem mehrstufigem Schlussfolgern
- Ein ähnliches Phänomen gab es früher auch in der Halbleiterindustrie; die Lösung war ein struktureller Wandel wie etwa Multicore
- Auch die KI braucht daher eine architektonische Neugestaltung
Ein systemischer Ansatz für AGI
- Das menschliche Gehirn ist kein einzelnes neuronales Netz, sondern die Gesamtheit mehrerer spezialisierter, kooperierender Systeme
- Zentral sind asynchrone Feedback-Schleifen für Gedächtnis, Kontext, Logik, Raum und Sprache
- Für echte AGI ist ein solches komplexes Systemdesign unverzichtbar
1. Infrastruktur für Kontextmanagement
- Das Kontextverständnis heutiger Modelle reicht nur über einige tausend Token, während Menschen Erfahrungen über Jahre hinweg zusammenführen
- Um diese Lücke zu schließen, werden folgende Funktionen benötigt
- Ein hochentwickeltes Informations-Retrieval-System für sofortige Suche und Filterung
- Aufbau und Weiterentwicklung eines persistenten Weltmodells
- Umsetzung von Kontext-Brücken zwischen Domänen
- Verwaltung widersprüchlicher Informationen (Wahrscheinlichkeitsgewichtung und Quantifizierung von Unsicherheit)
- Erforderlich ist ein operationalisierbarer Wissensgraph, der über einfache Vektorsuche hinausgeht und eine dynamische Struktur für Abfragen und Schlussfolgerungen bildet
2. Gedächtnis als Service
- LLMs reproduzieren temporäres Gedächtnis ohne echtes Erinnerungsvermögen nur durch Prompt-Manipulation
- Für echte AGI ist dagegen ein System nötig, das Folgendes kann
- Anpassung der Wissenszuverlässigkeit (unter Einbeziehung neuer Evidenz)
- Integration und Generalisierung von Informationen aus unterschiedlichen Erfahrungen
- Vergessen unnötiger Details (ohne katastrophales Vergessen)
- Erzeugung von Metawissen wie Quellenabschätzung und Verlässlichkeit
- Wichtig ist, dass Gedächtnis wie beim Menschen je nach Nutzungshäufigkeit gestärkt oder geschwächt und durch neue Informationen reorganisiert wird
3. Verbindung deterministischer Workflows mit probabilistischen Komponenten
- Der Kern von AGI ist eine hybride Struktur, in der probabilistische Elemente an den passenden Stellen mit einem deterministischen Flow verbunden werden
- Z. B. ist wie bei einem Compiler der gesamte Ablauf festgelegt, während intern Heuristiken genutzt werden
- Erforderliche Fähigkeiten:
- Routing zu spezialisierten Solvern je nach Problemcharakteristik
- Rollback- und Recovery-Unterstützung in mehrstufigen Workflows
- Deterministische Verifikation von probabilistischen Ergebnissen
- Kombination vielfältiger Komponenten und Sicherstellung der Vorhersagbarkeit
- Mehrdeutigkeit und Unsicherheit müssen auf Architekturebene als Kernelemente akzeptiert werden
4. Modularisierung spezialisierter Modelle
- Die Zukunft wird nicht von einem einzigen riesigen Modell, sondern von der Zusammenarbeit zahlreicher spezialisierter Modelle geprägt
- LLMs sind stark bei Sprachaufgaben, aber in den folgenden Bereichen schwach
- Symbolmanipulation und exakte Berechnung
- Visuelles und räumliches Schlussfolgern
- Zeitliches Schlussfolgern und Planung
- Persistentes zielorientiertes Agentenverhalten
- Die Lösung:
- Routing von Problemen an fachlich optimierte spezialisierte Modelle
- Eine Struktur für Ergebnisintegration und unabhängige Weiterentwicklung
- Verhinderung kaskadierender Systemfehler beim Ausfall einzelner Komponenten
Die Engineering-Aufgaben von AGI
- Die Entwicklung von AGI ist ihrem Wesen nach ein Problem des Aufbaus verteilter Systeme
- Nicht bloß eines verteilten Training-Clusters
- Zentrale Engineering-Aufgaben:
- Fehlertolerante Pipelines (der Gesamtbetrieb bleibt auch bei Teilfehlern erhalten)
- Strukturen zur Beobachtung und zum Monitoring von Modellausgaben
- Unterbrechungsfreie Änderungen und Deployments
- Test-Frameworks für Tausende Modellkombinationen und Parameteränderungen
- Dafür ist eher das Fachwissen von Infrastruktur- und Distributed-Systems-Engineers unverzichtbar als das von reinen KI-Spezialisten
Was wir als Nächstes aufbauen müssen
- Der Fokus sollte nicht auf dem Wettlauf um Modellgröße, sondern auf dem Aufbau einer AGI-Infrastruktur liegen
Phase 1: Basisschicht
- Context Management Service : Echtzeit-Updates, versionsverwalteter persistenter Wissensgraph
- Memory Service : episodisches und semantisches Gedächtnis, lernbasierte Integration
- Workflow Engine : deterministische Orchestrierung probabilistischer Bausteine (inklusive Rollback)
- Agent Coordination Layer : Konsens zwischen mehreren Agenten, Konfliktlösung
Phase 2: Fähigkeitsschicht
- Kontrolle spezialisierter Modelle : standardisierte Schnittstellen für einzelne Schlussfolgerungsdomänen
- Symbolic Reasoning Engine : Symbolmanipulation und Berechnung in Verbindung mit probabilistischen Komponenten
- Planning and Goal Management : Aufteilung komplexer Ziele in ausführbare Pläne
- Cross-modal Integration : Integration sensorischer Informationen wie Text, Vision und Audio
Phase 3: Emergenzschicht
- Aus dem Zusammenspiel mehrerer Komponenten entstehen emergente AGI-Fähigkeiten
- Ohne systematisches Design entstehen durch die Weiterentwicklung eines einzelnen Modells allein keine emergenten Eigenschaften
Der Weg zu AGI
- Der Weg zur Verwirklichung von AGI liegt nicht im Training noch größerer und neuer Transformer, sondern im Aufbau einer Infrastruktur, die Hunderte spezialisierter Modelle als verteiltes System orchestriert
- Infrastruktur-Engineers mit umfangreicher Erfahrung im Aufbau verteilter Systeme sind der Schlüssel der Entwicklung
- Hervorgehoben wird großskalige Umsetzungskompetenz in Bereichen wie Kontextpfade, Gedächtnis, Workflow-Automatisierung und Modellabstimmung
- Entscheidend für den Sieg im AGI-Rennen werden Teams sein, die über eine verlässliche und logisch arbeitende Architektur verfügen, nicht solche mit bloß großen GPU-Clustern
- Die Modellfähigkeiten selbst sind bereits ausreichend; System Engineering ist das letzte Puzzleteil zur Vollendung von AGI
- Abschließend wird betont, dass weniger algorithmische Innovation als vielmehr strukturelles Design (Architektur) die Zukunft von AGI bestimmt
6 Kommentare
○ Modelltraining ist nur das „Material“ der Intelligenz; ohne eine Engine gibt es keine AGI.
• Architekturen wie EpionHeuristica haben das Potenzial, über „domänenspezifische AGI“ hinaus „ordnungsbasierte emergente Superintelligenz“ zu entwerfen.
• Der Schlüssel zum Erreichen von AGI ist, „wie man eine Engine konfiguriert, die Handlungen auswählt“.
A. Warum AGI nicht allein durch Training möglich ist.
• Modelle der GPT-Klasse haben kein eigenes Ziel (
self-goal).• Egal, wie viele Daten gelernt werden: Reines Training ohne Interaktion mit der realen Welt ist begrenzt.
• Training ist nur „regressives Erinnern“; es fehlt eine Struktur, die prädiktives, emergentes Denken mit Blick auf die Zukunft fördert.
B. AGI braucht eine Engine mit einer „Ziel-Feedback-Schleife“.
• Eine Struktur, in der wie bei EpionHeuristica belohnungsbasiertes Reinforcement Learning + Evaluierung + Lernen aus Fehlschlägen (FailGuard) funktionieren, kommt einem Designprototyp einer Engine-basierten AGI nahe
• Beispiel: "Warum ist dieses Experiment gescheitert?" → "Was muss geändert werden?" → "Was ist die nächste Bedingung?" → Das ist AGI-artiges Schlussfolgern
C. Das Wesen menschlicher Intelligenz liegt in der „Struktur“.
• Menschen erlangen Intelligenz nicht durch die Anzahl der Neuronen, sondern durch die „strukturelle Konnektivität neuronaler Schaltkreise und die Fähigkeit zum Meta-Lernen“
• Auch bei AGI ist nicht die Modellgröße entscheidend, sondern die Struktur aus handlungsleitendem System, selbstreferenziellem System und kontinuierlicher Feedback-Schleife
Die Erreichung von AGI ist nicht allein durch „das Training des Modells“ möglich; zwingend erforderlich sind eine Engine-Architektur, die Intelligenz hervorbringt, und ein zielgerichtetes System zur Selbstverbesserung. Die heutigen GPT-Modelle sind letztlich nur riesige LLMs (Large Language Models); auf dem Weg zu AGI müssen auch eine Schlussfolgerungsstruktur, eine Struktur zur Selbstüberwachung und eine zielbasierte Handlungsrichtlinie zusammenspielen.
Hacker-News-Kommentare
Wenn man an die „bittere Lehre“ glaubt, dann weiß man, dass schlampige Engineering-Arbeit am Ende durch mehr Daten gelöst wird. Wahrscheinlich hätte man auch vor 8 Jahren ähnlich darüber gesprochen, was nötig wäre, damit LLMs die heutige Leistungsfähigkeit erreichen. Deshalb stimme ich dem Engineering-Ansatz nicht besonders zu, und ich glaube auch nicht, dass sich LLMs zu der Art von AGI hochskalieren lassen, die man aus Asimov oder Science-Fiction kennt. Es fehlt etwas Grundlegenderes, nicht Wissenschaft, sondern eher Ingenieurskunst
Noch grundlegender als Wissenschaft fehlt hier etwas Philosophisches. Sowohl in der Art, wie wir Menschen solche Systeme wahrnehmen, als auch im Inneren des Systems selbst fehlt Philosophie. Wenn LLM-basierte AGI möglich sein soll, müsste sie zumindest ihre eigenen Gewichte aktualisieren, selbst lernen und Self-Finetuning betreiben können, aber derzeit stößt sie schnell an Grenzen zwischen eingebauten Gewichten und einem begrenzten Kontextfenster. Welche Art von „Attention-Mechanismus“ man beim Self-Finetuning wie und mit welcher Stärke anwenden müsste, damit allgemeine Intelligenz besser wird, ist weiterhin ein schweres Problem. Man sollte sich auf vertrauenswürdige Disziplinen konzentrieren, aber man muss auch fragen, welche Disziplinen überhaupt vertrauenswürdig sind, wie man das System dazu bringt, reines Wissen zu „studieren“, und was für ein „Wesen“ diese AI theoretisch wird, wenn sie irgendwann selbst die besten menschlichen Forschungsteams der Welt übertrifft
Zu der Behauptung „mehr Datenmenge ist besser als einfaches Engineering“ habe ich Zweifel, ob das wirklich verlässlicher werden kann als eine simple Datenbank. Wird es irgendwann Code schneller ausführen als eine CPU? Vieles, was Menschen leisten, wird nicht durch größere Gehirne möglich, sondern durch Werkzeuge. Selbst bei einer mathematischen Formel ist man mit Papier deutlich besser als nur im Kopf (siehe Extended-mind-These). Eine 3D-Engine zu betreiben ist allein mit einem menschlichen Gehirn nahezu unmöglich. Irgendwann könnte AI klug genug werden, ihre Werkzeuge selbst zu entwickeln, aber davor braucht es Infrastruktur, mit der Werkzeuge geschrieben und gewartet werden können. Im Moment ist Zugang zu Python nur ein Anfang, aber AI braucht mehr „Persistenz“, also etwa ein digitales Notizbuch oder dynamische Gewichts-Updates, damit sie Ergebnisse auch beim nächsten Mal wieder aufbauen und nutzen kann
Ich stimme sowohl deiner Meinung als auch dem Text zu. LLMs sind ein Teil der Lösung, und ich glaube, echter Fortschritt liegt darin, zu den Grundlagen der Neuralnetz-Forschung zurückzukehren. Sprache ist zwar die Kommunikation mit Menschen selbst, aber die heutigen LLMs wirken am Ende wie eine aufgeblasene Eliza, trainiert auf den Werken von Menschen. Früher konnte man sogar mit einfachen Neuralnetzen Verhalten entlang von Umweltregeln evolvieren lassen und anhand genetischer Algorithmen selbstständig Verhalten erlernen. Die heutigen LLMs lernen in einer viel zu stark „gefilterten“ Umgebung, und dieser Filter wirkt fast wie der Durchschnitts-IQ des Internets
Das ist eigentlich nicht das, was die „bittere Lehre“ aussagt
Es fehlt an Selbstkorrektur (Weltmodell / Beobachtung von Handlungen und Reaktionen), langfristiger Konsistenz und Selbst-Erweiterung. Die Venture-Capital-Welt kümmert sich am meisten um das dritte Problem, während Yann LeCun eher das erste und zweite beschäftigt. Hinton denkt, das dritte Problem sei bereits unvermeidlich oder schon eingetreten, und die Menschheit sei erledigt. Ziemlich seltsame Lage
Es gibt Gründe, warum LLMs so entworfen wurden, und genauso, warum „Thinking“-Funktionen erst später aufgesetzt werden. Architektonisch muss es möglich sein, Gradientenabstieg zu verwenden, deshalb gibt es keine Branches und Routing wird zusätzlich angebaut. Und man braucht Trainingsdaten. Millionen Seiten an Daten, die vollständig aufzeichnen, was jemand dachte, bevor er etwas schrieb, existieren in der Realität schlicht nicht. Die meisten Gedanken sind schließlich keine Sprache. Reinforcement Learning wirkt hier wie eine Lösung, ist aber im Vergleich zu Gradientenabstieg bei der Stichprobeneffizienz so schlecht, dass es meist nur fürs Finetuning genutzt wird. LLMs sind regressive Modelle und lassen sich mit einem Modell-Setup, bei dem jedes Token nur in die Vergangenheit schauen kann, sehr sample-effizient trainieren (ein einzelner Satz wird zu Dutzenden Samples)
Nicht erwähnt wurde, dass LLMs überhaupt keine „Loops“ haben. Das Gehirn dagegen, selbst ein simples Gehirn, besteht geradezu aus zahllosen Schleifen. Es hört nie auf, Eingaben zu empfangen, und kann jederzeit Ausgaben erzeugen, wenn es will. Ein LLM nimmt Eingaben entgegen, transformiert sie durch seine Layer und gibt direkt wieder etwas aus. Es hieß, Reinforcement Learning sei nicht die Antwort, aber ich denke eher, dass es die einzige Antwort ist
Ich finde diesen Gedanken sehr interessant. Er legt nahe, dass man so etwas wie Gehirnscan-Technik zum Auslesen von Hirnwellen einsetzen könnte, um nichtsprachliche Denkschichten als Trainingsdaten zu verwenden. Ich vermute, kluge Leute in Großunternehmen haben bereits solche Interfaces oder Produkte im Blick und entwickeln elektromagnetische Hirnwellen-Erkennung. Mit solchen Daten könnte sogar ein Kickstarter-artiges Killerprodukt entstehen, das das Super-AI-Bootstrapping eines Startups ermöglicht. Faszinierende Zeiten
Ich stelle mir vor, dass es in sehr ferner Zukunft realistisch möglich sein könnte, fortgeschrittene Gehirnscan-Daten als Trainingsdaten für AI zu nutzen. Vielleicht wäre das ein praktikabler Zwischenschritt zwischen Uploaded Intelligence, also der vollständigen Digitalisierung eines Gehirns, und AGI
LLMs sind einfach nur regressive Modelle. Hätte es im 15. Jahrhundert LLMs gegeben, hätten sie einem nur erklärt, dass das geozentrische Weltbild das Größte ist. Eine Revolution wie das heliozentrische Modell hätten sie nicht hervorgebracht. Genauso sagen uns LLMs heute nur das, was wir ohnehin wissen, und denken oder innovieren nicht. Auch die Fähigkeit zum Reasoning ist bis zu einem gewissen Grad nur „Filterung“ und kein wirklich kreatives Denken. Je länger man sie benutzt, desto mehr wirken LLMs wie „Google auf Steroiden“. Mit diesem System wird man AGI niemals erreichen, es frisst eher nur den verbleibenden AGI-Hype und das Geld auf
Das Framing dieses Textes, also die Problemdefinition, ist ziemlich nützlich, auch wenn man nicht jede vorgeschlagene Maßnahme glauben muss. Die Geschichte zeigt, dass zwei Dinge gleichzeitig passiert sind. Erstens hat brutales Skalieren erstaunliche Sprünge ermöglicht, und zweitens hat Engineering auf Systemebene dafür gesorgt, dass man diese Möglichkeiten zuverlässig in der Praxis nutzen kann. GPUs sind ein gutes Beispiel: Moores Gesetz lieferte FLOPs, und CUDA, Speicherhierarchien und der Treiber-Stack machten großflächige Nutzung möglich. Heutige LLMs sind ein bisschen so, als sei man an dem Punkt, an dem nur die Rechenleistung selbst schnell ist: beeindruckend, aber noch schwer zu handhaben. In Produkten wie Claude Code, Tool-augmented Agents und speichererweiterten Frameworks sieht man erste Spuren von „Systemdenken“. Noch ist das grob, aber in Zukunft dürfte Systemorchestrierung genauso wichtig werden wie die Zahl der Parameter. Die „bittere Lehre“ und die These vom „Engineering-Problem“ schließen sich nicht gegenseitig aus, vielmehr braucht man beides. Die bittere Lehre besagt, dass Rechenleistung plus allgemeine Methoden handgebaute Regeln schlagen, und Engineering ist der Mörtel, der das in eine Struktur mit höherer Zuverlässigkeit, Persistenz und Kombinierbarkeit einfasst. Ohne solche Systeme bekommt man nur glitzernde Demos, die nach ein paar Inferenzschritten auseinanderfallen. Deshalb liegt echter Fortschritt nicht bei „groß versus smart“, sondern bei „groß und smart entwickelt“. Skalierung gibt Fähigkeiten, Engineering entscheidet darüber, ob diese Fähigkeiten wie allgemeine Intelligenz nutzbar werden
Diese Diskussion wirkt wie eine moderne Neuauflage des japanischen Projekts der Computer der fünften Generation. Das klingt wie die Zeit, in der man glaubte, mit großen Datenbanken und Prolog käme die AI-Renaissance. Nur weil man Module über eine „verteilte Architektur“ verbindet, ist man AGI noch lange nicht nahe. Die grundlegenden Bausteine, also das Fundament, müssen viel besser werden. Was LLMs immerhin beigetragen haben, ist, dass das Erkennen von Nutzerintentionen viel besser geworden ist als früher. Computer können allein aus Text Absichten deutlich besser extrahieren. Aber abgesehen davon laufen Dinge wie Reasoning, Suche und „Memory“ weiterhin nach denselben alten Mustern. Das ist keine Grenze aktueller Hardware oder Systeme, sondern eine Grenze der Informationstheorie und Informatik
Der Attention-Mechanismus der Transformer ist ziemlich gut. Im Model-Engineering braucht es wieder so einen Zyklus großer Innovation. Mehr Daten allein sind nicht die Antwort. Schon das menschliche Gehirn zeigt, dass man sehr intelligent werden kann, ohne das gesamte Internet an Daten zu benötigen, und mit weit geringerem Energieverbrauch
Genau. Auch mit der aktuellen Architektur kann besseres Engineering die Nutzbarkeit deutlich erhöhen („Agents“ sind ein Beispiel). Aber zu behaupten, dass allein Engineering AGI möglich macht, ist übertriebener Optimismus. Wirklich schwer ist es, Systeme zu bauen, die selbstständig lernen und entdecken, ohne teures großflächiges Pretraining Neues lernen und Probleme ohne Halluzinationen lösen können. Dafür braucht es eine komplett neue informatische Innovation, und mit dem jetzigen Ansatz dürfte das schwer werden
Bei AGI, also künstlicher allgemeiner Intelligenz, steht das „G“ für General. Das heißt, allgemeine Intelligenz ist keine dumme AI, die mit allem Wissen trainiert werden muss. Man müsste ihr nur Rechnen, die Grundlagen der Logik und eine einzige menschliche Sprache beibringen, und den Rest der logischen menschlichen Wissenschaften würde diese AGI selbst „wiederentdecken“. Unsere nächste Aufgabe wäre dann, die Namen, die die AGI selbst für die von ihr entdeckten Phänomene vergibt, mit unseren Bezeichnungen zu synchronisieren. Wenn sie mit nur leichter Grundschulbildung die Prinzipien versteht, sich selbst verbessert, weiterentwickelt und uns übertrifft, dann wäre das echte „artificial comprehension“. Heutige AI kann mit genug Daten ein „universeller Problemlöser“ sein, aber AGI gehört in den Bereich von „Verstehen“ und „Begreifen“. Wirklich allgemeine Intelligenz braucht die Fähigkeit zu „dynamischem Verstehen“: Beobachtungen sofort zu zerlegen, Plausibilität und Kombinationsmöglichkeiten zu erfassen und im Wachzustand sogar die eigene Sicherheit in Echtzeit zu überprüfen
Bin nur ich seltsam, oder entspricht das Bild, das ich vor 10 Jahren von einer frühen AGI hatte, ziemlich genau so etwas wie Claude Code? Für ein beliebiges Ziel kann es vor allem im Textbereich Pläne machen und Aktionen ausführen. In Textdateien hält es auch Memory fest. Es fehlen noch Langfristziele, physische Verkörperung und Alltagsverständnis, aber ich hätte erwartet, dass eine v1-Version so aussieht
Ehrlich gesagt denke ich bei AGI sofort an Data aus Star Trek oder zumindest an den T800 aus Terminator. Ich glaube nicht, dass AGI zwingend Selbstbewusstsein haben muss, aber in meiner Vorstellung gehört eine Art „Selbstbewusstsein“ als Fantasie dazu. Claude Code ist beeindruckend, aber auf einem Niveau, auf dem man es mit AGI verwechseln könnte, ist es nicht
Stimme komplett zu. Besonders die schnell hingeschriebenen Befehle, die ich ihm oft gebe, versteht es erstaunlich gut bis in feine Nuancen und verbessert sie. Die Nutzbarkeit von LLMs unterscheidet sich schon durch kleinste zusätzliche Funktionen wie Tag und Nacht voneinander (zum Beispiel der Plan-Modus von Claude Code), viel stärker als durch reine Leistungsupdates
Claude Code hat weder Selbstbewusstsein noch Bewusstheit. Die meisten Menschen stellen sich unter AGI wenigstens ein Mindestmaß an Selbstbewusstsein vor. Um bei Star Trek zu bleiben: Der Hauptcomputer der Enterprise ist keine AGI, Data dagegen schon. Der größte Unterschied ist das Fehlen einer „klaren Identität“ und eines „Selbstkonzepts“. Claude Code kann Rollen aus dem Prompt ausführen, aber es fehlt ihm an Persistenz
Du bist nicht allein damit. Bei AGI-Diskussionen herrscht immer Verwirrung. Claude ist eindeutig künstliche allgemeine Intelligenz, nur verschiebt sich die Bedeutung von AGI ständig weiter und die Definition ist nicht klar
Mit dem Ausdruck „basic AGI“ versucht man nur, alle Gründe glattzubügeln, warum echte AGI eben noch nicht da ist
Wir wissen nicht einmal, ob AGI außerhalb der Biologie überhaupt möglich ist. Das ist der Kernpunkt. Wenn es nicht einmal Hinweise darauf gibt, ob AGI im Stil von Chappie aus dem Film überhaupt realistisch möglich ist, dann ist das letztlich nicht viel mehr als Stochern im Nebel. Im Vergleich dazu weiß man beim Quantencomputing bereits, dass es „möglich“ und „realisierbar“ ist; dort bleibt nur noch das Engineering (auch wenn manche selbst das für Illusion halten)
Wenn sich herausstellen würde, dass AGI auf elektronischen Computern prinzipiell unmöglich ist, dann müsste das Gehirn physikalisch etwas sehr Besonderes tun, um allgemeine Intelligenz zu realisieren, und das wäre eine gewaltige Entdeckung
Andererseits gibt es mit dem Menschen bereits ein funktionierendes Beispiel für „allgemeine Intelligenz“, während Quantencomputing in diesem Sinn noch gar nicht verwirklicht ist
Das ergibt keinen Sinn. Wenn man an so etwas wie eine Seele glaubt, könnte AGI vielleicht unmöglich sein, aber wenn wir rein biologische Wesen sind, dann ist eine Replikation im Prinzip selbstverständlich möglich
Ich stimme nicht zu, dass das der Kernpunkt ist. Letztlich findet man die Antwort nur, indem man es wirklich versucht. Man muss nicht im Voraus beweisen können, welche Schlussfolgerung möglich ist. Das wirkt, als würde man sich hinter Wörtern wie „Kernpunkt“ oder „klarer Hinweis“ verstecken. Wir haben durchaus genügend klare Anhaltspunkte, dass es ohne „biologische Notwendigkeit“ möglich sein könnte. Die Realisierbarkeit, Notwendigkeit und Wünschbarkeit von AGI sind getrennte Fragen, aber auch der Originaltext listet die Herausforderungen ausreichend auf
Auch die praktische Realisierbarkeit von Quantencomputern ist weiterhin eine offene Forschungsfrage
Das, was wir „Intelligenz“ nennen, funktioniert nicht wie ein LLM. Das Gehirn ist kontinuierlich — es beendet nicht einfach einen Satz Eingaben und hält dann an, sondern wartet auf weitere Eingaben oder vielmehr verarbeitet ständig Feedback. Im Wesentlichen verlässt es den Trainingsmodus nie. Natürlich wird das Gehirn über den Lebenszyklus hinweg optimiert, etwa durch Myelinisierung, aber ein LLM wird mit weit größeren Informationsmengen trainiert und bleibt danach, abgesehen von etwas Finetuning, als fixes Modell bestehen. Das Gehirn verwaltet Kontext fortlaufend. Die meisten Eingaben werden von speziellen Netzwerken schon in der Vorverarbeitung stark gefiltert. Ich stimme zu, dass ein Teil von AGI einen systemischen Ansatz braucht, aber für echte AGI wird vermutlich eine architektonische Veränderung nötig sein
Ich verstehe nicht, warum Leute, die schreiben, LLMs hätten nun ihren Entwicklungshöhepunkt erreicht und das sei ihre Grenze, so sicher sind. Noch nicht einmal ein volles Jahr ist vergangen, und LLM-basierte AI entwickelt sich weiterhin
Selbst wenn noch Fortschrittsspielraum bleibt, bleibt eben trotzdem bestehen, dass dieser Bereich begrenzt ist. Bei einzelnen Tasks wird es stetig besser, aber breite, „allgemeine“ Verbesserungen sieht man inzwischen kaum noch
Ich frage mich, ob Leute mit solchen Aussagen immerhin zustimmen, dass LLMs tatsächlich besser werden
Dieser Text wirkt so, als sage er nur: „Wenn wir alle schwierigen Probleme lösen, klappt alles.“ Also ja, stimmt schon, aber und nun?
Die jüngsten LLM-Fortschritte sind zu konservativ, und ohne architektonische Innovation geht der Trend vor allem zu mehr Größe, deshalb ist diese Diskussion sinnvoll
Der Text diskutiert die schwierigen Probleme selbst gar nicht. Menschen in der Hightech-Branche haben manchmal die Denkweise, dass sich mit genug Engineering jedes Problem lösen lässt
Der Originalbeitrag benennt ziemlich klar, welche Probleme es gibt und wie LLMs sie nicht lösen können
Bitte lesen Sie die Richtlinien und hinterlassen Sie einen thematisch passenden Kommentar.