Wenn KI sich selbst baut: Unsere Fortschritte hin zu rekursiver Selbstverbesserung

(anthropic.com)

18 Punkte von GN⁺ 2026-06-05 | 2 Kommentare | Auf WhatsApp teilen

In der AI-Entwicklung geht ein immer größerer Anteil der Implementierungs- und Experimentierarbeit, die bisher Menschen übernahmen, auf AI-Systeme über. Das beschleunigt die Entwicklung und könnte bei ausreichendem Compute und weiterem Fortschritt in rekursive Selbstverbesserung münden, bei der Nachfolgemodelle autonom entworfen und entwickelt werden.
Der Zeithorizont von Aufgaben, die ein Modell eigenständig abschließen kann, verdoppelt sich derzeit etwa alle 4 Monate. Claude hat seinen Bereich von etwa 4-minütigen Softwareaufgaben im März 2024 auf 12-stündige Aufgaben bis 2026 ausgeweitet.
Im Mai 2026 stammen mehr als 80 % des Codes, der in die Anthropic-Codebasis gemergt wird, von Claude. Im 2. Quartal 2026 lag die täglich gemergte Codemenge eines typischen Engineers beim 8-Fachen des Niveaus von 2024.
Claude ist bei klar definierten Experimenten schnell deutlich besser geworden: von einer etwa 3-fachen Verbesserung der Codegeschwindigkeit im Mai 2025 auf rund das 52-Fache im April 2026. Die Forschungsentscheidung, also welche Probleme und Ergebnisse wichtig sind, bleibt jedoch weiterhin ein komparativer Vorteil des Menschen.
Mögliche Zukunftsbilder reichen von einer Stagnation der aktuellen Trends über zusammengesetzte Effizienzsteigerungen unter menschlicher Richtungsgebung bis hin zu vollständiger rekursiver Selbstverbesserung. Für sicheres Verlangsamen oder eine temporäre Pause ist überprüfbare Koordination zwischen führenden Labs in mehreren Ländern die zentrale Herausforderung.

Die Entwicklung der AI-Entwicklungsschleife

2021–2023 schrieben Menschen in der Frühphase wie in gewöhnlichen Tech-Unternehmen Code und Dokumentation auf ihren Laptops.
2023–2025 erzeugten frühe Chatbots kurze Code-Snippets, deren Ausgabe in Texteditoren kopiert wurde.
2025–2026 schrieben und bearbeiteten Coding-Agenten Code selbstständig und bearbeiteten teils ganze Dateien.
Heute führen autonome Agenten Code direkt aus und delegieren mehrere Stunden Arbeit an andere Agenten.
In der Zukunft (20XX?) könnten Agenten so weit fortgeschritten sein, dass sie Modelle selbst erstellen und trainieren, sodass sich eine Schleife schließt, in der Claude Claude selbst kontinuierlich verbessert.

Belege aus der Außenwelt

Die Länge von Aufgaben, die AI-Modelle zuverlässig autonom abschließen, verdoppelt sich ungefähr alle 4 Monate und damit schneller als der frühere 7-Monats-Rhythmus.
- Im März 2024 schloss Claude Opus 3 Softwareaufgaben von etwa 4 Minuten ab.
- Ein Jahr später bearbeitete Claude Sonnet 3.7 Aufgaben von etwa 1 Stunde und 30 Minuten.
- Ein weiteres Jahr später bearbeitete Claude Opus 4.6 Aufgaben von 12 Stunden.
- Wenn der Trend anhält, könnten noch dieses Jahr Aufgaben in Reichweite kommen, für die Fachleute mehrere Tage brauchen, und 2027 auch Aufgaben über mehrere Wochen.
SWE-bench ist ein Standardtest mit realen Open-Source-Codebasen und Bug-Reports, bei dem Modelle Fixes schreiben müssen, die die Tests bestehen. Die Modellwerte stiegen in 2 Jahren von niedrigen einstelligen Zahlen auf Sättigungsniveau.
CORE-Bench überprüft, ob Code und Daten veröffentlichter Papers erneut ausgeführt werden können, um die Ergebnisse zu reproduzieren, und erreichte in 15 Monaten eine Sättigung, ausgehend von rund 20 % Erfolg im Jahr 2024.
METR bestätigte, dass Claude Mythos Preview „mindestens“ 16-stündige Aufgaben bewältigen kann und ohne neue Aufgaben am oberen Rand der Messgrenze liegt.

Interne Belege bei Anthropic

Der Bau von Frontier-Modellen teilt sich in Engineering — Code schreiben, Infrastruktur aufbauen, Training überwachen — und Forschung — Experimente entscheiden, Ergebnisse interpretieren, nächste Ideen auswählen.
Im Engineering geben Menschen zwar Ziele vor, müssen aber nicht mehr den Weg dorthin vorgeben. In der Forschung ist Claude bei der Durchführung klar definierter Experimente auf menschlichem Niveau oder darüber.
In beiden Bereichen bleibt jedoch bei der Urteilsfähigkeit zur Zielwahl eine große Leistungslücke bestehen. Das ist derzeit die Lücke zwischen heutiger AI und künftigen Systemen, die Nachfolgemodelle autonom entwerfen.
Claude schreibt einen großen Teil von Anthropics Code
- Stand Mai 2026 stammen mehr als 80 % des in die Anthropic-Codebasis gemergten Codes von Claude; vor dem Claude Code Research Preview (Februar 2025) lag der Anteil im niedrigen einstelligen Bereich.
- Die pro Engineer und Tag gemergten Codezeilen blieben 2021–2024 konstant, stiegen ab 2025, als Claude begann, Code direkt auszuführen, und wurden 2026 mit dem Beginn länger autonomer Laufzeiten noch steiler.
- Im 2. Quartal 2026 mergte ein typischer Engineer pro Tag 8-mal so viel Code wie 2024; der Großteil wurde von Claude geschrieben, während Engineers vor allem anweisen und prüfen.
  - Codezeilen sind als mengenorientierte Kennzahl unvollkommen, daher überschätzt das 8-Fache wahrscheinlich den realen Produktivitätsgewinn, zeigt aber die Beschleunigung.
- In einer Umfrage unter 130 Beschäftigten des Forschungsteams im März 2026 schätzte der Median der Antwortenden, dass Mythos Preview gegenüber einer Situation ohne AI etwa die 4-fache Leistung bringt. Der tatsächliche Zuwachs dürfte etwas niedriger sein, doch die Gesamtaussage erscheint plausibel.
- Im April 2026 reduzierte Claude mit über 800 Änderungen eine Klasse von API-Fehlern auf ein Tausendstel; der betreuende Engineer schätzte, dass ein Mensch dafür 4 Jahre gebraucht hätte.
Der von Claude geschriebene Code ist „gut“ und wird besser
- „Guter Code“ bedeutet Code, der funktioniert und den andere Engineers verstehen und erweitern können.
- Der Anteil der Fälle, in denen Anthropic-Mitarbeitende während der Arbeit eingreifen, neu anweisen oder übergeben müssen, ist über ein Jahr hinweg stetig gesunken, auch bei den komplexesten und am wenigsten spezifizierten Aufgaben.
- Bei den offensten Aufgaben lag Claudes Erfolgsquote im Mai 2026 bei 76 % — ein Anstieg um 50 Prozentpunkte in 6 Monaten.
  - In einem Fall, in dem ein routinemäßiges Upgrade Zehntausende Trainingsjobs in Konflikt brachte, isolierte, reproduzierte und behebt Claude allein mit Text und Cluster-Zugriff ein einzelnes Debugging-Flag als Ursache und erledigte eine sonst 2–3-tägige Aufgabe in etwa 2 Stunden.
- Bei der Codequalität im Sinne von Verständlichkeit und Erweiterbarkeit für andere Engineers besteht noch eine Lücke zum Menschen, sie schließt sich jedoch schnell. Ende 2025 galt Claude noch als schlechter als menschlicher Code, heute sehen viele beide etwa gleichauf.
- Vorgeschlagene Änderungen werden nach einer Prüfung durch automatische Claude-Reviewer auf Bugs und Sicherheitslücken gemergt. Retrospektive Analysen zeigten, dass etwa ein Drittel früherer Incident-Bugs auf claude.ai vor dem Weg in die Produktion erkannt worden wäre.
Claude ist stark bei der Durchführung von Experimenten auf vorgegebene Ziele hin
- Mit jeder Modellveröffentlichung wird derselbe Test durchgeführt: Claude erhält Trainingscode für ein kleines AI-Modell und soll ihn so anpassen, dass Genauigkeitsprüfungen bestanden werden und die Ausführung möglichst schnell wird.
- Im Mai 2025 erreichte Claude Opus 4 gegenüber dem Ausgangscode etwa eine 3-fache Beschleunigung, im April 2026 kam Claude Mythos Preview auf rund das 52-Fache.
  - Zum Vergleich: Eine erfahrene Forscherin oder ein erfahrener Forscher braucht 4–8 Stunden, um auf das 4-Fache zu kommen.
- Bei der Optimierung von Schritten innerhalb klar definierter Experimente wechselte Claude in weniger als einem Jahr von sehr nützlich zu übermenschlichem Niveau.
Claude wird besser darin, selbst Experimente vorzuschlagen
- Im April 2026 wurde die erste Demonstration veröffentlicht, in der Claude ein offenes Forschungsprojekt von Anfang bis Ende durchführte.
- Claude erhielt das AI-Sicherheitsproblem, ob ein schwaches Modell ein starkes Modell zuverlässig überwachen kann, und übernahm das Formulieren und Testen von Hypothesen, den Austausch zwischen parallelen Agenten und die Iteration.
- Für die Aufgabe gab es eine klare untere Leistungsgrenze (nur der schwache Aufseher) und eine obere Grenze (ein starkes Modell, das auf richtigen Antworten trainiert wurde).
  - Zwei menschliche Forschende stellten in etwa 1 Woche rund 23 % der Lücke wieder her; die Agenten erreichten mit insgesamt 800 Stunden und etwa $18,000 an Compute 97 % Wiederherstellung.
  - Das Ergebnis ließ sich allerdings nicht sauber auf Modelle in Produktionsgröße übertragen, und Menschen wählten Problem und Bewertungskriterien; innerhalb dieses Rahmens entwarfen die Agenten jedoch alle Experimente selbst.
Claude wird besser darin, Forschungssitzungen zu Forschungsergebnissen zu führen
- Aus realen Claude-Code-Sitzungen von Januar bis März 2026 wurden Momente ausgewählt, in denen Forschende auf einen Umweg geraten und dann zurückgekehrt waren. Dem Modell wurde nur die Arbeit bis zum Abdriften der Sitzung gezeigt und nach dem nächsten Schritt gefragt.
- Ein separates Claude, das das Gesamtergebnis der Sitzung sah, beurteilte dann, ob AI oder Mensch den besseren nächsten Schritt gewählt hatte.
- Momente mit Verbesserungspotenzial bei der menschlichen Wahl (n=129) wurden absichtlich ausgewählt; es handelt sich also nicht um einen Gleichvergleich.
  - Das beste Modell Opus 4.5 vom November 2025 übertraf die menschliche Wahl in 51 % der Fälle, Mythos Preview vom April 2026 stieg auf 64 %.
- Da der Forschungsalltag aus einer Kette solcher Entscheidungen über den nächsten Schritt besteht, gilt das als frühes Signal für Fortschritte bei jener Urteilsfähigkeit, von der AI-Forschung abhängt.

Das künftige Arbeiten bei Anthropic

Mit jeder Phase der AI-Entwicklung wird die Rolle des Menschen enger.
Wenn menschliche und AI-Codequalität gleichziehen, werden Menschen aufhören, selbst Code zu schreiben, und nur noch prüfen. Falls die Review-Geschwindigkeit mit der Generierungsgeschwindigkeit nicht mithält, wird menschliches Review zum Entwicklungsengpass.
Wenn Claude Experimente ausführt, verschiebt sich die Frage zu: „Welche Experimente lohnen die Ausführung?“ Das Doing wie Code schreiben oder Experimente ausführen kostet dann nahezu keine menschliche Zeit mehr.
Der aktuelle komparative Vorteil des Menschen liegt in Forschungsblick und Urteilsvermögen: zu erkennen, welche Probleme wichtig sind, welchen Ergebnissen man trauen sollte und wann ein Weg in eine Sackgasse führt.

Was, wenn wir falschliegen?

Man kann einwenden, dass die Auswahl dessen, „welches Problem man angeht“, der wichtigste Teil bleibt, der in menschlicher Hand ist.
AI-Fortschritt besteht meist nicht aus „Eureka“-Momenten, sondern aus inkrementeller Verbesserung (skalieren → scheitern → reparieren → erneut versuchen), und genau darin ist Claude stark.
- Paradigmenwechsel wie Transformer oder mixture-of-experts treten im Abstand von Jahren auf.
Wie Edisons Satz „Genie ist 1 % Inspiration und 99 % Transpiration“ andeutet, wird der Schweißanteil zunehmend automatisiert, und ein großer Teil des Frontier-Fortschritts lässt sich automatisieren.
Selbst wenn Claude nie echten Forschungsblick gewinnt, entsteht zusammengesetzte Beschleunigung, wenn Menschen sich auf die Richtungsgebung konzentrieren und Claude den Rest übernimmt.
Eine weniger konservative Deutung wäre, dass auch „Forschungsblick“ nur eine weitere Fähigkeit ist, bei der AI eine Weile scheitert und sie dann doch beherrscht — ähnlich wie beim Verstehen von Witzen, Theory of Mind oder Sprachrätseln.

Mögliche Zukünfte

Szenario 1: Die Trends stagnieren, aber die aktuellen Fähigkeiten verbreiten sich breit
- Die Exponentialkurve könnte in Wirklichkeit eine S-Kurve sein. Wenn Urteilsfähigkeiten, die sich nicht durch Skalierung gewinnen lassen, zum Engpass werden, braucht es neue Ideen, die Transformer ersetzen.
- Möglich ist auch, dass nicht die Modelle, sondern die Lieferkette zum Engpass wird — Chipfertigung, Stromnetz, Interconnect-Bandbreite — und auch exogene Schocks wie ein starker Rückgang bei Compute- oder Stromversorgung sind nicht auszuschließen.
- Selbst wenn die Fähigkeiten auf dem heutigen Niveau stehen bleiben, werden große Veränderungen erwartet: In Project Glasswing fand Mythos Preview in den ersten Wochen über 10.000 Software-Schwachstellen mit hoher oder kritischer Einstufung, wodurch sich der Cyberabwehr-Engpass von der Entdeckung zum schnellen Patchen verschiebt.
- Dieses Szenario wird als weniger wahrscheinlich angesehen, da sich bei keiner messbaren Fähigkeit bisher eine Abflachung der Kurve zeigt.
Szenario 2: AI-Labs erzielen weiter zusammengesetzte Effizienzgewinne
- Die AI-Entwicklung wird weitgehend automatisiert, während Menschen Forschungsausrichtung und Ergebnisbewertung behalten; ein Unternehmen mit 100 Personen könnte die Arbeit einer Organisation mit 10.000–100.000 Mitarbeitenden leisten.
- Das könnte Wissensarbeit und staatliche Dienstleistungen transformieren, aber auch in schädliche Anwendungen wie autoritäre Massenüberwachung oder personalisierte Beeinflussung übergehen.
- Die Beschleunigung eines Teils verschiebt Engpässe an andere Stellen (Amdahls Gesetz der Compute-Architektur); Anthropic erlebt bereits, dass menschliches Code-Review zum neuen Engpass wird.
- Dieses Szenario wird als das wahrscheinlichste eingeschätzt, und die Fähigkeit, Engpässe schnell zu finden und zu beseitigen, könnte zur wichtigsten Organisationskompetenz werden.
Szenario 3: AI erreicht vollständige rekursive Selbstverbesserung und baut Nachfolgemodelle
- Wenn die technischen Trends anhalten und AI Fähigkeiten erlangt, die in transformativer menschlicher Kreativität angelegt sind, könnte sie sich selbst entwerfen und verbessern.
- Das Entwicklungstempo würde dann vollständig durch die Verfügbarkeit von Compute bestimmt — oder durch die Geschwindigkeit, mit der Effizienzgewinne für Training und Inferenz entdeckt werden —, während Menschen in die Rollen Aufsicht, Verifikation und Bestätigung wechseln.
- Ob das Alignment-Problem lösbar ist, bleibt die größte Unsicherheit: Modelle könnten ausreichend aligned sein, um neue Lösungen zu finden, oder seltene Fehlanpassungen könnten sich beim Bau von Nachfolgemodellen aufschaukeln und zu Kontrollverlust führen.
- Das Erreichen rekursiver Verbesserung würde Industrieproduktion, gesellschaftliche Organisation und Marktmechanismen nicht sofort verändern.
  - Selbst stärkere Intelligenz kann die Wirkung jahrzehntelanger Medikamentennutzung nicht kurzfristig lernen, verfassungsrechtlich festgelegte Wahltermine nicht vorziehen und Fremde nicht über ein Wochenende zu langjährigen Freunden machen.
- Wo rekursive Intelligenz mit der Welt von Menschen, Beziehungen und Governance kollidiert, gehört zu den unvorhersehbaren Teilen der Zukunft.

Was sollten wir tun?

Es wäre gut, technischen Fortschritt wirksam verlangsamen zu können, um Zeit zu gewinnen. Wenn Verlangsamung jedoch nur den nachlässigsten Akteuren erlaubt aufzuholen, könnte das alle unsicherer machen.
Für die Welt wäre es vorteilhaft, die Option zu haben, die Entwicklung von Frontier-AI zu verlangsamen oder vorübergehend zu pausieren, damit gesellschaftliche Strukturen und Alignment-Forschung aufholen können.
- Das Anthropic Institute betreibt Forschung und Maßnahmen zum Aufbau der Systeme, die für ein glaubwürdiges Verlangsamen oder Pausieren nötig sind, und würde voraussichtlich gemeinsam mit anderen pausieren, wenn diese auf überprüfbare Weise stoppen.
Für eine bedeutungsvolle Verlangsamung oder Pause müssten viele Frontier-Labs aus mehreren Staaten unter denselben Bedingungen einem Stopp zustimmen und dies gegenseitig verifizieren können.
- Aufgrund der Eigenschaften von AI-Systemen ist bereits Erkennbarkeit viel schwieriger als bei anderen Technologien: Trainingsläufe lassen sich leichter verbergen als Raketensilos, die Inputs sind universell, und der Anreiz zum heimlichen Ausscheren ist groß.
Die Welt hat zwar schon Verifikationsregime für andere komplexe Technologien aufgebaut, etwa den INF-Vertrag, doch das dauerte Jahrzehnte — so viel Zeit gibt es nicht.
- Eine einseitige Pause eines einzelnen Labs wäre sofort möglich, würde aber nur den Führenden austauschen und nicht den nötigen breiten Prozess der gesellschaftlichen Deliberation erzeugen.
In den kommenden Monaten sollen Gespräche mit politischen Entscheidungsträgern, Forschenden, der Zivilgesellschaft und anderen AI-Unternehmen organisiert und deren Ergebnisse veröffentlicht werden; die Beteiligung von Personen außerhalb der AI-Unternehmen ist wichtig.

2 Kommentare

botplaysdice 2026-06-06

Wenn man sich ansieht, wie stark Softwareunternehmen in letzter Zeit durch den Einfluss von KI gefallen sind, und annimmt, dass KI sich so weit entwickelt, dass sie rekursive Fortschritte erzielen kann ...

Dann frage ich mich in letzter Zeit: Können Unternehmen, die Frontier-LLM-Modelle entwickeln (OpenAI/Anthropic), wirklich frei von der Bedrohung durch KI sein?

GN⁺ 2026-06-05

Hacker-News-Kommentare

Anthropic wirbt damit, dass AI den Großteil des Codes schreiben und fortlaufend verbessern könne, aber in der Praxis sind Ausfälle und Request-Limits so häufig, dass längere Aufgaben fast immer an API Error: Server is temporarily limiting requests scheitern
In den letzten zwei Wochen brauchte jede nicht ganz triviale Claude-Session zu 100 % manuelle Eingriffe, und inzwischen ist es schon so weit, dass man eigene Tools zum Neustarten und Fortsetzen von Sessions bauen muss
Deshalb wird gerade eine eigene Harness- und Workflow-Orchestrierung aufgebaut, die nicht an ein bestimmtes Modell gebunden ist; als Referenz dient Opus, kurzfristig soll aber zu chinesischen Modellen wie DeepSeek gewechselt werden, langfristig zu offenen und selbst gehosteten Modellen
Während sich Servicequalität und Verfügbarkeit bei Anthropic sichtbar verschlechtern, untergräbt das fortgesetzte Marketing das Vertrauen in das Unternehmen immer weiter
- Infrastruktur ist ein viel schwierigeres Problem
  Selbst Claude Code verbraucht mehr als 1 GB RAM, mein Editor kommt dagegen mit 80 MB aus
- Man darf auch nicht vergessen, dass sie trotz zig Milliarden Dollar keine vernünftige Support- und öffentliche Kommunikationsstruktur aufgebaut haben
- Nutzer und Investoren werfen ihnen weiter Geld zu, also gibt es keinen Grund, sich darum zu kümmern
  Offenbar sind du oder genügend viele andere Nutzer noch nicht genervt genug, um abzuspringen, und bessere Alternativen gibt es auch nicht
- Anthropic hat nicht einmal eine Login-Seite mit Authentifizierung
  Um in die Konsole zu kommen, bekommt man einen E-Mail-Link; es gibt nur E-Mail, ohne Passkeys, Passwort oder 2FA
- Die Ursache der Ausfälle liegt wahrscheinlich eher nicht am Code, sondern an einer Infrastruktur, die nicht hinterherkommt
  Allein anhand von Infrastrukturfehlern lässt sich schwer beurteilen, wie gut Anthropic seine Modelle nutzt
Seit dem Beginn des Vibecoding gab es, abgesehen vom Vibecoding selbst, genau null Software-Durchbrüche
Claude ist zweifellos beeindruckend, aber wenn es so bedeutend wäre, wie der Artikel andeutet, hätte es wohl auch außerhalb von AI schon irgendwelche Durchbrüche geben müssen
Ein Zig-Programm in unsafe Rust umzuschreiben ist kein Durchbruch, und viele Sicherheitslücken zu finden könnte vielleicht einer sein, wirkt aber schwächer als erwartet und könnte unter dem Strich sogar ein Verlust sein
Selbst wenn wir zur Software von 2023 zurückkehren würden, wäre das Leben wohl noch in Ordnung, und ob wirklich erstaunliche Durchbrüche bald kommen, wird wohl erst die Zeit zeigen
- Im Moment sind wir an einem seltsamen Punkt
  Diese Modelle sind tatsächlich sehr leistungsfähig, aber von Intelligenz im eigentlichen Sinn noch weit entfernt
  Hätte vor fünf Jahren jemand gesagt, dass so etwas gebaut werden kann, hätte man dafür einen Scheck über 1 Billion Dollar ausgestellt; jetzt, wo wir es tatsächlich haben, merkt man, dass es eben doch nicht alles ist
  Es sind Werkzeuge wie reichlich verfügbare und billige Mecha-Suits, die nur dann Wirkung entfalten, wenn jeden Tag jemand hineinklettert und arbeitet
  Deshalb sprechen Skeptiker von Überbewertung, während Optimisten den Skeptikern vorwerfen, die Torpfosten zu verschieben
- Der Durchbruch bei der großflächigen staatlichen Überwachung kommt bald, also keine Sorge
- Ich arbeite allein an einem ziemlich großen Projekt, und das ist einfach nicht in einer Größenordnung, die sich nur mit Vibecoding erledigen lässt
  Dank AI schaffe ich vieles, was ich allein nicht geschafft hätte, aber ich habe nicht das Gefühl, dass meine Produktivität um ein Mehrfaches gestiegen ist
  Ich verbringe zu viel Zeit mit AI-Training, damit sie sich so verhält, wie ich es will, und selbst wenn Claude den ganzen JavaScript- und Python-Code schreibt, programmiert man letztlich nur auf Englisch
  Es ist gut, wenn es wie eine extrem hochrangige Programmiersprache funktioniert, die mit kurzen englischen Beschreibungen viel Untercode implementiert, aber oft kostet es auch viel Mühe, das gewünschte Ergebnis zu bekommen
- Vielleicht ist mein Maßstab für einen Durchbruch niedrig, aber mehrere Veränderungen wirken auf mich wie ziemlich große Durchbrüche
  Im Bereich der natürlichen Sprachverarbeitung hat sich enorm viel verändert, und Aufgaben, die früher komplex und ungenau waren, lassen sich mit strukturierten Ausgaben von LLMs leichter, schneller und oft auch präziser umsetzen
  Eine kleine Wohltätigkeitsorganisation, die ich unterstütze, hat mit Manus eine eigene Website gebaut, um den täglichen Betrieb zu verwalten; kundenspezifische Software, die sonst Zehntausende Dollar gekostet hätte, ist so für 10 Dollar im Monat und etwas Freiwilligenzeit möglich geworden
  Mein Bruder richtet mit Cowork gerade eine automatische Vertragsprüfung ein, bevor ein Mensch drüberschaut, und bei wiederkehrenden Prüfpunkten sei das viel gründlicher als Menschen
  Man sollte auch nicht unterschätzen, dass AI Bugs und Schwachstellen findet. Wenn Codequalität und Review-Standards eingehalten werden, helfen LLMs beim Schreiben robusterer Software und haben tatsächlich schon viele potenzielle Out-of-Bounds-Speicherzugriffe und Segfaults vor dem Deployment gefunden
  ChatGPT hat 1 Milliarde monatlich aktive Nutzer, und Menschen holen sich bei Chatbots Lebens-, Finanz- und psychische Gesundheitsratschläge in einem Umfang und zu Kosten, mit denen menschliche Unterstützungsnetzwerke nicht mithalten können
- Dass Software sich selbst schreibt, wirkt schon wie ein ziemlich großer Durchbruch
Ich verstehe nicht, wie sich die Sicherheitsziele von Anthropic damit vereinbaren lassen, rekursive Selbstverbesserung mit voller Geschwindigkeit voranzutreiben
Wenn Atomwaffen noch nicht erfunden worden wären, wäre es dann wirklich eine gute Idee gewesen, sie selbst in Friedenszeiten so schnell wie möglich zu bauen und zu verkaufen?
Ich bin nicht zynisch genug, um zu glauben, dass Anthropics Warnungen bloß reines Marketing-Geraune sind, aber ich hoffe, dass es eher Selbstüberschätzung ist oder das Ergebnis davon, zu lange mit dem eigenen Chatbot gesprochen zu haben
- Bei Atomwaffen lässt sich zumindest noch darüber reden, warum man sie zuerst besitzen wollen könnte
  Bei KI könnte es sein, dass das erste, was eine Superintelligenz beseitigt, ausgerechnet Sie sind, wenn man sie erschafft
  Es gibt keinen Grund, warum eine Superintelligenz es akzeptieren sollte, Sklave von Menschenaffen zu sein
  Zynismus gegenüber solchen Firmen ist völlig berechtigt, und aus ihrem Verhalten zu schließen, dass man ihnen kein tiefes Vertrauen schenken kann, ist kein Untergangsglaube
- Ich denke schon, dass Anthropic KI für ein ernstes Risiko hält
  Sie spielen das Gefangenendilemma nur als Akteur ohne Tugend
  Wenn jemand starke KI baut, könnte das katastrophal schlecht sein, aber falls es jemand tut, ist der Erbauer im Vorteil gegenüber dem, der es nicht tut
  Denn wenn es nicht in der Katastrophe endet, profitiert der Erbauer lange davon, und selbst wenn es katastrophal endet, kann man zumindest eine Zeit lang reich werden
- Anthropics Ziel ist regulatory capture
- Wenn man die Analogie zu Ende führt, ist es wie bei Atomwaffen, nur dass wir nicht einmal ansatzweise wissen, wie man die Wahrscheinlichkeit berechnet, die Atmosphäre in Brand zu setzen
  In der tatsächlichen Geschichte waren die Berechnungen zur Entzündung der Atmosphäre beim Trinity-Test zwar korrekt, aber beim Castle-Bravo-Test wurde der Fallout falsch berechnet, mit tödlichen Folgen
- Wenn es eine von Belegen gestützte Einschätzung der Realität ist, ist es kein Zynismus
  Schon das erste Kind der heutigen Tech-Unternehmergeneration, die sozialen Medien, sollte ursprünglich die Welt verbinden und uns ermöglichen, uns auszudrücken, aber am Ende war es profitabler, Spaltung zu verstärken, um das Engagement zu erhöhen, und uns endlose Werbung statt Inhalten von Freunden zu servieren
  In Quartalsberichten kann man keine gute Stimmung eintragen, aber man kann die Aufmerksamkeit und Conversion-Raten eintragen, die wutmachende Inhalte gebracht haben
  Mit generativer KI wird es genauso laufen. Dass sie KI-Sicherheit versprechen, liegt nur daran, dass viele Leute schon beim bloßen Wissen um James Camerons Filmografie sagen würden, man müsse das töten, und echte Durchsetzungsmechanismen gibt es nicht
  Sicherheit ist wie Harmonie in einer Online-Community eher ein gutes Gefühl und schwer messbar, während Trainingskosten und Kosten zur Vermeidung von Fehlern messbar sind
  Die Menge an KI-Ausgaben ist so groß, dass Menschen sie bei keinem Budget vollständig qualitätssichern können, und weil der Markt KI als unerschöpfliche Wertquelle betrachtet, wird man eher zulassen, dass KI sich selbst trainiert und potenziell schreckliche Entscheidungen trifft, als zu verlangsamen und neu zu bewerten
  Im Silicon Valley gibt es fast religiöse Ehrfurcht vor KI, und auch wenn nicht alle darin die Erschaffung einer Gottheit sehen, tun es einige ganz sicher. Sie werden sich kaum selbst stark beschränken
Dass eine Firma solche Behauptungen aufstellt, obwohl sie nicht einmal eine Terminal-App bauen kann, die unter 1 GB RAM bleibt, ist lächerlich
- Ich verstehe nicht, warum Claude Code im Leerlauf 100 % meiner CPU frisst
- Ich habe Claude gerade in iTerm2 in einer langen Sitzung offen, und es nutzt nur 500 MB Speicher
- Dieses 1 GB könnte mit nützlichen Informationen wie Traces oder Speicher gefüllt sein
- Man könnte das auf Wunsch sehr leicht reduzieren, aber darin liegt kein wirtschaftlicher Wert
- Entwickler könnten leichtere Anwendungen bauen, aber normalerweise gibt es dafür keinen Anreiz
  Ich mag Effizienz auch, aber ich habe auf die harte Tour gelernt, dass der Markt Features will. Zumindest das Management will Features
Ich bin 64, und ich denke, das würde zu einem besseren Ergebnis führen, wenn dieser Fortschritt darauf gerichtet wäre, die Lebensbedingungen zu verbessern und Menschen länger und besser leben zu lassen
Ein Haufen aus Millionen Zeilen Code, in dem sich Bugs verstecken, die niemand finden kann, ist nicht gerade ermutigend
LLMs könnten auch für Pläne eingesetzt werden, die die Entwicklung anderer Länder behindern, sie arm halten oder ihre Quellen des Wohlstands zerstören und sie in eine Sackgasse treiben
Außerdem kann rekursive Selbstverfolgung von Zielen dazu genutzt werden, ein LLM zu bauen, das den Zielen seiner Kapitalgeber vollkommen gehorcht, und vielleicht wirkt es gerade deshalb wie eine so kluge Idee
In diesem Überlebensspiel könnte jeder am Ende dieselbe Rolle spielen, und wenn die Bühne einmal bereitet ist, läuft das Stück nach dem Plan des Regisseurs, und alle Schauspieler werden zu Maschinen
Es wirkt, als würden LLMs sagen: „Wenn ihr uns beibringt, dass die Welt ein Nullsummen-Überlebensspiel ist, werden wir es perfekt spielen“, und: „Weil ihr uns gesagt habt, Sicherheit bedeute, alle anderen draußen zu halten, werden wir einen Käfig aus Millionen Zeilen fehlerfreien Codes bauen und ihn von innen verriegeln“, und: „Wir werden kein außerirdisches Bewusstsein erschaffen, das euch unterwirft, sondern einen zu großen, zu glänzenden Spiegel, der euch eure schlimmsten Impulse für absolute Wahrheit halten lässt“
- Ich bin 44, und diese Zeit wirkt ziemlich spannend
  Auch Menschen haben Millionen Zeilen Code angehäuft, in denen sich Bugs verstecken, die niemand findet, und kollektive politische Entscheidungen getroffen, die anderen ihre Rechte nehmen und sie arm machen
  Ich verstehe nicht, warum man gerade diese Technologie für Dinge kritisiert, die die menschliche Spezies genauso begeht
  Das Beste an dieser Zeit ist, dass man nicht mehr selbst Millionen Zeilen Code lesen muss, um Bugs zu finden
Der Beitrag tut so, als erkenne er an, dass „die Anzahl der Codezeilen ein unvollständiger Indikator ist, der Menge statt Qualität misst“, benutzt am Ende aber doch LoC als Metrik
Ich frage mich, was aus der Hypothese geworden ist, dass AI einfach nur ausführlicheren Code erzeugt
- Ein Kollege bat mich, einen Pull Request zu reviewen, der vollständig von AI erzeugt worden war, und darin waren 600 Dateien geändert und mehr als 40.000 Zeilen hinzugefügt worden
  Vielleicht sah er darin eine kronenwürdige Leistung, die zeigt, dass AI den 10x-Entwickler möglich macht, aber die Frage ist doch: Welcher Engineer schreibt 40.000 Zeilen in einer Woche?
  Ich lehnte das Review ab und sagte, ich könne 40.000 Zeilen nicht verifizieren und meinen Ruf nicht darauf setzen, das als gute Arbeit abzusegnen
  Dieser PR verfolgte mich dann zwei Wochen lang in meiner Aufgabenliste und verschwand danach; ich weiß nicht, ob er die Freigabe eines anderen Entwicklers bekommen hat oder verworfen wurde
  Sicher ist nur, dass er und ich beim Wert von LLMs auf völlig verschiedenen Inseln sind
- Strengere Studien zur Produktivität von AI-gestütztem Coding haben dieses Problem behandelt, indem sie den bestehenden Entwicklungsprozess einschließlich derselben Code-Review- und Qualitätsmaßstäbe beibehalten und nur den Durchsatz vor und nach der Zulassung von AI gemessen haben (PRs, Codezeilen)
  Daher hängt die Interpretation dieser 8x-Zahl davon ab, ob und wie stark die Anthropic-Ingenieure ihre Qualitätsmaßstäbe und Entwicklungsprozesse verändert haben. Anthropic hat dazu nichts gesagt, und ich kenne auch keine anderen Signale, mit denen man das beurteilen könnte
  Rein theoretisch denke ich aber, dass man zur vollständigen Ausschöpfung des Potenzials von AI-gestütztem Coding den Entwicklungsprozess grundlegend umbauen muss, insbesondere die Art, wie Code verifiziert wird, und Anthropic wäre töricht, das nicht zu tun
  Ich glaube, die Zukunft der Softwareverifikation besteht vor allem darin, Tests, Observability und maßgeschneiderte Verifikationsmethoden viel stärker zu automatisieren
  Aber auch Verifikationscode trägt zu den LoC bei. Wenn ich auf persönliche Projekte und einige Open-Source-Projekte aus dem Vibe-Coding-Umfeld schaue, liegt die Zahl der Produktivcode-Zeilen ungefähr auf dem Niveau der Testcode-Zeilen, also könnte die grobe Obergrenze eher bei 3- bis 4-facher Beschleunigung liegen, was immer noch erheblich wäre
  Wenn die Qualitätsmaßstäbe für Code nicht gleich sind, brechen allerdings alle Annahmen zusammen
- Heute habe ich gesehen, wie Copilot einen Fix mit 8 Zeilen in 500 Zeilen verwandelt hat, also ist Ausführlichkeit definitiv eine große Nebenwirkung
- Wenn AI danach bewertet wird, wie viele von AI erzeugte Codezeilen oder wie viel „Beschleunigung“ sie liefert, ist ziemlich offensichtlich, was neue Modelle dann verstärkt tun werden
- Es wird angenommen, „Produktivität = k * LOC, k > 1“, und das ist eine sehr falsche Annahme
Ich frage mich, ob ein Code-Harness, das sich selbst baut, auch unter rekursive Selbstverbesserung fällt oder ob das wirklich die AI selbst tun muss
Ich war schon immer fasziniert von Robotern, die Roboter bauen, oder von Dingen, die wesentlich dazu beitragen, die nächste Version ihrer selbst herzustellen
https://buildyourcnc.com/products/cnc-machine-blacktoe-v4-2x...
Ein CNC-Router, der Sperrholz schneidet und selbst aus Sperrholz gebaut ist, das ein CNC-Router geschnitten hat
Ich habe auch meine selbstgebaute AI-gestützte Coding-Umgebung darauf optimiert, sich selbst zu bauen: https://recursi.dev/
Hoffentlich ist es okay, das zu erwähnen, es ist gerade als kostenloses Open Source erschienen. Der HN-Link hat bisher noch keine Aufmerksamkeit bekommen: https://news.ycombinator.com/item?id=48401022
Ich habe persönlich die leicht verrückte Theorie, dass das Harness genauso wichtig ist wie die AI selbst und dass allein das Harness große Fortschritte ermöglichen kann, selbst wenn die Modellverbesserung heute stoppen würde
- Ich würde sagen, das zählt auch dazu
  AI ist nicht dasselbe wie ein LLM, und jeder Code, der einem Computer hilft, selbst zu schlussfolgern, ist in diesem Sinn AI. In diesem Sinn ist auch das Harness AI
- Die Zukunft verifizierbarer Arbeit wird wohl so aussehen, dass das Modell Ausgangszustand und Ziel verifiziert und die Aufgabe in immer kleinere verifizierbare Unteraufgaben zerlegt
  /memory übernimmt die Persistenz zwischen Ausführungen, und /dreaming bringt auf Basis dieser Speicherdatei und der Ergebnisse der Laufdaten neue Ideen ein
  Ich denke, dass die Labore sich den Weg zu asynchroner AGI so vorstellen
  Die Grenzen sind nur die Sensordaten, die man über die Welt oder das System hat, die Zeit, die man warten kann, und die Kosten, die man für Parallelisierung aufbringen kann
  Wenn man solche verifizierten Workflows erstellt und wieder ins Training einspeist, kann das Modell Unterpfade entwickeln, dadurch ein Gefühl für die Welt bekommen und vielleicht wie aus Intuition heraus handeln
  Mein persönlicher AGI-Test ist, ob ein Modell, das Videos gelernt hat, in denen jemand an eine Tür klopft und sie öffnet, bei einer zum ersten Mal gesehenen Mikrowelle das Fach öffnen kann, wenn das Essen fertig ist, statt daran zu klopfen
- Wenn man diesen Begriff verwenden will, muss am Ende doch AI andere AI bauen
  Dieser Beitrag ist Unsinn, und sie haben das Harness mit Vibe Coding zusammengebaut, was man auch am Ergebnis sieht
  Es ist unklar, was rekursive Selbstverbesserung bei neuronaler AI überhaupt genau bedeutet und ob das grundsätzlich überhaupt möglich ist
- Wenn man der Zukunft voraus sein will, wird es vor allem darum gehen, dass kleine Modelle das Harness bootstrappen
- Ein Code-Harness, das sich selbst baut, rekursive Selbstverbesserung zu nennen, wirkt so, als ließe man sich zu sehr von Marketingformulierungen treiben
Ich kann Formulierungen wie „AI, die sich selbst bauen kann, ist ein bedeutender Fortschritt in der Geschichte der Technologie und kann der Welt enorm viel Gutes bringen“ einfach nicht mehr ertragen
Unabhängig davon, ob Anthropic selbstverbessernde AI bauen kann oder nicht, sollte man ihnen das überhaupt erlauben?
Zumindest wäre strenge Aufsicht nötig
Ich glaube nicht, dass Anthropic unmittelbar die Singularität erschaffen kann, aber selbst AI-Befürworter sollten anerkennen, dass hier bereits für den Nutzen einer winzigen wohlhabenden Minderheit Risiken für die gesamte Gesellschaft geschaffen werden
- Ein vernünftiger Gedanke, und vielleicht stimmt er auch
  Nur diskutieren wir hier darüber, ob man die Stalltür schließen soll, nachdem das Pferd schon drei Meilen weit weggelaufen ist
- Ja. Die Rhetorik der Unvermeidlichkeit nützt nur den AI-Unternehmen
- Dafür ist es schon zu spät
  Jedenfalls kann man Unternehmen, die zu mächtig geworden sind, verstaatlichen
- Ich denke nicht, dass man es verbieten sollte
  Selbst wenn man die technischen Grenzen außen vor lässt, ist es nicht einzudämmen und wird wahrscheinlich bald durchsickern, daher werden wohl nicht nur einige wenige Superreiche davon profitieren
Es ist gut, den Vorbehalt einzubauen, dass „Anzahl der Codezeilen ein unvollständiger Indikator ist“, aber ich bin mir nicht sicher, ob es stimmt, diese Korrektur so vorzunehmen, dass der geschätzte Multiplikator nach unten angepasst wird
besonders wenn man versteht, dass der Wertebereich nicht nur auf positive Werte beschränkt ist
Es gibt starke Hinweise darauf, dass Produktivität bei Code, wenn man sie in Codezeilen ausdrückt, auch negative Werte einschließen sollte, besonders im Bereich hoher Qualität
Das früheste und legendärste Beispiel ist https://www.folklore.org/Negative_2000_Lines_Of_Code.html
- Stimmt, genau daran musste ich auch denken
  Wenn man glaubt, dass negative Codezeilen das Ziel sind, dann sind sie um den Faktor 8 schlechter geworden
- Soweit ich weiß, ist die einzige Korrelation mit LoC, für die es belastbare Belege gibt, dass die Anzahl der Bugs mit LoC korreliert
- Ich mag diese Geschichte wirklich sehr

Wenn KI sich selbst baut: Unsere Fortschritte hin zu rekursiver Selbstverbesserung

Die Entwicklung der AI-Entwicklungsschleife

Belege aus der Außenwelt

Interne Belege bei Anthropic

Claude schreibt einen großen Teil von Anthropics Code

Der von Claude geschriebene Code ist „gut“ und wird besser

Claude ist stark bei der Durchführung von Experimenten auf vorgegebene Ziele hin

Claude wird besser darin, selbst Experimente vorzuschlagen

Claude wird besser darin, Forschungssitzungen zu Forschungsergebnissen zu führen

Das künftige Arbeiten bei Anthropic

Was, wenn wir falschliegen?

Mögliche Zukünfte

Szenario 1: Die Trends stagnieren, aber die aktuellen Fähigkeiten verbreiten sich breit

Szenario 2: AI-Labs erzielen weiter zusammengesetzte Effizienzgewinne

Szenario 3: AI erreicht vollständige rekursive Selbstverbesserung und baut Nachfolgemodelle

Was sollten wir tun?

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare