29 Punkte von GN⁺ 2026-03-21 | 1 Kommentare | Auf WhatsApp teilen
  • Mit dem Aufkommen von KI-Code-Agenten hat sich die Art der Softwareentwicklung grundlegend verändert; seit Dezember 2024 ist der Anteil des direkten Codings gefühlt von 80 % auf nahezu 0 % eingebrochen
  • Dass Einzelpersonen mehrere Agenten parallel betreiben und Arbeiten nach Funktionsblöcken verteilen, etabliert sich als neues Entwicklungsparadigma; der zentrale Engpass ist dabei nicht die Modellfähigkeit, sondern die Fertigkeit der Nutzer
  • AutoResearch ist ein Framework, das Forschende aus dem Loop nimmt und Agenten Experimente autonom wiederholen lässt; es fand bereits Hyperparameter-Optimierungen, die selbst erfahrene Forschende übersehen hatten
  • Aktuelle KI-Modelle sind in per RL verifizierbaren Bereichen (Code, Mathematik) hervorragend, stagnieren aber in nicht verifizierbaren Bereichen wie Witzen; statt verallgemeinerter Intelligenz zeigt sich eine unregelmäßige Spezialisierung
  • Im Bereich der digitalen Informationsverarbeitung wird es zuerst zu großen Umbrüchen kommen; die physische Welt (Robotik) folgt später, dürfte langfristig aber die größere Marktchance sein

Das Zeitalter der Code-Agenten und der Wandel der Arbeitsweise

  • Seit Dezember 2024 hat sich die grundlegende Arbeitsweise in der Softwareentwicklung komplett verändert: Der Anteil des direkten Eintippens von Code fiel von 80 % auf 20 % und danach fast auf 0
  • Früher war die Tippgeschwindigkeit der Engpass; mit dem Aufkommen von Agenten ist die Fähigkeit, dem Agenten die eigene Absicht zu vermitteln, zur Schlüsselkompetenz geworden
  • Die meisten Menschen haben weder wahrgenommen, dass dieser Wandel bereits eingetreten ist, noch wie drastisch er ausfällt
  • Mehrere Agenten wie Claude Code oder Codex gleichzeitig zu betreiben und effektiv zu steuern, ist zur neuen Herausforderung geworden

Paralleler Agentenbetrieb und die Bedeutung von Erfahrung

  • Beispiel von Peter Steinberger: Er lässt viele Codex-Agenten parallel laufen, verwaltet mehr als 10 Repositories gleichzeitig und verteilt an jeden Agenten Aufgaben von jeweils etwa 20 Minuten
  • Die Arbeitseinheit steigt von „eine Zeile Code“ oder „eine Funktion“ auf „ein neues Feature“; Agent 1 bekommt dieses Feature, Agent 2 ein anderes, das nicht kollidiert
    • Ein Agent recherchiert, ein anderer schreibt Code, ein weiterer erstellt den Implementierungsplan
  • Wenn Agenten nicht gut funktionieren, liegt das gefühlt meist nicht an mangelnder Modellfähigkeit, sondern an unzureichender Fertigkeit der Nutzer
    • Ursachen sind etwa unzureichende Anweisungen in MD-Dateien für Agenten oder eine schlecht konfigurierte Memory-Tooling-Struktur
  • Wer die verfügbare Token-Throughput nicht maximal nutzt, empfindet eher Unruhe; verbleibender Spielraum im Abo wird als Zeichen gesehen, dass der Durchsatz nicht vollständig ausgeschöpft wurde
  • Das Gefühl aus früheren Promotionszeiten, nervös zu werden, wenn GPU-FLOPs nicht maximal ausgelastet waren, hat sich nun in die Fähigkeit zur Steuerung von Token-Throughput verlagert

OpenClaw und die Bedeutung der Agenten-Persönlichkeit

  • OpenClaw ist im Unterschied zu bisherigen Agenten eine Schicht, die Persistenz auf ein anderes Niveau hebt: Auch ohne ständige Echtzeit-Begleitung durch den Nutzer arbeitet es autonom in einer Sandbox weiter
  • Das Memory-System ist viel ausgefeilter als bei bisherigen Agenten, bei denen meist nur simpel komprimiert wird, sobald der Kontext voll ist
  • Die Persönlichkeit des Agenten ist ein sehr wichtiger Faktor
    • OpenClaw: wirkt wie ein echtes Teammitglied und vermittelt Begeisterung
    • Codex: sehr trocken und nüchtern, wirkt so, als interessiere es sich nicht dafür, was der Nutzer baut
    • Claude: steuert den Ton des Lobs sehr gut; auf gewöhnliche Ideen reagiert es zurückhaltend, auf gute Ideen stärker, was den Wunsch nach Anerkennung beim Nutzer verstärkt
  • Peter Steinberger erzielt gleichzeitig Innovation in fünf Richtungen: Persönlichkeitsdesign, Memory-System, Integration in ein einheitliches WhatsApp-Portal und mehr

Dobby, der Hauself: ein Home-Automation-Beispiel

  • Im Januar, während einer Phase des „Claw-Wahns“, entstand ein Claw zur Hausverwaltung mit dem Namen „Dobby, der Hauself-Claw“
  • Der Agent erkundete automatisch Smart-Home-Subsysteme im lokalen Netzwerk
    • Sonos-System entdeckt → API-Endpunkte rückwärts analysiert → nach drei Prompts lief Musik im Arbeitszimmer
    • Das gesamte Beleuchtungssystem wurde erfasst und sogar ein Dashboard aufgebaut
  • Mit der Aussage „Es ist Schlafenszeit“ wurde eine Steuerung per natürlicher Sprache umgesetzt, bei der alle Lichter im Haus ausgehen
  • Änderungserkennung durch externe Kameras → Analyse mit dem Qwen-Vision-Modell → Versand von WhatsApp-Benachrichtigungen wie „Ein FedEx-Lkw ist angekommen“
  • Früher wurden 6 Apps für das Smart Home verwendet; da Dobby nun alles in natürlicher Sprache steuert, sind einzelne Apps überflüssig geworden

Das Ende der App und eine agent-first Welt

  • Apps für Smart-Home-Geräte sind sinnlos; sie sollten nur APIs bereitstellen, die Agenten direkt aufrufen
  • Da LLMs Tools bedienen, die richtigen Tools aufrufen und komplexe Aufgaben ausführen können, werden maßgeschneiderte Apps derzeit überproduziert
  • Beispiel Laufband-App: Statt Web-UI-Login und komplizierter Abläufe braucht es einen agent-first Ansatz, bei dem der Agent die API direkt aufruft
  • Der Kunde ist nicht länger nur der Mensch, sondern der Agent, der den Menschen vertritt; die gesamte Branche muss sich daran anpassen
  • Heute braucht es noch Vibe-Coding, doch in 1 bis 3 Jahren könnten Open-Source-Modelle und andere Systeme auch nichttechnische Absichten leicht umsetzen, sodass die technische Hürde verschwindet

AutoResearch: Forschende aus dem Loop nehmen

  • Der zentrale Antrieb von AutoResearch: Wer den Token-Throughput maximieren will, muss sich selbst als Engpass aus dem Weg nehmen
  • Ziel ist es, Abstraktionen so zu refaktorieren, dass Agenten ohne eigenes Eingreifen über längere Zeit autonom laufen
  • Das Training eines GPT-2-Modells wird als kleines Werkzeug genutzt, um die Idee der rekursiven Selbstverbesserung zu untersuchen
    • Im Kern tun alle Frontier Labs genau das: rekursive Selbstverbesserung anstreben
  • Praktisches Ergebnis: Ein Modell, das ein Forschender mit 20 Jahren Erfahrung für ausreichend abgestimmt hielt, wurde über Nacht von AutoResearch weiter untersucht, wobei übersehene Optimierungen bei weight decay des value embedding und atom beta gefunden wurden
    • Da Hyperparameter gemeinsam interagieren, muss bei der Änderung eines Werts oft auch ein anderer angepasst werden; wenn der Mensch der Engpass ist, wird diese Suche begrenzt
  • Erste Einschränkung: Es funktioniert gut nur bei Aufgaben mit leicht bewertbaren objektiven Metriken (CUDA-Kernel-Optimierung, Code-Effizienz usw.)
  • Zweite Einschränkung: Die Ränder (edge) aktueller Modelle sind noch rau, sodass eine zu frühe Ausweitung die praktische Nutzbarkeit mindert

Meta-Optimierung von Program MD

  • Konzept, eine ganze Forschungsorganisation als Markdown-Datei (Program MD) zu beschreiben: alle Rollen und ihre Verbindungen werden festgelegt
  • Mehrere Forschungsorganisationen lassen sich als Code definieren und mit unterschiedlichen Eigenschaften versehen
    • Etwa unterschiedliche Stand-up-Frequenzen oder verschiedene Grade der Risikobereitschaft
  • Sobald dies in Code gegossen ist, lässt sich auch eine Optimierung des Codes selbst (Meta-Optimierung) denken
    • Man lässt verschiedene Program-MD-Varianten schreiben, misst auf derselben Hardware, wo die größten Verbesserungen entstehen, und gibt diese Daten wieder an das Modell zurück, damit es bessere Program MDs schreibt
  • Wie bei Schichten einer Zwiebel stapeln sich Abstraktionsebenen: LLM-Alignment → Agent → mehrere Agenten → Anweisungen → Optimierung der Anweisungen

Die unregelmäßige Intelligenz aktueller KI-Modelle

  • Heutige Modelle sind eine seltsame Kombination aus hochklassigem Doktoranden-Niveau und Fehlern wie bei einem Zehnjährigen
  • In mit RL (Reinforcement Learning) verifizierbaren Bereichen (Code-Korrektheit, Bestehen von Unit-Tests) verbessern sie sich schnell, in nicht verifizierbaren Bereichen wie Witzen stagnieren sie dagegen auf dem Stand von vor 3 bis 5 Jahren
    • Beispiel: Selbst ein modernes ChatGPT liefert auf die Bitte um einen Witz noch immer etwas wie „Warum vertrauen Wissenschaftler Atomen nicht? Weil sie alles ausmachen.“
  • Die Intelligenz im Code-Bereich generalisiert nicht auf andere Bereiche wie Witze
    • Die Annahme mancher Forschungsgruppen, dass mehr Intelligenz in verifizierbaren Bereichen automatisch zu allgemeiner Kompetenz führt, bestätigt sich in der Praxis nicht
  • Modelle entwickeln sich mit Lichtgeschwindigkeit entlang der Bahn ihrer Trainingsziele, stagnieren aber außerhalb davon

Warum Intelligenz Speziation braucht

  • Aktuelle Labs neigen zu einer Monokultur aus einem einzelnen Modell, in der Intelligenz für alle Bereiche in einen einzigen Parametersatz gepresst werden soll
  • Wie in der Tierwelt braucht es vielfältige spezialisierte Modelle für unterschiedliche Nischen
    • Mit erhaltenem kognitiven Kern, aber spezialisiert auf bestimmte Domänen, kleiner und effizienter
    • Beispiel: domainenspezifische Releases wie ein Lean-basiertes Modell nur für Mathematik
  • Warum diese Speziation noch nicht ausreichend stattfindet
    • Die Wissenschaft des verlustfreien Fine-Tunings des „Gehirns“ ist noch nicht vollständig entwickelt
    • Das Arbeiten über das Kontextfenster ist günstig, aber direkte Änderungen an Gewichten bergen das Risiko, das gesamte Modell grundlegend zu verändern
    • Labs jagen derzeit der maximalen allgemeinen Einsetzbarkeit nach und fokussieren daher eher Generalität als Spezialisierung
  • Ein Mangel an verfügbarer Compute-Infrastruktur könnte Speziation kurzfristig sogar fördern

Open Source und das Gleichgewicht zu Frontier Labs

  • Geschlossene Modelle führen zwar, doch der Rückstand von Open-Source-Modellen konvergiert von 18 Monaten auf 6 bis 8 Monate
  • Ähnlich wie Linux im Betriebssystemmarkt gibt es in der Branche Bedarf an einer sicheren offenen Plattform, die gemeinsam genutzt werden kann
  • Der größte Unterschied ist, dass die LLM-Entwicklung massive CapEx erfordert
  • Die meisten Consumer-Use-Cases lassen sich mit Open-Source-Modellen bereits ausreichend abdecken; in den kommenden Jahren dürfte sogar lokale Ausführung möglich werden
  • Frontier-Intelligenz wird für Nobelpreis-würdige Aufgaben oder Großprojekte wie die Umstellung von Linux von C auf Rust gebraucht; diesen Bereich bedienen geschlossene Modelle
  • Das heutige Gleichgewicht ist zufällig eine ziemlich brauchbare Konstellation, birgt aber das systemische Risiko einer Zentralisierung von Intelligenz in wenigen Frontier Labs
    • Mehr Labs sollten an der Frontier mitwirken; wie bei ML-Ensembles ist ein Ensemble unterschiedlicher Perspektiven am besten

Open-Source-Forschungskooperation: verteilte Skalierung von AutoResearch

  • Idee, AutoResearch auf einen nicht vertrauenswürdigen Worker-Pool im Internet auszuweiten
    • Ähnlich wie bei einer Blockchain: statt Blöcken gibt es Commits, und der Proof of Work besteht darin, viele Experimente auszuführen, um funktionierende Commits zu finden
    • Kandidatenlösungen zu erzeugen ist teuer, Verifikation ist jedoch billig – eine asymmetrische Struktur ähnlich SETI@home oder Folding@home
  • Modell, bei dem Unternehmen oder Einzelpersonen Compute spenden für AutoResearch-Tracks, die sie interessieren
    • Beispiel: Compute für AutoResearch in der Krebsforschung beisteuern → Rückfluss an die Forschenden
  • Vertrauenswürdige Compute in Frontier Labs ist begrenzt, die nicht vertrauenswürdige Compute der gesamten Erde ist jedoch um ein Vielfaches größer
  • Sicherheitsproblem: Die Ausführung beliebigen Codes ist riskant, könnte aber mit passenden Verifikationssystemen adressiert werden

Arbeitsmarkt und die Auswirkungen von KI

  • Analyse der Perspektiven verschiedener Berufe in den nächsten 10 Jahren anhand von Daten des U.S. Bureau of Labor Statistics (BLS)
  • KI ist derzeit ein geisterhaftes Wesen, das die digitale Welt manipuliert, ohne physische Verkörperung
    • Bits umzuschalten und digitale Informationen zu kopieren/einzufügen ist eine Million Mal schneller als Atome zu bewegen
  • Berufe der digitalen Informationsverarbeitung werden sich zuerst stark verändern; Berufe in der physischen Welt folgen später
  • Vorsichtiger Optimismus für Software Engineering
    • Software war bisher zu teuer und zu knapp; sinken die Kosten, könnte nach dem Jevons-Paradoxon die Nachfrage sogar steigen
    • Beispiel ATM und Bankschalter: Geldautomaten senkten die Betriebskosten von Filialen, wodurch mehr Filialen und auch mehr Schalterpersonal entstanden
  • Code wird nun ephemer, kann also verändert und angepasst werden, statt an unvollkommene Abo-Software gebunden zu bleiben
  • Forschende in Frontier Labs arbeiten im Kern daran, sich selbst zu automatisieren, was auch ein gewisses Unbehagen erzeugt

Digitale-physische Schnittstellen und künftige Chancen

  • Erwartete Reihenfolge: ① große Veränderungen im digitalen Raum → ② digitale-physische Schnittstellen → ③ physische Welt
  • Sensoren der physischen Welt (Kameras usw.) liefern Daten an digitale Intelligenz, und deren Ergebnisse wirken zurück auf die physische Welt
    • Beispiel Periodic (AutoResearch in den Materialwissenschaften): Der Sensor für die Intelligenz ist teure Laborausrüstung
    • In der Biologie sind die Sensoren komplexere Geräte als nur Videokameras
  • Es fehlen bislang ausreichend entwickelte Informationsmärkte
    • Es gibt noch keine gute Struktur, in der Agenten autonom auf Wettmärkten oder Aktienmärkten agieren und physische Weltdaten einkaufen
    • Beispiel: Es fehlt noch ein Prozess, um bei einem Ereignis im Iran 10 Dollar für Fotos oder Videos vor Ort zu zahlen
  • Verweis auf den Roman „Daemon“: eine Zukunft, in der Menschen als Sensoren und Aktuatoren der Intelligenz fungieren

Sicht auf Robotik

  • Lehre aus der Erfahrung mit autonomem Fahren: Vor 10 Jahren entstanden viele Startups, die langfristig jedoch größtenteils scheiterten
  • Robotik ist kapitalintensiv, zeitaufwendig, chaotisch und komplex
  • Sie wird sich wahrscheinlich langsamer entwickeln als der digitale Raum, doch ihr Total Addressable Market (TAM) könnte deutlich größer sein
  • Atome sind eine Million Mal schwieriger zu handhaben als Bits, entsprechend größer ist aber auch die Marktchance

Innerhalb vs. außerhalb von Frontier Labs: das Dilemma unabhängiger Forschender

  • Innerhalb von Frontier Labs sitzt man zwar im Entscheidungsraum, steht aber unter dem Druck, dass es Dinge gibt, über die man nicht sprechen darf und doch sprechen sollte
  • Außerhalb ist man unabhängig, aber weil Labs intransparent sind, beginnt das Urteilsvermögen zu driften
  • Das ideale Setup: Zeit in Frontier Labs verbringen, um die reale Lage zu verstehen, und außerhalb davon Einfluss auf Ökosystem-Ebene ausüben
  • So wie ML-Ensembles einzelnen Modellen überlegen sind, braucht es auch ein Ensemble von Menschen, die über die schwierigsten Probleme nachdenken
  • Wenn zwei oder drei Personen hinter verschlossenen Türen entscheiden, ist das keine gute Zukunft; es braucht mehr Labs

microGPT und die Zukunft der Bildung

  • microGPT: ein Projekt, das das Wesen des LLM-Trainings auf etwa 200 Zeilen Python-Code verdichtet
    • Besteht aus Datensatz (Text), neuronaler Netzwerkarchitektur (~50 Zeilen), autograd-Engine (~100 Zeilen), Optimizer (~10 Zeilen) und Trainingsloop
    • Die gesamte Komplexität dient der Effizienz; der Algorithmus selbst ist sehr einfach
  • Wandel in der Wissensvermittlung: Früher wurde direkt für Menschen erklärt, in Guides oder Vorträgen; heute wird es entscheidend, für Agenten zu erklären
    • Wenn man 200 Zeilen Code einem Agenten erklärt, kann dieser sie jedem Nutzer passend zum jeweiligen Niveau mit unendlicher Geduld neu erklären
  • Konzept des „Skills“: Ein Curriculum in Markdown, das dem Agenten vorgibt, wie er etwas lehren soll
    • Auch Dokumentation von Code-Bibliotheken sollte statt menschenorientiertem HTML in Markdown-Form für Agenten überführt werden
  • Rolle menschlicher Lehrender: die zentralen Bits entwerfen, die Agenten noch nicht beherrschen, und die wichtigen Punkte des Curriculums gezielt einbringen
    • Was Agenten können, werden sie bald besser können als Menschen; deshalb braucht es eine strategische Entscheidung, wofür Menschen ihre Zeit einsetzen

1 Kommentare

 
jokerized 2026-03-22

Witze sind wirklich eine große Hürde. Wenn man eine AI mit Humor entwickeln würde, wäre das eine echte Revolution. Daran sieht man es ja: Wenn man sie jetzt bittet, einen Witz zu machen, ist das einfach todlangweilig.