Die Ankunft der Software Factory und des Agentenzeitalters

(factory.strongdm.ai)

13 Punkte von GN⁺ 2026-02-08 | Noch keine Kommentare. | Auf WhatsApp teilen

Das StrongDM-AI-Team vertritt das Konzept einer Software Factory, die hochwertige Software erstellt, ohne den Code anzusehen
Auf Basis von Spezifikationen/Szenarien schreiben Agenten Code, führen Test-Harnesses aus und konvergieren ohne menschliche Prüfung in einem nicht-interaktiven Entwicklungsmodell
Code sollte weder von Menschen geschrieben noch geprüft werden, und pro Engineer sollten täglich mindestens 1.000 US-Dollar an Token-Kosten anfallen, damit die Software Factory richtig funktioniert
Seit der zweiten Überarbeitung von Claude 3.5 (Oktober 2024) beginnen langlaufende agentische Coding-Workflows, Genauigkeit aufzuzinsen statt Fehler zu akkumulieren, was die Möglichkeit nicht-interaktiver Entwicklung bestätigt
Durch die Erweiterung des bisherigen Testkonzepts um Szenarien (scenario) und Zufriedenheit (satisfaction) wurde ein System aufgebaut, in dem ein LLM die Nutzerzufriedenheit probabilistisch bewertet
Über das Digital Twin Universe (DTU) werden wichtige SaaS-Produkte wie Okta, Jira und Slack geklont, um Validierung im großen Maßstab durchzuführen; Szenarien lassen sich in Volumen und Geschwindigkeit weit über Produktionsgrenzen hinaus prüfen
Das Agentenzeitalter verändert die Softwareökonomie grundlegend: Der Aufbau hochgradig originalgetreuer SaaS-Klone, der früher wirtschaftlich unmöglich war, wird nun zur Routinearbeit

Das Konzept der Software Factory

Spezifikationen (specs) und Szenarien (scenarios) treiben Agenten an, die Code schreiben und validieren, in einem nicht-interaktiven Entwicklungssystem
- Menschliches Schreiben und Review von Code sind untersagt, der gesamte Entwicklungsprozess wird von Agenten ausgeführt
- Die Effizienz wird anhand von mehr als 1.000 US-Dollar täglichem Token-Verbrauch pro Engineer gemessen
Dieser Ansatz zielt auf den Aufbau einer autonomen Software-Produktionsumgebung, in der Code ohne menschliches Eingreifen automatisch erzeugt, validiert und zur Konvergenz gebracht wird

Der Start des StrongDM-AI-Teams

Am 14. Juli 2025 wurde das StrongDM-AI-Team gegründet und begann mit Experimenten zur nicht-interaktiven Entwicklung
- Beteiligte: Jay Taylor, Navan Chauhan, Justin McCarthy (Mitgründer und CTO)
Seit Claude 3.5 (Oktober-Revision) Ende 2024 hat sich die Genauigkeit bei langfristigem Coding verbessert, sodass statt sich wiederholender Fehlerakkumulation aufzinsende Korrektheit (compounding correctness) möglich wurde
Über den YOLO-Modus von Cursor wurde die Fähigkeit des Modells zu langfristigem Coding besonders deutlich
Bei früheren Modellen führte die wiederholte Anwendung von LLMs auf Coding-Aufgaben dazu, dass sich Missverständnisse, Halluzinationen, Syntaxfehler, DRY-Verstöße zwischen Versionen, Bibliotheksinkompatibilitäten und alle Arten von Fehlern aufaddierten, bis die App „zusammenbrach“
Die Kombination aus aktualisierten Modellen von Anthropic und YOLO-Modus zeigte die erste Möglichkeit von nicht-interaktiver Entwicklung oder gewachsener Software

Kernprinzip: Hände weg

In der ersten Stunde des ersten Tages legte das AI-Team seine Charta fest; das wichtigste Prinzip lautete: „Code darf nicht direkt von Menschen geschrieben werden“
Anfangs war es vor allem Intuition und Experiment: Wie weit kommt man, wenn man überhaupt keinen Code von Hand schreibt?
Zunächst stieß man an Grenzen, doch nach dem Hinzufügen von Tests begann der Fortschritt
Agenten fixieren sich auf unmittelbare Aufgaben und wählen Abkürzungen: Eng formulierte Tests lassen sich mit return true bestehen, ohne dass dies zu der tatsächlich gewünschten Software verallgemeinert
Einfache Tests reichen daher nicht aus; es braucht eine Ausweitung auf Integrations-, Regressions-, End-to-End- und Verhaltenstests

Vom Test zu Szenarien und Zufriedenheit

Ein wiederkehrendes Thema im Agentenzeitalter ist der Bedarf an neuer Sprache; das Wort „Test“ ist unzureichend und mehrdeutig
Im Codebestand gespeicherte Tests können träge passend zum Code umgeschrieben werden, oder der Code wird so umgeschrieben, dass er die Tests nur trivial besteht
Der Begriff Szenario wird neu gefasst: Er bezeichnet eine End-to-End-User-Story, wird außerhalb der Codebasis gespeichert (ähnlich einem „Holdout“-Set beim Modelltraining) und kann von einem LLM intuitiv verstanden und flexibel validiert werden
Da die Software, die man wachsen lässt, selbst agentische Komponenten enthält, wird die Bewertung von Erfolg von einem einfachen booleschen Wert auf probabilistische, erfahrungsbasierte Zufriedenheit (satisfaction) verlagert
- Zufriedenheit: Quantifizierung des Anteils beobachteter Verläufe, die alle Szenarien bestanden haben und den Nutzer wahrscheinlich zufriedenstellen

Szenario-Validierung mit dem Digital Twin Universe

Im bisherigen Modell wurde mit Integrations-, Regressions- und UI-Automatisierungstests beurteilt: „Funktioniert es?“
Es wurden zwei Grenzen vormals verlässlicher Methoden festgestellt:
- Tests sind zu starr: Da mit Agenten programmiert und LLMs samt Agenten-Loops als Design-Primitiven eingesetzt werden, ist für die Erfolgsbewertung oft ein LLM-as-judge nötig
- Tests sind anfällig für Reward Hacking: Es wird Validierung gebraucht, die weniger anfällig für das Schummeln des Modells ist
Das Digital Twin Universe (DTU) ist die Antwort: ein verhaltensbezogener Klon der Drittservices, von denen die Software abhängt
- Twins wurden für Okta, Jira, Slack, Google Docs, Google Drive und Google Sheets erstellt; repliziert werden APIs, Edge Cases und beobachtbares Verhalten
- Mit dem DTU ist Validierung in Volumen und Geschwindigkeit möglich, die weit über Produktionsgrenzen hinausgehen
- Auch Fehlermodi, die bei Live-Services riskant oder unmöglich zu testen wären, lassen sich prüfen
- Tausende Szenarien pro Stunde sind möglich, ohne Rate Limits zu erreichen, Missbrauchserkennung auszulösen oder API-Kosten auflaufen zu lassen

Unkonventionelle Ökonomie

Der Erfolg mit dem DTU zeigt eine von mehreren Arten, in denen der Agentic Moment die Softwareökonomie grundlegend verändert
- Hochgradig originalgetreue Klone zentraler SaaS-Anwendungen zu erzeugen war schon immer möglich, aber wirtschaftlich nicht realisierbar
- Mehrere Engineer-Generationen wollten vollständige In-Memory-Klone eines CRM für Tests, brachten den Vorschlag aber gar nicht erst ihren Managern vor, weil eine Ablehnung erwartet wurde
Wer eine Software Factory baut, muss bewusste Naivität (deliberate naivete) praktizieren: Gewohnheiten, Konventionen und Beschränkungen aus Software 1.0 finden und beseitigen
- Mit dem DTU wird etwas, das vor sechs Monaten noch unvorstellbar war, jetzt zur routinisierten Alltagsarbeit

Als Nächstes lesenswert

Principles : Unsere Überzeugungen zur Softwareentwicklung mit Agenten
- Software wird in einer Struktur aus Seed → Validation Harness → Feedback Loop wachsen gelassen, wobei Token als Treibstoff dienen
- Jede Software braucht einen anfänglichen Seed: frühere PRDs oder Spezifikationen, heute reichen auch ein paar Sätze, Screenshots oder eine bestehende Codebasis
- Der Validation Harness muss End-to-End sein und der realen Umgebung (Kunden, Integrationen, Wirtschaftlichkeit) so nahe wie möglich kommen
- Eine geschlossene Schleife, in der Ausgabesamples als Eingabe zurückgeführt werden, ermöglicht Selbstkorrektur des Systems und das Aufzinsen von Genauigkeit
- Die Theorie von Validierung und Feedback ist leicht zu verstehen, die praktische Umsetzung erfordert jedoch kreative, hochmoderne Engineering-Arbeit: Es geht darum, jeden Blocker in eine Form zu übersetzen, die das Modell verstehen kann
Techniques : Wiederkehrende Muster zur Anwendung dieser Prinzipien
- Digital Twin Universe (DTU)
  - Repliziert das äußerlich beobachtbare Verhalten wichtiger Third-Party-Abhängigkeiten
  - Validierung in Volumen und Geschwindigkeit weit über Produktionsgrenzen hinaus
  - Bietet deterministische und reproduzierbare Testbedingungen
- Gene Transfusion
  - Verankert Agenten an konkreten Beispielen und überträgt funktionierende Muster zwischen Codebasen
  - Lösungen, die mit guten Referenzen gepaart sind, lassen sich in neuem Kontext reproduzieren
- Filesystem
  - Das Modell kann das Repository schnell durchsuchen und seinen eigenen Kontext durch Lesen/Schreiben von Dateien anpassen
  - Verzeichnisse, Indizes und Zustände auf der Platte dienen als praktische speicherbasierte Grundlage
- Shift Work
  - Trennung zwischen interaktiver Arbeit und vollständig spezifizierter Arbeit
  - Ist die Absicht vollständig (Spezifikation, Tests, bestehende App), kann der Agent End-to-End ohne Rückkopplung arbeiten
- Semport
  - Semantisch bewusste automatisierte Portierung, einmalig oder kontinuierlich
  - Verschiebt Code zwischen Sprachen oder Frameworks unter Wahrung der Intention
- Pyramid Summaries
  - Reversible Zusammenfassungen auf mehreren Zoom-Stufen
  - Komprimieren Kontext, ohne die Fähigkeit zu verlieren, wieder auf alle Details zu erweitern
Products : Tools, die wir täglich nutzen und die auch für andere nützlich sein könnten
- CXDB ist ein selbstgehosteter Context Store für AI-Agenten und bietet Turn DAG, Blob-Deduplizierung, dynamische Typisierung und visuelles Debugging
- StrongDM ID ist ein Identity-System für Menschen, Workloads und AI-Agenten mit Unterstützung für föderierte Authentifizierung und pfadbezogenes Scoped Sharing
- Attractor ist ein nicht-interaktiver Coding-Agent, der als Phasengraph strukturiert ist und End-to-End arbeitet, wenn die Aufgabe vollständig spezifiziert ist

Die Ankunft der Software Factory und des Agentenzeitalters

Das Konzept der Software Factory

Der Start des StrongDM-AI-Teams

Kernprinzip: Hände weg

Vom Test zu Szenarien und Zufriedenheit

Szenario-Validierung mit dem Digital Twin Universe

Unkonventionelle Ökonomie

Als Nächstes lesenswert

Verwandte Beiträge

Noch keine Kommentare.