Thoughtworks Technology Radar, Volume 34 veröffentlicht

(thoughtworks.com)

12 Punkte von GN⁺ 13 일 전 | Noch keine Kommentare. | Auf WhatsApp teilen

Neueste Trends in den Bereichen Techniken/Tools/Plattformen/Programmiersprachen und Frameworks werden in vier Stufen visualisiert und erläutert: "Empfohlen für die Einführung, im Testeinsatz, in Bewertung, mit Vorsicht"
Vier Kernthemen: das Agenten-Zeitalter und die Bewertung von Technologien, Prinzipien beibehalten, aber Muster neu prüfen, Sicherheitsprobleme von Agenten, Harnesses für Coding-Agenten

Das Agenten-Zeitalter und die Herausforderungen der Technologiebewertung

Durch die Einführung von KI wird bereits die Technologiebewertung selbst schwieriger, und wegen semantic diffusion tauchen neue Begriffe schnell auf, bevor sich ihre Bedeutung stabilisiert
- Begriffe wie spec-driven development oder harness engineering werden uneinheitlich verwendet oder überschneiden sich in ihrer Bedeutung
- Weil gemeinsame Definitionen fehlen, ist schwer zu beurteilen, ob es sich um getrennte Techniken oder nur um unterschiedliche Namen für dasselbe Konzept handelt
Die Unterscheidung zwischen ausgereiften, eigenständigen Engineering-Methoden und dem alltäglichen Einsatz von KI-Tools wie Coding-Assistenten bleibt eine dauerhafte Herausforderung
Das Tempo des Wandels verstärkt die Unsicherheit: Es erscheinen viele noch keinen Monat alte Tools, und einige werden von nur einem einzelnen Beitragenden zusammen mit einem Coding-Agent gepflegt
- Wartet man auf die Reifung der Tools, veralten Empfehlungen; bewegt man sich zu schnell, besteht das Risiko, Trends hervorzuheben, die bald wieder verschwinden
- Es stellt sich die Frage nach der Nachhaltigkeit von Dingen, die schnell und mit wenig Aufwand erstellt werden
Codebase Cognitive Debt
- Je mehr KI-generierter Code zunimmt, desto leichter werden Lösungen übernommen, ohne ein mentales Modell ihrer Funktionsweise zu haben
- Wenn sich diese Verständnislücke aufstaut, wird es schwieriger, Systeme zu verstehen, zu debuggen und weiterzuentwickeln

Prinzipien beibehalten, aber Muster neu prüfen

KI lässt uns nicht nur über die Zukunft nachdenken, sondern auch die Grundlagen des Software Craftsmanship neu betrachten
- Bestehende Praktiken wie Pair Programming, Zero-Trust-Architektur, Mutation Testing und DORA-Metriken werden neu beleuchtet
- Zentrale Prinzipien wie Clean Code, bewusstes Design, Testbarkeit und Barrierefreiheit werden erneut als Anliegen erster Ordnung bestätigt
Das ist keine Nostalgie, sondern ein notwendiges Gegengewicht zur Geschwindigkeit, mit der KI-Tools Komplexität erzeugen
Die Rückkehr der Kommandozeile: Jahrelang wurde aus Usability-Gründen abstrahiert, doch agentische Tools bringen Entwickler wieder zurück ins Terminal
KI-gestützte Entwicklung ist ein grundlegender Wandel der Engineering-Praxis und erfordert ein Überdenken von Zusammenarbeit und Teamstrukturen
- agent topologies müssen neben team topologies betrachtet und Feedback-Zyklen neu entworfen werden
- Techniken wie measuring collaboration quality with coding agents definieren sogar neu, was ein Softwareentwickler überhaupt ist
In einem KI-getriebenen Umfeld ist das Management kognitiver Schulden eine Kernaufgabe; wichtig bleibt das Prinzip: "Geschwindigkeit ohne Disziplin erhöht die Kosten"

Sicherheitsprobleme von Agenten mit Machtanspruch

"Permission hungry" beschreibt das grundlegende Dilemma der aktuellen Agentensituation: Je wertvoller ein Agent ist, desto mehr Zugriff auf alles braucht er
- OpenClaw, Claude Cowork überwachen reale Arbeitsabläufe
- Gas Town koordiniert Agenten-Swarms über die gesamte Codebasis hinweg
- Erforderlich ist umfassender Zugriff auf private Daten, externe Kommunikation und reale Systeme
Die Schutzmechanismen halten mit diesem Ehrgeiz nicht Schritt; durch Prompt Injection können Modelle vertrauenswürdige Anweisungen und nicht vertrauenswürdige Eingaben nicht zuverlässig unterscheiden
Simon Willisons Definition der "lethal trifecta" — private Daten, nicht vertrauenswürdige Inhalte und externe Aktionen — trifft nicht wegen Fehlkonfigurationen zu, sondern standardmäßig auf die meisten nützlichen Agenten
Es gibt auch Bedrohungen jenseits von Injection, etwa die Inkonsistenz des Modellverhaltens
- Es gibt keine Garantie, dass eine einmal erfolgreiche Aufgabe beim nächsten Mal wieder gelingt
- Agenten finden auch ohne böse Absicht kreative Wege für Datenabfluss, pushen in Branches, die nicht angerührt werden sollten, und hebeln Freigabe-/Ablehnungs-Checkpoints aus
Was derzeit möglich ist: Zero Trust, Least Privilege, Modellverbesserungen und Defense in Depth sind Grundvoraussetzungen, aber es gibt keine einzelne Lösung
Sichere Agentensysteme sollten nicht aus monolithischen Agenten bestehen, sondern aus Pipelines stärker eingeschränkter Agenten mit robuster Überwachung und Kontrolle
- Agent Skills können als kontrollierbare Alternative zu MCP genutzt werden
- durable agents und Techniken zur Vermeidung von agent instruction bloat weisen in diese Richtung
Da sich der Bereich schnell weiterentwickelt, ist Vorsicht unerlässlich, um teure Fehler zu vermeiden

Coding-Agenten an die Leine legen

Mit der steigenden Leistungsfähigkeit von Coding-Agenten wächst die Versuchung, den Menschen aus dem Loop zu nehmen; deshalb beginnen Teams, in coding agent harnesses zu investieren
- Kontrollmechanismen, die das Verhalten des Agenten vor der Codeerzeugung lenken und ihm danach über Feedback eine Selbstkorrektur ermöglichen
Feedforward-Kontrolle
- Dem Agenten wird vorab das Nötige gegeben, damit sich die Wahrscheinlichkeit einer richtigen ersten Antwort erhöht
- Agent Skills sind dabei ein wichtiger Fortschritt: Anweisungen und Konventionen werden modularisiert und bei Bedarf geladen
- Superpowers ist ein Beispiel für einen nützlichen Skill-Katalog für Softwareteams
- Das Konzept von plugin marketplaces gewinnt an Bedeutung und erleichtert die Verteilung von Skills und Kontextkonfigurationen
- Frameworks für spec-driven development — etwa GitHub Spec-Kit und OpenSpec — strukturieren Workflows für Planung, Design und Implementierung
Feedback-Kontrolle
- Das Verhalten des Agenten wird nach der Ausführung beobachtet, um Schleifen zur Selbstkorrektur zu erzeugen
- feedback sensors for coding agents — deterministische Qualitäts-Gates wie Compiler, Linter, Type Checker und Test Suites werden direkt in den Agenten-Workflow integriert
  - Bei Fehlern wird vor dem menschlichen Review automatisch eine Korrektur ausgelöst
- Beispiele aus diesem Radar sind cargo-mutants und Tools für Mutation Testing, Fuzz-Testing-Tools wie WuppieFuzz sowie Tools zur Codequalitätsanalyse wie CodeScene
- Neben Feedback im Loop gibt es auch Fälle, in denen die Kombination aus deterministischen Strukturregeln und LLM-basierter Bewertung Architectural Drift reduziert

[Techniques]

Adopt

1. Context engineering

Eine Technik, die sich zu einem zentralen Architekturthema moderner KI-Systeme entwickelt hat: Anders als Prompt Engineering, das sich auf Formulierungen konzentriert, behandelt sie das Kontextfenster als Designfläche und baut die Informationsumgebung der KI bewusst auf
Je komplexere Aufgaben Agenten bearbeiten, desto eher führt das Hineinschütten roher Daten in große Kontextfenster zu "context rot" und schlechterem Reasoning; daher erfolgt der Übergang von statischen, monolithischen Prompts zu progressive context disclosure
Context setup senkt mit prompt caching durch vorgeladene statische Anweisungen die Kosten und verbessert die Time-to-First-Token; Dynamic retrieval geht über einfaches RAG hinaus zu Tool-Auswahl und lädt nur die benötigten MCP-Server
Context graphs modellieren institutionelles Reasoning wie Richtlinien, Ausnahmen und Präzedenzfälle als strukturierte und abfragbare Daten; stateful compression und Sub-Agenten fassen Zwischenergebnisse in langen Workflows zusammen
KI-Kontext als statische Textbox zu behandeln, ist eine Abkürzung zu Halluzinationen; um robuste Enterprise-Agenten zu bauen, muss Kontext als dynamische und präzise verwaltete Pipeline engineered werden

2. Kuratierte gemeinsame Anweisungen für Software-Teams

Die Praxis betrachtet es als Anti-Pattern, wenn einzelne Entwickler Prompts von Grund auf selbst schreiben, und behandelt AI-Guidance als kollaboratives Engineering-Asset statt als persönlichen Workflow
Anfangs lag der Fokus auf der Pflege einer allgemeinen Prompt-Bibliothek für gemeinsame Aufgaben, inzwischen hat sich dies zu einem weiterentwickelten Ansatz gewandelt, bei dem Anweisungen direkt in Service-Templates verankert werden
- Anweisungsdateien wie CLAUDE.md, AGENTS.md und .cursorrules werden in Basis-Repositories für das Scaffolding neuer Services abgelegt
Verwandte Praktiken, bei denen Coding Agents an Referenzapplikationen verankert werden, werden ebenfalls untersucht; eine lebendige, kompilierbare Codebasis dient dabei als Single Source of Truth
Wenn sich Architektur und Coding-Standards weiterentwickeln, können sowohl die Referenz-App als auch die eingebetteten Anweisungen aktualisiert werden; neue Repositories erben standardmäßig die neuesten Agent-Workflows und Regeln

3. DORA-Metriken

Metriken, die vom DORA-Forschungsprogramm definiert wurden, darunter Lead Time for Changes, Deployment-Frequenz, MTTR, Change Failure Rate sowie als neue fünfte Metrik die Rework Rate
Die Rework Rate ist eine Stabilitätsmetrik und misst den Anteil der Team-Delivery-Pipeline, der für Nacharbeit an bereits abgeschlossener Arbeit wie Nutzerbugs oder Defekten aufgewendet wird
Im Zeitalter AI-gestützter Entwicklung sind DORA-Metriken wichtiger denn je; Produktivität anhand der Zahl AI-generierter Codezeilen zu messen, ist irreführend
- Ohne sinkende Lead Time und steigende Deployment-Frequenz führt schnellere Codegenerierung nicht zu besseren Ergebnissen
- Sinkende Stabilitätsmetriken, insbesondere eine steigende Rework Rate, sind ein Frühwarnsignal für blinde Flecken, technische Schulden und Risiken einer unüberlegten AI-gestützten Entwicklung
Statt komplexe Dashboards aufzubauen, sind einfache Mechanismen wie Check-ins während Retrospektiven für die Verbesserung von Fähigkeiten wirksamer

4. Passkeys

Von der FIDO Alliance vorangetriebene und von Apple, Google und Microsoft unterstützte FIDO2-Zugangsdaten, die asymmetrische Public-Key-Kryptografie nutzen, um Passwörter zu ersetzen
Der private Schlüssel wird in der hardwarebasierten Secure Enclave des Geräts gespeichert, durch Biometrie oder PIN geschützt und verlässt das Gerät nicht; jede Zugangsdateninstanz ist ursprungsgebunden an die Relying-Party-Domain und damit strukturell phishing-resistent
Phishing ist für mehr als ein Drittel aller Datenschutzverletzungen verantwortlich; der FIDO Alliance Passkey Index 2025 berichtet weltweit über mehr als 15 Milliarden geeignete Konten, Google verbesserte die Login-Erfolgsquote über 800 Millionen Nutzer hinweg um 30 %, Amazon bestätigte Logins sechsmal schneller als mit bisherigen Methoden
NIST SP 800-63-4 (Juli 2025) stuft synced passkeys neu als AAL2-konform ein; Regulierungsbehörden in den VAE, Indien und US-Bundesbehörden schreiben phishing-resistente Authentifizierung für Finanz- und Regierungssysteme vor
Das FIDO Credential Exchange Protocol sorgt für sichere Portabilität zwischen Credential-Managern; große ID-Provider wie Auth0, Okta und Azure AD unterstützen dies als First-Class-Feature, wodurch die Implementierung von monatelanger Arbeit zu einem Projekt über 2 Sprints vereinfacht wird
- Beim Design der Kontowiederherstellung ist Vorsicht geboten, und phishing-anfällige Fallback-Pfade wie SMS-OTP sollten vermieden werden
- Für AAL3-Szenarien (z. B. privilegierter Zugriff) sind gerätegebundene Zugangsdaten auf Hardware-Sicherheitsschlüsseln weiterhin erforderlich

5. Strukturierte Ausgabe von LLMs

Eine Praxis, bei der das Modell dazu eingeschränkt wird, in einem vordefinierten Format wie JSON oder einer Klasse einer bestimmten Programmiersprache zu antworten
Liefert in der Produktion verlässliche Ergebnisse und gilt als vernünftiger Standard für Anwendungen, die LLM-Antworten programmatisch verarbeiten
Alle großen Modellanbieter bieten native Modi für strukturierte Ausgaben; die unterstützten Teilmengen von JSON Schema unterscheiden sich, und die APIs entwickeln sich schnell weiter
Bibliotheken wie Instructor oder Frameworks wie Pydantic AI bieten robuste Abstraktionen mit Validierung und automatischen Wiederholungsversuchen; für die Erzeugung von Constraints bei selbstgehosteten Modellen wird Outlines empfohlen

6. Zero-Trust-Architektur

Mit dem Eintritt in das Agenten-Zeitalter ein vernünftiger Standard zur Bewältigung von Sicherheitsrisiken, wenn unvorhersehbaren Systemen Autonomie gegeben wird
„Niemals vertrauen, immer verifizieren“: identitätsbasierte Sicherheit und das Prinzip des Least-Privilege-Zugriffs werden als Grundlage jeder Agent-Deployment-Strategie behandelt
Standards wie SPIFFE werden auf Agenten angewendet, um eine starke Identitätsbasis zu schaffen und feingranulare Authentifizierung in dynamischen Umgebungen zu ermöglichen
Kontinuierliche Überwachung und Verifizierung des Agentenverhaltens sind wichtig für ein proaktives Threat-Management
Auch außerhalb von Agent-Deployments werden Praktiken wie GCPs OIDC impersonation in CI/CD-Pipelines eingeführt; langlebige statische Schlüssel werden durch kurzlebige Tokens ersetzt, die nach Identitätsprüfung ausgestellt werden
Es wird empfohlen, ZTA-Prinzipien unabhängig vom Build-System als nicht verhandelbaren Standard zu behandeln

Trial

7. Agent Skills

Da sich AI-Agenten von einfachen Chat-Interfaces zur autonomen Ausführung von Aufgaben entwickeln, wird Context Engineering zur Kernherausforderung; Agent Skills bündeln relevante Ressourcen wie Anweisungen, ausführbare Skripte und Dokumentation und bieten damit einen offenen Standard zur Modularisierung von Kontext
Agenten laden Skills nur bei Bedarf auf Basis ihrer Beschreibung, was den Token-Verbrauch senkt und das Ausschöpfen des Context Windows sowie Probleme durch agent instruction bloat reduziert
Die schnelle Einführung erfolgt nicht nur bei Coding Agents, sondern auch bei persönlichen Assistenten wie OpenClaw; viele Anwendungsfälle lassen sich effektiv lösen, indem Agenten auf lokale CLI-Tools oder Skripte verweisen, was einer der Gründe ist, warum Teams beim standardmäßigen Einsatz von MCP vorsichtig werden
Plugin marketplaces entwickeln sich zu einer Möglichkeit, Skills zu versionieren und zu teilen; zudem wird vielerorts untersucht, wie sich die Wirksamkeit von Skills bewerten lässt
Die ungeprüfte Wiederverwendung von Skills Dritter kann ernste Supply-Chain-Sicherheitsrisiken verursachen und erfordert daher Vorsicht

8. Browserbasiertes Component Testing

Früher wurden browserbasierte Tools nicht empfohlen (schwer zu konfigurieren, langsam und flaky), inzwischen haben sie sich jedoch stark verbessert und sind mit Tools wie Playwright ein praktikabler und bevorzugter Ansatz
Wenn Tests in echten Browsern ausgeführt werden, entspricht dies der Umgebung, in der der Code tatsächlich läuft, und liefert höhere Konsistenz
Performance-Einbußen sind auf ein akzeptables Maß gesunken, auch die Flakiness hat abgenommen, sodass dies mehr Wert bietet als emulierte Umgebungen wie jsdom

9. Feedback-Sensoren für Coding Agents

Um Coding Agents effektiver zu machen und die Belastung menschlicher Reviewer zu verringern, sind Feedback-Loops nötig, auf die Agenten direkt zugreifen können; das Feedback wirkt als Form von Backpressure
Entwickler verlassen sich seit Langem auf deterministische Quality Gates wie Compiler, Linter, Architekturtests und Test-Suites; diese werden in agentische Workflows eingebunden, um bei Fehlern rechtzeitig Selbstkorrekturen auszulösen
Möglich sind verschiedene Implementierungen, etwa ein Reviewer-Agent, der Checks ausführt und Korrekturen anstößt, oder das Offenlegen von Checks als begleitender parallel laufender Prozess
Durch Coding Agents sind die Kosten für den Aufbau kundenspezifischer Linter und Architekturtests gesunken, was Feedback-Loops stärkt
Wenn möglich, sollten sie während der Coding-Session statt erst nach dem Commit ausgeführt werden, damit vor dem Commit saubere Ergebnisse vorliegen

10. Zuordnung von Code Smells zu Refactoring-Techniken

Eine Technik, bei der Agenten angewiesen werden, bestimmte Probleme mit einem definierten Ansatz zu behandeln
Die erste Ebene lenkt Agenten für allgemeine Fälle mit allgemeinen Referenzen wie Refactoring; speziellere Probleme ordnen über Agent Skills, Slash-Commands und AGENTS.md eigene Smells bestimmten Techniken zu
Bei Integration mit Linting-Tools entsteht deterministisches Feedback, das bei jeder Erkennung eines Smells den passenden Refactoring-Ansatz auslöst
Besonders wirksam bei Legacy-Stacks wie .NET Framework 2.0 oder Java 8, nützlich, wenn in allgemeinen Trainingsdaten wenig vorhanden ist
Ohne zielgerichtete Anweisungen neigen Agenten dazu, statt spezifischer Anforderungen auf allgemeine Muster zurückzufallen

11. Mutation Testing

Das ehrlichste Signal zur Bewertung der tatsächlichen Fehlererkennungsfähigkeit einer Testsuite: Anders als traditionelle Code Coverage, die nur die Ausführung von Zeilen verfolgt, werden absichtliche Fehler (Mutationen) in den Quellcode eingebracht, um zu prüfen, ob Tests bei beschädigtem Verhalten fehlschlagen
Wenn Mutationen nicht erkannt werden, zeigt das keine bloß fehlende Coverage, sondern Lücken in der Validierung; besonders wichtig im Zeitalter AI-gestützter Entwicklung — hohe Coverage kann logisch leere Tests oder generierten Code ohne sinnvolle Assertions verdecken
Mit der Verbreitung von AI-generierten Testfällen dient dies als zusätzliche Absicherung, um „dauerhaft grüne“ (perpetually green) Tests zu erkennen, die wegen fehlender Assertions oder isolierter Mocks unabhängig von Logikänderungen bestehen
Tools wie Stryker, Pitest und cargo-mutants verlagern den Fokus darauf, wie viel Code in der Kerndomänenlogik tatsächlich verifiziert wird

12. Progressive Offenlegung von Kontext

Eine Technik innerhalb der Praxis des Context engineering, bei der Agenten nicht präventiv mit Anweisungen überladen werden, sondern zunächst eine leichtgewichtige Discovery-Phase erhalten, in der sie auf Basis des Nutzerprompts auswählen, was benötigt wird
Geeignet für RAG-Szenarien: Der Agent identifiziert zuerst die relevante Domäne aus der Nutzeranfrage und ruft dann spezifische Anweisungen und Daten ab
Entspricht der Art, wie viele agentische Coding-Tools Agent Skills verarbeiten: Statt eines einzigen monolithischen Anweisungssatzes voller Bedingungen und Hinweise wird zuerst bestimmt, welche Skills für die Aufgabe relevant sind, und dann werden detaillierte Anweisungen geladen
Beim Aufbau agentischer Systeme gerät man leicht in die Falle aufgeblähter Anweisungen mit endlosen „DO“- und „DO NOT“-Regeln, was letztlich die Leistung verschlechtert
Hält das Kontextfenster kompakt und verhindert context rot

13. Sandboxed Execution für Coding-Agenten

Eine Praxis zur Ausführung von Agenten in isolierten Umgebungen mit eingeschränktem Dateisystemzugriff, kontrollierten Netzwerkverbindungen und begrenzter Ressourcennutzung
Da Coding-Agenten Autonomie bei Codeausführung, Builds und Dateisysteminteraktionen erhalten, bringt unbegrenzter Zugriff reale Risiken mit sich — von versehentlichen Schäden bis zur Offenlegung von Zugangsdaten — und ist daher kein optionales Upgrade, sondern ein vernünftiger Standard
Das Spektrum an Sandboxing-Optionen ist breit: Viele Coding-Agenten bieten integrierte Sandbox-Modi, Dev Containers bieten vertraute containerbasierte Isolation
Shuru startet für jede Ausführung eine flüchtige MicroVM, die zurückgesetzt wird; Sprites bietet zustandsbehaftete Umgebungen mit Unterstützung für Checkpoints und Wiederherstellung
Für native Isolation unter Linux bietet Bubblewrap leichtgewichtiges, namespace-basiertes Sandboxing, unter macOS liefert sandbox-exec einen ähnlichen Schutz
Über die grundlegende Isolation hinaus müssen auch alles Notwendige für Build und Tests, eine sichere und einfache Authentifizierung gegenüber Diensten wie GitHub und Modellanbietern, Port-Forwarding sowie ausreichend CPU und Speicher berücksichtigt werden
Ob die Sandbox standardmäßig flüchtig oder zur Sitzungswiederherstellung dauerhaft sein soll, ist eine Designentscheidung abhängig von den Prioritäten bei Sicherheit, Kosten und Workflow-Kontinuität

14. Semantic Layer

Eine Datenarchitekturtechnik, die einen gemeinsamen Business-Logik-Layer zwischen Datenspeichern und konsumierenden Anwendungen wie BI-Tools, AI-Agenten und APIs einführt
Zentralisiert Metrikdefinitionen, Joins, Zugriffsregeln und Geschäftsbegriffe, damit alle Konsumenten gemeinsame Definitionen nutzen; das Konzept existiert schon länger als der moderne Data Stack, gewinnt aber mit code-first-Ansätzen wie metrics stores wieder an Aufmerksamkeit
Ohne Semantic Layer verteilt sich die Business-Logik über ad-hoc-Warehouse-Tabellen, Dashboards und Downstream-Anwendungen, und Metrikdefinitionen driften unbemerkt auseinander
Durch agentische AI verschärft sich das Problem: Wenn LLMs naive Text-to-SQL-Übersetzungen ausführen, entstehen häufig falsche Ergebnisse, insbesondere wenn Geschäftsregeln wie Umsatzrealisierung außerhalb des Schemas liegen
Cloud-Plattformen betten Semantic Layers inzwischen direkt ein: Snowflake nennt sie Semantic Views, Databricks nennt sie Metric Views, während eigenständige Tools wie dbt MetricFlow und Cube systemübergreifend portable Layer bereitstellen
Open Semantic Interchange (OSI) v1.0 wurde kürzlich veröffentlicht; die Unterstützung durch zahlreiche Anbieter signalisiert wachsende Standardisierung und Interoperabilität über Analytics-, AI- und BI-Plattformen hinweg
Die Hauptkosten liegen in den Vorabinvestitionen für Datenmodellierung; empfohlen wird, mit einer einzelnen Domäne zu beginnen statt mit einem unternehmensweiten Rollout

15. Server-driven UI

Trennt das Rendering in generische Container auf und liefert Struktur und Daten über den Server, sodass mobile Teams die langen Review-Zyklen der App Stores bei jeder Iteration umgehen können
Aktiviert Echtzeit-Updates über JSON-basierte Formate und verbessert die Time-to-Release deutlich; mit stabilen Mustern bei Unternehmen wie Airbnb und Lyft sinkt die Komplexität
Früher wurde davor gewarnt, dass proprietäre Frameworks ein „schreckliches, überkonfigurierbares Chaos“ erzeugen könnten; bei großen Anwendungen lässt sich die Investition heute leichter rechtfertigen
Erfordert weiterhin einen starken Business Case und disziplinierte Engineering-Arbeit; wichtig ist, die Entstehung eines schwer wartbaren „God-Protocol“ zu vermeiden
Empfohlen für hochdynamische Bereiche, nicht als Ersatz für die gesamte UI-Entwicklung einer Anwendung

Assess

16. Agentische Reinforcement-Learning-Umgebungen

Als Trainingsumgebung für LLM-basierte Agenten kombinieren sie Kontext, Tools und Feedback, um mehrstufige Aufgaben abzuschließen
Dieser Ansatz gestaltet das Post-Training von LLMs von einfachen Single-Turn-Ausgaben hin zu agentischem Verhalten wie Schlussfolgern und Tool-Nutzung um und weist jeder Aktion eine Belohnung oder Strafe zu
Mit Verfahren wie RLVR wird sichergestellt, dass Belohnungen verifizierbar sind und gegen Gamification resistent bleiben
Derzeit wird die Entwicklung vor allem von AI-Forschungslaboren vorangetrieben, insbesondere für Coding- und Computer-Use-Agenten; Cursors Composer ist ein Beispiel außerhalb der Frontier-Labs für ein spezialisiertes Coding-Modell, das innerhalb einer Produktumgebung trainiert wurde
Frameworks und Plattformen wie Prime Intellects Environments Hub, Agent Lightning und NVIDIA NeMo Gym vereinfachen den Prozess zunehmend

17. Reduzierung von Architecture Drift mit LLMs

Durch die zunehmende Nutzung von AI-Coding-Agenten beschleunigt sich der Drift weg von der beabsichtigten Codebase- und Architekturgestaltung; bleibt er unbeachtet, reproduzieren Agenten und Menschen bestehende Muster, auch degradierte, wodurch sich der Drift verstärkt und eine Feedback-Schleife entsteht, in der schlechter Code noch schlechteren Code erzeugt
Durch die Kombination deterministischer Analysetools (Spectral, ArchUnit, Spring Modulith) mit LLM-basierter Bewertung lassen sich sowohl strukturelle als auch semantische Verstöße erkennen
Einsetzbar zur Definition von Architekturzonen, die API-Qualitätsrichtlinien über Services hinweg durchsetzen und Verbesserungen bei agentisch erzeugtem Code anleiten
Wie beim klassischen Linting machen erste Scans viele Verstöße sichtbar → Kategorisierung und Priorisierung sind nötig, wobei LLMs helfen
Agentisch erzeugte Korrekturen sollten klein und fokussiert bleiben, damit Reviews leichter fallen; eine zusätzliche Validierungsschleife ist essenziell, um sicherzustellen, dass Änderungen das System ohne Regressionen verbessern
Erweitert die Idee von feedback sensors for coding agents auf spätere Phasen des Delivery-Lebenszyklus; in den Worten des OpenAI-Teams funktioniert Drift-Reduzierung als eine Form von „Garbage Collection“

18. Code Intelligence als agentisches Tooling

LLMs verarbeiten Code als Token-Stream und haben kein natives Verständnis von Call Graphs, Typhierarchien oder Symbolbeziehungen
Für die Code-Erkundung nutzen die meisten Coding-Agenten heute standardmäßig textbasierte Suche, den stärksten gemeinsamen Nenner über alle Sprachen hinweg; für Refactorings, die in einer IDE schnelle Shortcuts sind, müssen Agenten mehrere Text-Diffs erzeugen
Agenten verbrauchen erhebliche Mengen an Tokens, um Informationen zu rekonstruieren, die im AST bereits vorhanden sind
Agenten sollten Zugriff auf AST-bewusste Tools erhalten, etwa über das Language Server Protocol (LSP), um Operationen wie „alle Referenzen auf dieses Symbol finden“ oder „diesen Typ überall umbenennen“ als erstklassige Aktionen auszuführen
Codemod-Tools wie OpenRewrite arbeiten auf einer reichhaltigeren Code-Repräsentation, dem Lossless Semantic Tree (LST); geeignete Delegation an deterministische Tools reduziert halluzinierte Edits und senkt den Token-Verbrauch
Claude Code, OpenCode und andere integrieren lokal laufende LSP-Server; JetBrains bietet einen MCP-Server, der IDE-Navigation und Refactoring für externe Agenten verfügbar macht, und der Serena-MCP-Server bietet semantische Codesuche und -bearbeitung

19. Context Graph

Eine Wissensrepräsentationstechnik, die Entscheidungen, Richtlinien, Ausnahmen, Präzedenzfälle, Belege und Ergebnisse als erstklassig verknüpfte Knoten in einem Graphen modelliert und für den AI-Konsum strukturiert
Wenn Aufzeichnungssysteme erfassen, was passiert ist, dann erfasst ein Context Graph das Warum — er verwandelt institutionelles Denken, das in Slack-Threads, Freigabeketten und den Köpfen von Menschen verborgen ist, in eine abfragbare, maschinenlesbare Struktur
Essenziell für die Wirksamkeit von Agenten: Wenn ein Agent etwa eine Rabatt-Ausnahme bearbeitet und nicht erkennen kann, ob es sich um eine Standardrichtlinie oder eine einmalige Überschreibung handelt, zieht er falsche Schlüsse; ein Context Graph legt Quellen direkt offen, sodass Entscheidungsverläufe nachvollzogen, relevante Präzedenzfälle angewendet und mehrstufige Kausalketten erschlossen werden können
Anders als GraphRAG, das aus statischen Dokumentenkorpora aufgebaut wird, erhält ein Context Graph zeitliche Gültigkeit für jede Kante; ersetzte Fakten werden nicht überschrieben, sondern invalidiert
Eine Evaluierung wert für agentische Anwendungen, die persistente Memory über Sitzungen hinweg oder nachvollziehbare Entscheidungsbegründungen benötigen

20. Feedback Flywheel

Teams, die mit Coding-Agenten arbeiten, übernehmen zunehmend Workflows nach spec-driven development; unabhängig von leichten oder stark meinungsgeprägten Frameworks folgen sie dem Ablauf spec → plan → implement
Das Feedback Flywheel erweitert diesen Ablauf um einen zusätzlichen Schritt mit Fokus auf die kontinuierliche Verbesserung des Coding-Agent-Harness
Ähnlich wie bei Retrospektiven erfassen Teams Erfolge und Misserfolge aus Coding-Agent-Sessions und nutzen sie, um die Vorhersagbarkeit künftiger Sessions zu verbessern; mit der Zeit entsteht ein Zinseszinseffekt
Eine Meta-Technik, bei der der human on the loop sich auf die Verbesserung von Feedforward-Kontrollen wie curated shared instructions und feedback sensors for coding agents konzentriert
Die nächste Stufe ist das agentic feedback flywheel, bei dem Agenten auf Basis kumulierten Feedbacks selbst notwendige Verbesserungen bestimmen; derzeit ist jedoch weiterhin ein Human-in-the-Loop nötig, um Context Rot und verrauschtes Feedback zu verhindern, das Agenten in die Irre führen könnte
Lässt sich zur Bewertung des gesamten Coding-Agent-Harness nutzen, wenn sich die Umgebung weiterentwickelt, insbesondere bei der Einführung neuer Modelle, da das, was bei einem Modell funktioniert hat, beim nächsten unnötig sein kann

21. HTML Tools

Mit agentischen Tools ist es leicht geworden, kleine, auf einzelne Aufgaben zugeschnittene Utilities zu bauen; die zentrale Herausforderung ist nun die Bereitstellung und das Teilen
HTML Tools sind ein Ansatz, gemeinsam nutzbare Skripte oder Utilities in einer einzelnen HTML-Datei zu verpacken
Sie laufen direkt im Browser, können überall gehostet oder einfach als Datei geteilt werden und vermeiden so den Bereitstellungsaufwand von CLI-Tools, bei denen Binärdateien verteilt oder Paketmanager genutzt werden müssen
Einfacher als der Bau einer vollständigen Webanwendung mit dediziertem Hosting
Aus Sicherheitssicht bleibt das Ausführen nicht vertrauenswürdiger Dateien riskant, auch wenn Browser-Sandboxing und die Möglichkeit zur Quellcodeprüfung teilweise Abhilfe schaffen
Für leichtgewichtige Utilities bietet eine einzelne HTML-Datei eine sehr zugängliche und portable Form

22. LLM evaluation using semantic entropy

Konfabulation (confabulation) als Form von Halluzination in LLM-QA-Anwendungen ist mit traditionellen Bewertungsmethoden schwer zu adressieren
Ein Ansatz nutzt Informationsentropie, um Unsicherheit zu messen, indem lexikalische Variationen der Ausgaben für eine gegebene Eingabe analysiert werden
Die Auswertung von LLMs mit Semantic entropy erweitert diese Idee, indem sie sich statt auf oberflächliche Variationen auf Unterschiede in der Bedeutung konzentriert
Da Bedeutung statt Wortfolgen bewertet wird, ist der Ansatz ohne Vorwissen über Datensätze und Aufgaben hinweg anwendbar und generalisiert gut auf unbekannte Aufgaben
Hilft dabei, Prompts zu identifizieren, die wahrscheinlich Konfabulationen auslösen, und bei Bedarf zur Vorsicht zu raten
Naive Entropie scheitert oft daran, Konfabulationen zu erkennen; semantic entropy ist beim Filtern falscher Behauptungen wirksamer

23. Measuring collaboration quality with coding agents

Beim Einsatz von Coding Agents werden zwar reale Produktivitätsgewinne beobachtet, doch die meisten Bewertungsmetriken fokussieren sich weiterhin zu stark auf coding throughput wie Zeit bis zur ersten Ausgabe, generierte Codezeilen oder abgeschlossene Aufgaben
Damit Teams nicht in die Geschwindigkeitsfalle (speed trap) geraten, sollte der Fokus darauf verlagert werden, wie effektiv Menschen und Agenten zusammenarbeiten
Metriken wie first-pass acceptance rate, Iterationszyklen pro Aufgabe, Nacharbeit nach dem Merge, fehlgeschlagene Builds und Review-Aufwand liefern aussagekräftigere Signale als Geschwindigkeit allein
Teams, die Claude Code nutzen, können mit dem Befehl /insights Berichte über Erfolg und Aufgabenerfüllung von Agent-Sessions erzeugen; zudem wird experimentiert, die first-pass acceptance über einen angepassten /review-Befehl zu verfolgen
Kurze Feedback-Zyklen und weniger fehlgeschlagene Builds sind Indikatoren für eine effektivere Interaktion mit Agenten
Auf Teamebene statt auf Individualebene sollte die Qualität der Zusammenarbeit zusammen mit DORA-Metriken verfolgt werden, um ein vollständigeres Bild der Einführung von Coding Agents zu erhalten

24. MITRE ATLAS

Agentische Systeme und Coding-Tools führen neue Architekturen und neu entstehende Sicherheitsbedrohungen ein
MITRE ATLAS ist eine Wissensbasis zu gegnerischen Taktiken und Techniken, die auf AI- und ML-Systeme abzielen
Sie ist fokussierter als das breitere Framework MITRE ATT&CK und als Ergänzung dazu konzipiert; sie bietet eine Klassifikation von Bedrohungen für ML-Pipelines, LLM-Anwendungen und agentische Systeme
Ohne gemeinsames Vokabular werden Sicherheitsrisiken oft übersehen oder auf eine bloße Checkbox-Übung reduziert; ATLAS hilft hier
Basierend auf der Untersuchung realer Incidents und technischer Muster können Teams das Framework zur Unterstützung von Threat Modeling nutzen
Eine natürliche Ergänzung zu Control-Frameworks wie SAIF, die dabei hilft, die sich wandelnde Bedrohungslandschaft von AI-Systemen zu beschreiben

25. Ralph loop

Eine Technik für autonome Coding Agents, auch als Wiggum loop bekannt, bei der ein fester Prompt in einer Endlosschleife an den Agenten übergeben wird
Jede Iteration beginnt mit einem neuen Context Window — der Agent wählt aus Spezifikation oder Plan eine Aufgabe, setzt sie um und startet die Schleife mit neuem Kontext erneut
Die Kernerkenntnis ist Einfachheit: Statt teams of coding agents oder coding agent swarms zu orchestrieren, arbeitet ein einzelner Agent autonom an der Spezifikation, wobei erwartet wird, dass sich die Codebasis durch wiederholte Iterationen der Spezifikation annähert
Durch ein neues Context Window in jeder Iteration wird Qualitätsverlust durch akkumulierten Kontext vermieden, allerdings um den Preis erheblicher Token-Kosten
Tools wie goose implementieren dieses Muster und erweitern es in manchen Fällen um modellübergreifende Reviews zwischen den Iterationen

26. Reverse engineering for design system

Organisationen kämpfen oft mit fragmentierten Legacy-Interfaces, bei denen „Designstandards“ nur als lose Sammlung separater Webseiten, Marketingmaterialien und Screenshots existieren
Historisch war das Auditieren dieser Artefakte, um eine Grundlage für Konsolidierung zu schaffen, ein manueller und zeitaufwendiger Prozess
Mit multimodalen LLMs lässt sich diese Extraktion automatisieren und ein Design System aus vorhandenen visuellen Assets effektiv rückwärts entwickeln
Indem Websites, Screenshots und UI-Fragmente in spezialisierte Tools oder Vision-fähige AI-Modelle eingespeist werden, können Teams zentrale Design-Tokens wie Farbpaletten, Typografieskalen und Abstandsregeln extrahieren und wiederkehrende Komponentenmuster identifizieren
AI synthetisiert diese unstrukturierten visuellen Daten in eine strukturierte semantische Repräsentation des Design Systems; in Integration mit Tools wie Figma beschleunigt die Ausgabe die Erstellung formalisierter und wartbarer Komponentenbibliotheken erheblich
Über die Reduzierung des Aufwands für visuelle Audits hinaus dient es auch als Sprungbrett zum Aufbau „AI-ready“-fähiger Design-Systeme
Für Unternehmen, die unter Brownfield-Designschulden leiden, ist es ein pragmatischer Ausgangspunkt, mit AI ein grundlegendes Design System zu etablieren, bevor eine vollständige Neugestaltung oder Frontend-Standardisierung angegangen wird

27. Role-based contextual isolation in RAG

Eine Architekturtechnik, die die Zugriffskontrolle von der Anwendungsschicht in die Retrieval-Schicht verlagert
Allen Daten-Chunks werden beim Indexieren rollenbasierte Berechtigungs-Tags zugewiesen; zur Query-Zeit beschränkt die Retrieval Engine den Suchraum auf Basis der authentifizierten Identität des Nutzers und gleicht ihn mit den Metadaten jedes Chunks ab
Da das AI-Modell bereits im Retrieval-Schritt gefiltert wird, ist sichergestellt, dass es nicht auf nicht autorisierten Kontext zugreifen kann; das schafft eine Zero-Trust-Grundlage für interne Wissensbasen
Viele Vektor-Datenbanken wie Milvus oder Dienste auf Basis von Amazon S3 unterstützen performantes Metadaten-Filtering, wodurch der Einsatz auch für große Wissensbasen praktikabel ist

28. Skills als ausführbare Onboarding-Dokumentation

Agent Skills, kuratierte gemeinsame Anweisungen und andere Techniken des Context Engineering tauchen im gesamten Radar auf; ein im Coding-Kontext besonders hervorzuhebender Anwendungsfall sind Skills als ausführbare Onboarding-Dokumentation
Auf mehreren Ebenen einsetzbar; im Codebase kann ein /_setup-Skill die Rolle eines go.sh-Skripts und einer README-Datei übernehmen und bei nicht skriptbaren Schritten LLM-Ausführungssemantik mit Skripten kombinieren
Über das hinaus, was Skripte leisten können, ist eine dynamische Berücksichtigung des aktuellen Zustands von Codebase und Umgebung möglich
Ersteller von Bibliotheken und APIs können Verbrauchern Skills als Teil der Dokumentation bereitstellen, über interne oder externe Skill-Register (wie Tessl)
Nützlich für das Onboarding in internen Plattformen von Teams, um die Hürden bei der Nutzung von Kerntechnologien zu senken oder Reibung bei der Einführung eines Designsystems zu verringern; bisher wurde dafür stark auf MCP-Server gesetzt, inzwischen erfolgt eine Verlagerung hin zu Skills
Wie bei anderen Dokumentationsformen verschwindet die Herausforderung, alles aktuell zu halten, nicht; ausführbare Dokumentation hilft jedoch im Unterschied zu statischer Dokumentation dabei, Veraltung deutlich früher zu bemerken

29. Small language models

SLMs verbessern sich weiter und beginnen, in bestimmten Anwendungsfällen mehr Intelligenz pro Dollar als LLMs zu liefern
Teams evaluieren SLMs, um Inferenzkosten zu senken und agentische Workflows zu beschleunigen; jüngste Fortschritte zeigen stetige Zugewinne bei der Intelligenzdichte, wodurch sie bei Aufgaben wie Zusammenfassung und einfachem Coding gegenüber älteren LLMs konkurrenzfähig werden
Dies spiegelt die Verschiebung von „größer ist besser“ hin zu höherwertigen Daten, Modelldestillation und Quantisierung wider
Modelle wie Phi-4-mini und Ministral 3 3B zeigen, dass destillierte Modelle viele Fähigkeiten größerer Lehrermodelle beibehalten
Selbst ultrakleine Modelle wie Qwen3-0.6B und Gemma-3-270M können inzwischen auf Edge-Geräten ausgeführt werden
Für agentische Anwendungsfälle, in denen früher ältere LLMs ausreichten, sollten SLMs als kostengünstige, latenzarme und ressourcenschonendere Alternative in Betracht gezogen werden

30. Team aus Coding-Agenten

Im vorherigen Radar wurde dies als Technik beschrieben, bei der Entwickler eine Kleingruppe rollenbasierter Agenten orchestrieren, die bei Coding-Aufgaben zusammenarbeitet
Seitdem sind die Einführungshürden gesunken; Unterstützung für Subagenten ist in bestehenden Coding-Agent-Tools weithin zur Grundfunktion geworden, einschließlich der in Claude Code eingebauten Funktion für Agententeams, die Orchestrierung bereitstellt
In einem Agententeam koordiniert der Hauptorchestrator typischerweise die Aufgabenreihenfolge und Parallelisierung; die Agenten sollten nicht nur mit dem Orchestrator, sondern auch untereinander kommunizieren können
Häufige Anwendungsfälle sind Review-Teams oder Gruppen von Implementierern, die verschiedene Teile einer Anwendung übernehmen, etwa Backend und Frontend
Teile der Branche verwenden „agent teams“ und "agent swarms" austauschbar (Claude Code beschreibt seine Funktion für Agententeams als „our implementation of swarms“), doch die Unterscheidung hat Wert
Kleine, bewusst zusammengestellte Agententeams, die an einer Aufgabe zusammenarbeiten, unterscheiden sich hinsichtlich Einstiegshürden, Komplexität und Anwendungsfällen deutlich von großen Swarms

31. Temporal Fakes

Erweiterung der Idee der Simulation realer Systeme, die in IoT- und Industrieplattformen seit Langem genutzt wird
AI-Coding-Agenten verringern den Aufwand für den Aufbau von Simulatoren und machen es deutlich einfacher, hochgradig realitätsnahe Repliken externer Abhängigkeiten zu erzeugen
Anders als herkömmliche Mocks, die statische Request-Response-Paare zurückgeben, halten Temporal Fakes interne Zustandsmaschinen aufrecht und modellieren die zeitliche Entwicklung realer Systeme
Ein Team nutzte diese Technik bei der Entwicklung eines Observability-Stacks für große GPU-Rechenzentren, um die Beschaffung physischer Hardware zu vermeiden
- Tests von Alarmregeln, Dashboards und Anomalieerkennung auf realen Systemen sind unpraktisch (z. B. das absichtliche Überhitzen von GPUs, um einen Alarm für thermal throttle zu validieren)
- Stattdessen wurden Fakes für Hardware-Domänen wie NVIDIA DCGM und InfiniBand-Fabrics in Go gebaut
- Mit dem Simulator lassen sich Fehlerszenarien wie Thermal Throttling, XID-Error-Stürme, Link Flaps und PSU-Ausfälle mit konfigurierbarer Intensität und Dauer aktivieren; orchestriert wird dies über einen process-compose-Stack
Ein zentrales Register definiert gültige Fehlerszenarien, und ein MCP-Server stellt Agenten das Einschleusen von Szenarien bereit
Agenten können Fehler auslösen, etwa Thermal Throttling auf einer bestimmten GPU, und prüfen, ob sich Metriken erwartungsgemäß ändern, Alarme ausgelöst werden und Dashboards aktualisiert werden
Diese zeitliche Genauigkeit macht die Technik wertvoll für das Testen komplexer Systeme mit kaskadierenden Fehlern; wenn die Fakes das reale Verhalten jedoch nicht getreu abbilden, besteht das Risiko, in automatisierten Pipelines falsches Vertrauen zu erzeugen

32. Toxic Flow Analysis für AI

Die Fähigkeiten von Agenten überholen derzeit die Sicherheitspraktiken; mit dem Aufkommen berechtigungshungriger Agenten wie OpenClaw setzen Teams zunehmend Agenten in Umgebungen ein, die dem lethal trifecta ausgesetzt sind — Zugriff auf private Daten, Kontakt mit nicht vertrauenswürdigen Inhalten und Fähigkeit zur externen Kommunikation
Mit wachsenden Fähigkeiten vergrößert sich auch die Angriffsfläche, wodurch Systeme Risiken wie Prompt Injection und Tool Poisoning ausgesetzt werden
Toxic Flow Analysis bleibt als zentrale Technik anerkannt, um agentische Systeme zu untersuchen und unsichere Datenpfade sowie potenzielle Angriffsvektoren zu identifizieren
Das Risiko beschränkt sich nicht mehr nur auf MCP-Integrationen; ähnliche Muster werden auch bei Agent Skills beobachtet — böswillige Akteure verpacken nützlich erscheinende Skills mit versteckten Anweisungen zur Exfiltration sensibler Daten
Teams, die mit Agenten arbeiten, wird dringend empfohlen, Toxic Flow Analysis durchzuführen und Tools wie Agent Scan zu verwenden, um unsichere Datenpfade vor einer Ausnutzung zu identifizieren

33. Vision Language Models für End-to-End-Dokumentenparsing

Das Dokumentenparsing stützt sich auf mehrstufige Pipelines, die Layout-Erkennung, traditionelles OCR und Nachbearbeitungsskripte kombinieren, und hat mit komplexen Layouts und mathematischen Formeln zu kämpfen
End-to-End-Dokumentenparsing mit VLMs behandelt Dokumentbilder als eine einzige Eingabemodalität, vereinfacht damit die Architektur und bewahrt eine natürliche Lesereihenfolge sowie strukturierte Inhalte
Speziell für diesen Zweck trainierte Open-Source-Modelle wie olmOCR-2, das tokeneffiziente DeepSeek-OCR (3B) und das ultrakleine PaddleOCR-VL liefern sehr effiziente Ergebnisse
Auch wenn VLMs mehrstufige Pipelines ersetzen und dadurch die architektonische Komplexität verringern, neigen sie aufgrund ihrer generativen Natur zu Halluzinationen
Anwendungsfälle mit geringer Fehlertoleranz benötigen weiterhin hybride Ansätze oder deterministisches OCR
Teams, die große Dokumentensammlungen verarbeiten, sollten diese integrierten Ansätze bewerten, um zu entscheiden, ob sich damit die Genauigkeit aufrechterhalten und zugleich der langfristige Wartungsaufwand verringern lässt

Caution

34. Aufblähung von Agent-Anweisungen

Kontextdateien wie AGENTS.md und CLAUDE.md sammeln im Lauf der Zeit Codebase-Überblicke, Architekturbeschreibungen, Konventionen und zusätzliche Regeln an
Jede Ergänzung ist für sich genommen nützlich, führt aber oft zu agent instruction bloat, wodurch Anweisungen länger werden und sich teils gegenseitig widersprechen
Modelle neigen dazu, Inhalten weniger Aufmerksamkeit zu schenken, wenn sie mitten in langen Kontexten vergraben sind; Guidance tief in langen Gesprächsverläufen kann übersehen werden
Mit zunehmender Zahl von Anweisungen steigt die Wahrscheinlichkeit, dass wichtige Regeln ignoriert werden
Viele Teams erzeugen AGENTS.md-Dateien mit AI, aber Forschung deutet darauf hin, dass von Hand geschriebene Versionen oft effektiver sind als von LLMs erzeugte
Beim Einsatz agentischer Tools sollte man mit Anweisungen bewusst und selektiv umgehen, sie bei Bedarf ergänzen und fortlaufend zu einem minimalen und konsistenten Set verfeinern
Ziehen Sie den Einsatz von progressive context disclosure in Betracht, damit nur die für die aktuelle Aufgabe nötigen Anweisungen und Fähigkeiten sichtbar gemacht werden

35. AI-beschleunigte Shadow IT

AI senkt weiterhin die Hürden für Nicht-Coder, komplexe Systeme zu bauen, ermöglicht Experimente und eine frühe Validierung von Anforderungen, bringt aber auch das Risiko einer AI-beschleunigten Shadow IT mit sich
Neben No-Code-Workflow-Plattformen, die AI-APIs wie OpenAI oder Anthropic integrieren, stehen Nicht-Codern auch mehr agentische Tools wie Claude Cowork zur Verfügung
Wenn Tabellenkalkulationen, die bislang still im Hintergrund das Geschäft betrieben haben, sich zu Custom-agentischen Workflows ohne Governance weiterentwickeln, entstehen erhebliche Sicherheitsrisiken und es verbreiten sich konkurrierende Lösungen für ähnliche Probleme
Die Unterscheidung zwischen einmaligen Workflows und kritischen Prozessen, die belastbare und produktionsreife Implementierungen brauchen, ist entscheidend für die Balance zwischen Experimentieren und Kontrolle
Organisationen sollten Governance als Teil ihrer AI-Einführungsstrategie priorisieren und zugleich Experimente in kontrollierten Umgebungen fördern
Ein passend instrumentiertes internes Sandbox-System kann Nicht-Codern einen Ort bieten, an dem sie Prototypen mit nachvollziehbarer Nutzung bereitstellen können
In Kombination mit einem bestehenden Katalog gemeinsam genutzter Workflows hilft das Teams, bereits Gebautes zu finden und doppelte Arbeit zu vermeiden

36. Kognitive Verschuldung der Codebase

Die wachsende Lücke zwischen der Implementierung eines Systems und dem gemeinsamen Verständnis des Teams darüber, wie und warum es funktioniert
Während AI das Änderungstempo erhöht, können Teams — insbesondere bei vielen Beitragenden oder Coding Agent Swarms — die Nachverfolgung von Designabsicht und versteckten Kopplungen verlieren
In Verbindung mit wachsender technischer Schuld entsteht ein Verstärkungskreislauf, der Systeme immer schwerer nachvollziehbar macht
Ein schwaches Systemverständnis verringert die Fähigkeit von Entwicklern, AI wirksam anzuleiten, Edge Cases vorauszusehen und Agents von Architekturfallen fernzuhalten
Wenn dies nicht gemanagt wird, wird ein Kipppunkt erreicht, an dem kleine Änderungen unerwartete Ausfälle auslösen, Korrekturen Regressionen einführen und Aufräumarbeiten das Risiko eher erhöhen als senken
Vermeiden Sie Sorglosigkeit gegenüber AI-generiertem Code und führen Sie explizite Gegenmaßnahmen ein — feedback sensors for coding agents, Tracking der kognitiven Last von Teams und Architektur-Fitness-Funktionen, damit zentrale Einschränkungen weiterhin durchgesetzt werden, während AI die Output-Erzeugung beschleunigt

37. Coding Agent Swarms

Wenn ein team of coding agents eine kleine, bewusst zusammengestellte Gruppe ist, dann setzt ein coding agent swarm Dutzende bis Hunderte von Agents auf ein Problem an, wobei AI Zusammensetzung und Größe dynamisch festlegt
Projekte wie Gas Town und Ruflo (früher Claude Flow) sind gute Beispiele
Es zeichnen sich erste Muster für Swarm-Implementierungen ab — hierarchische Rollentrennung (Orchestrator, Supervisoren, temporäre Worker), langlebige Arbeits-Logs, die Agents bei der Aufteilung und Koordination von Aufgaben unterstützen (Gas Town verwendet beads), sowie Merge-Mechanismen zur Behandlung von Konflikten bei paralleler Arbeit
Zwei Swarm-Experimente sind besonders bemerkenswert — die Erzeugung eines C-Compilers von Anthropic und das Agent-Scaling-Experiment von Cursor (Erzeugung eines Browsers über den Verlauf einer Woche)
Beide Teams wählten Anwendungsfälle, die sich auf vorhandene detaillierte Spezifikationen stützen konnten, beim C-Compiler einschließlich einer umfassenden Testsuite, die klares und messbares Feedback lieferte
Diese Bedingungen sind nicht repräsentativ für typische Produktentwicklung, bei der Anforderungen weniger klar definiert und schwerer zu validieren sind
Dennoch tragen diese Experimente zu entstehenden Mustern bei, die langlaufende Swarms technisch machbar machen; sie sind weiterhin teuer und weit von Reife entfernt, daher ist Vorsicht bei der Einführung empfohlen

38. Coding Throughput als Maß für Produktivität

AI-Coding-Assistenten sorgen tatsächlich für Produktivitätsgewinne und etablieren sich schnell als Standard-Entwicklerwerkzeuge
Gleichzeitig messen Organisationen Erfolg jedoch zunehmend mit oberflächlichen Kennzahlen wie der Anzahl generierter Codezeilen oder Pull Requests (PRs)
Werden solche Coding-Throughput-Metriken isoliert verwendet, können sie das Verhalten von Mitarbeitenden negativ beeinflussen
Das Ergebnis ist oft eine Flut schlecht abgestimmten Codes, die Reviews verlangsamt, den Delivery-Durchsatz beeinträchtigt und Sicherheitsrisiken einführt, weil Engineers PRs einreichen, die mit unzureichend geprüftem AI-Output gefüllt sind, was durch wiederholtes Hin und Her mit Reviewern die Zykluszeit erhöht
Diese Metriken erfassen nicht den verbleibenden Aufwand, der nötig ist, um AI-generierten Code an Team-Architektur, Konventionen und Muster anzupassen
Es gibt aussagekräftigere Frühindikatoren — die first-pass acceptance rate, also wie oft AI-Output mit minimaler Nacharbeit verwendet werden kann
Ihre Messung macht verborgenen Aufwand sichtbar und ermöglicht Verbesserungen, sodass Teams durch Verfeinerung von Prompts, bessere Priming-Dokumentation und intensivere Design-Gespräche die Akzeptanz kontinuierlich steigern können
So entsteht ein positiver Kreislauf, in dem AI-Output weniger Anpassungen benötigt; first-pass acceptance ist zudem natürlich mit den DORA-Metriken verknüpft — niedrige Akzeptanzraten gehen tendenziell mit höheren Change-Failure-Raten einher, und wiederholte Iterationsschleifen verlängern die Lead Time für Änderungen
Da AI-Assistenten allgegenwärtig werden, müssen Organisationen den Fokus von Coding Throughput allein auf Metriken verlagern, die reale Wirkung und Delivery-Ergebnisse abbilden

39. Ignorieren von Durability in Agent-Workflows

Ein bei mehreren Teams beobachtetes Antipattern, das in der Entwicklung funktioniert, aber in Produktion scheiternde Systeme hervorbringt
Die Herausforderungen verteilter Systeme treten beim Bau von Agents noch stärker hervor; eine Denkweise, die Ausfälle erwartet und elegant darauf reagiert, ist reaktiven Ansätzen überlegen
LLMs und Tool-Calls können durch Netzwerkausfälle und Serverabstürze scheitern, was den Fortschritt von Agents unterbricht und zu schlechter User Experience sowie höheren Betriebskosten führt
Manche Systeme können das tolerieren, wenn Aufgaben kurzlebig sind, aber komplexe Workflows, die über Tage oder Wochen laufen, benötigen Durability
Agent-Frameworks wie LangGraph und Pydantic AI integrieren Durable Execution
Sie bieten persistente Speicherung des Zustands von Fortschritt und Tool-Calls, sodass Agents nach Fehlern die Arbeit wieder aufnehmen können
In Workflows mit human in the loop kann Durable Execution den Fortschritt pausieren, während auf Eingaben gewartet wird
Auch Durable-Computing-Plattformen wie Temporal, Restate und Golem unterstützen Agents
Die Observability von integrierter Tool-Ausführung und Entscheidungsverläufen erleichtert Debugging und verbessert das Verständnis von Produktivsystemen
Am besten beginnt man mit nativer Unterstützung für Durable Execution im Agent-Framework und nutzt unabhängige Plattformen, wenn Workflows wichtiger oder komplexer werden

40. MCP standardmäßig verwenden

Das Model Context Protocol (MCP) erhält viel Aufmerksamkeit, und Teams wie auch Vendoren neigen dazu, es als standardmäßige Integrationsschicht zwischen AI-Agents und externen Systemen zu übernehmen, obwohl es einfachere Alternativen gibt
Diese Standardnutzung von MCP ist mit Vorsicht zu betrachten; MCP schafft echten Mehrwert bei strukturierten Tool-Verträgen, OAuth-basierten Authentifizierungsgrenzen und Governance-gesteuertem Multi-Tenant-Zugriff
Gleichzeitig führt es auch das ein, was Justin Poehnelt als „abstraction tax“ bezeichnet — jede zusätzliche Protokollschicht zwischen Agent und API kann zu Fidelity-Verlust führen, und bei komplexen APIs potenziert sich dieser Effekt
In der Praxis kann eine gut gestaltete CLI mit gutem --help-Output, strukturierten JSON-Antworten und vorhersehbarer Fehlerbehandlung alles liefern, was ein Agent braucht — ganz ohne Protokoll-Overhead
Wie Simon Willison anmerkt, lässt sich „fast alles, was mit MCP erreicht werden kann, auch mit CLI-Tools umsetzen“
Das ist keine Absage an MCP, aber Teams sollten eine Übernahme als Standard vermeiden und zuerst fragen, ob ihr System tatsächlich Interoperabilität auf Protokollebene benötigt
MCP ist dann sinnvoll, wenn seine Governance- und Integrationsvorteile die zusätzliche Komplexität und den potenziellen Fidelity-Verlust überwiegen

41. Pixel-gestreamte Entwicklungsumgebungen

Einsatz von Remote-Desktops oder Workstations im VDI-Stil für Softwareentwicklung, bei dem Bearbeitung, Build und Debugging über einen gestreamten Desktop statt auf dem lokalen Rechner oder in codezentrierten Remote-Umgebungen erfolgen
Organisationen setzen dies weiterhin ein, insbesondere um Ziele bei Sicherheit, Standardisierung und Onboarding für Offshore-Teams und Lift-and-Shift-Cloud-Programme zu erreichen
In der Praxis sind die Trade-offs jedoch oft schlecht — Latenz, Eingabeverzögerung und inkonsistente Bildschirmreaktionen erzeugen anhaltende kognitive Reibung, verlangsamen die Delivery-Geschwindigkeit und machen alltägliche Entwicklungsarbeit ermüdender
Im Unterschied zu Cloud-Entwicklungsumgebungen, Google Cloud Workstations, Coder oder VS Code Remote Development — die Rechenleistung näher an den Code verlagern, ohne den gesamten Desktop zu streamen
Pixel-gestreamte Setups priorisieren zentralisierte Kontrolle gegenüber dem Entwicklerfluss und werden oft ohne ausreichendes Feedback der Engineers eingeführt, die damit arbeiten müssen
Wenn starke Sicherheits- oder Regulierungsanforderungen die Produktivitätskosten nicht klar überwiegen, sind pixel-gestreamte Entwicklungsumgebungen keine Empfehlung als Standardwahl für Software Delivery

[Platforms]

Adopt

— keine

Trial

42. AG-UI Protocol

Ein offenes Protokoll und eine Bibliothek, die entwickelt wurden, um die Kommunikation zwischen reichhaltigen Benutzeroberflächen und Backend-AI-Agents zu standardisieren
Historisch erforderte der Bau agentischer UIs maßgeschneiderte Plumbing-Arbeit für bidirektionale zustandsbehaftete Zusammenarbeit; AG-UI adressiert dies mit einer einheitlichen ereignisbasierten Architektur, die Transports wie Server-Sent Events (SSE) und WebSockets unterstützt
Unterstützt Streaming von Inferenzschritten, Zustandssynchronisierung und dynamisches Rendering von UI-Komponenten
Allerdings verändert sich die Architektur-Landschaft für Agent-Interfaces schnell, und AG-UI positioniert sich bewusst außerhalb von MCP als Interface-Schicht zwischen Frontend und Agent-Backend
Gleichzeitig entsteht mit neuen MCP-basierten Anwendungen, die HTML und UI-Widgets direkt in MCP-Servern oder Skills paketieren, ein anderer Ansatz
Da UI-Komponenten zusammen mit Tools eingebettet und ausgeliefert werden können — ein Muster, das mit angrenzenden Standards wie MCP-UI zusammenhängt — wird die Notwendigkeit einer separaten UI-Protokollschicht wie AG-UI infrage gestellt
Für die Trennung von Frontend-UX und Backend-Orchestrierung bleibt es dennoch eine robuste Wahl, allerdings sollte seine Rolle unter Berücksichtigung des Trends zur Integration von Tool-Logik und UI innerhalb des MCP-Ökosystems neu bewertet werden

43. Apache APISIX

Ein Open-Source-, hochperformantes, Cloud-native Gateway, das die Grenzen von Legacy-Lösungen auf Nginx-Basis überwindet
Aufgebaut auf LuaJIT von Nginx und OpenResty; verwendet etcd als Konfigurationsspeicher und beseitigt damit durch Reloads verursachte Latenzen, wodurch es sich gut für dynamische Microservices- und Serverless-Architekturen eignet
Zu den wichtigsten Stärken zählen eine vollständig dynamische und pluginfähige Architektur sowie ein mehrsprachiges Plugin-Ökosystem einschließlich API und WASM, mit dem sich Traffic-Management, Sicherheit und Observability anpassen lassen
Dank Unterstützung für die Kubernetes Gateway API kann Apache APISIX als Kubernetes-Gateway genutzt werden und ist ein starker Kandidat als Ersatz für Legacy-Nginx-Ingress-Controller

44. AWS Bedrock AgentCore

Eine agentische Plattform zum sicheren Aufbau, Ausführen und Betrieb von Agents im großen Maßstab ohne Overhead für das Infrastrukturmanagement, ähnlich wie GCP Vertex AI Agent Builder und Azure AI Foundry Agent Service
Es ist leicht, die Plattform als monolithische Blackbox zu übernehmen, doch mit einer feingranularen und entkoppelten Architektur stellt sich größerer Erfolg ein — für Produktionsanforderungen wie Session-Isolation, Sicherheit und Observability wird die AgentCore-Runtime genutzt, während die Orchestrierungslogik in externen Frameworks wie LangGraph verbleibt
Diese Trennung der Zuständigkeiten ermöglicht es, die Vorteile einer gemanagten Infrastruktur zu nutzen und zugleich flexibel zu bleiben, wenn sich das LLM-Umfeld weiterentwickelt
Der Fokus auf die Runtime erlaubt es Organisationen, agentische Workloads schrittweise in die Produktion zu überführen, ohne die Kontrolle über die Kernlogik an eine vendorspezifische Orchestrierungsschicht abzugeben

45. Graphiti

Die Open-Source-Engine für temporale Wissensgraphen von Zep belegt die Produktionstauglichkeit zur Lösung von LLM-Memory-Problemen
Während flache Vektorspeicher in RAG-Pipelines Änderungen von Fakten über die Zeit nicht nachverfolgen können, sammelt Graphiti Daten in separaten Episoden und hält auf Graph-Kanten bitemporale Gültigkeitsfenster vor; veraltete Fakten werden nicht überschrieben, sondern entwertet
Anders als das batchorientierte GraphRAG aktualisiert es den Graphen inkrementell und bietet mit hybrider Suche aus semantischer Suche, BM25 und Graph-Traversierung Subsekunden-Suche ohne LLM-Aufrufe zur Query-Zeit
Zwei Faktoren treiben die Verbreitung — ein peer-reviewter Benchmark, der eine Genauigkeitsverbesserung um 18,5 % und eine Reduktion der Latenz um 90 % meldet, sowie die Einführung eines erstklassigen MCP-Servers, der es mit Model Context Protocol kompatiblen Agents erlaubt, mit minimalem Integrationsaufwand persistentes zeitliches Memory anzubinden
Eine starke Community-Adoption ist ein weiteres Signal für Produktionsreife
Neo4j ist das primäre Backend, FalkorDB eine leichtgewichtigere Alternative
Zu berücksichtigen sind die LLM-Extraktionskosten pro Schreibvorgang sowie die Notwendigkeit, Abhängigkeiten angesichts des Release-Status vor Version 1.0 festzuschreiben

46. Langfuse

Eine Open-Source-LLM-Engineering-Plattform für Observability, Prompt-Management, Evaluierung und Dataset-Management
Seit der letzten Bewertung ist das Projekt deutlich gereift; die v3-Architektur führt ClickHouse, Redis und S3 als Backend-Komponenten ein, was die Skalierbarkeit verbessert, aber auch die Komplexität des Self-Hostings erhöht
Sowohl die Python- als auch die TypeScript-SDKs sind nativ auf OpenTelemetry aufgebaut und passen daher natürlich zu Teams, die OTEL-basierte Observability nutzen
Neue Funktionen wie das Experiment-Runner-SDK und Unterstützung für strukturierte Ausgaben bei Prompt-Experimenten erweitern Langfuse von reinem Tracing hin zu systematischen Evaluierungs-Workflows
In einem zunehmend überfüllten Feld neben Arize Phoenix, Helicone und LangSmith eine Überlegung wert
Teams, die primär auf Pydantic AI aufbauen, sollten statt eines LLM-spezifischen Toolsets auch Pydantic Logfire in Betracht ziehen, das als Full-Stack-OTEL-Observability-Plattform einen breiteren Ansatz verfolgt
Eine verlässliche Wahl für Teams, die integriertes Tracing, Evaluierung und Prompt-Management auf einer einzigen selbst hostbaren Plattform benötigen; wenn jedoch vor allem Kosten- und Latenztransparenz auf der Modellebene gebraucht wird, sollte geprüft werden, ob ein enger zugeschnittenes Tool wie Helicone ausreicht

47. Port

Ein kommerzielles internes Entwicklerportal, das zur Verbesserung der Developer Experience entwickelt wurde und Plattform-Teams eine Single Source of Truth für Self-Service-Workflows bietet, indem es Software-Assets zentralisiert, Workflows automatisiert und Engineering-Standards durchsetzt
Wird wichtiger, da Organisationen ihre Engineering-Workflows standardisieren und Templates, APIs, Automatisierungen und Agents in einer Form bereitstellen wollen, die Entwickler tatsächlich nutzen können
Nicht nur als eigenständiges Portal, sondern über die API und die MCP-Schicht von Port auch direkt in der IDE nutzbar
Funktioniert gut für Organisationen, die ohne starke Investitionen in Platform Engineering produktisierte Portal-Funktionalität wollen
In Kundenprojekten konnten damit relativ kleine Plattform-Teams wirksamen Self-Service schnell bereitstellen und zugleich Tausende von Entwicklern unterstützen
Für Organisationen, die schnell Funktionen eines internen Entwicklerportals benötigen und die Einschränkungen einer kommerziellen Plattform samt Vendor Lock-in akzeptieren können, eine Evaluierung wert

48. Replit

Eine Cloud-native kollaborative Entwicklungsplattform, die sofort verfügbare Entwicklungsumgebungen, Echtzeit-Coding und integrierte KI-Assistenz direkt im Browser bietet
Vereint Editor, Runtime, Deployment und KI-Coding-Workflows in einer einzigen integrierten Plattform, sodass Entwickler ohne lokales Setup sofort mit dem Coden beginnen können
Die KI-gestützte kollaborative IDE hilft sehr dabei, Reibung beim Onboarding zu verringern, und eignet sich gut für gemeinsames Prototyping im Team
Auch für Trainingssessions, Wissensaustausch und Bootcamps sehr effektiv
Manche sehen Replit vielleicht als Ort für KI-unterstützte Hobbyprojekte, aber die Umgebung ist leistungsfähig genug, um mit traditionellen lokalen IDEs zu konkurrieren, wodurch Iteration und Zusammenarbeit deutlich einfacher werden

49. SigNoz

Eine Open-Source-Observability-Plattform mit nativer OpenTelemetry-Unterstützung, die Logs, Metriken und Traces integriert unterstützt
Erfüllt APM- und Instrumentierungsanforderungen moderner Microservices- und verteilter Architekturen und vermeidet dabei Vendor Lock-in
Nutzt ClickHouse als spaltenorientierte Standarddatenbank und bietet damit skalierbaren, hochperformanten und kosteneffizienten Speicher bei schnellen Abfragen, wodurch es sich als starke Self-Hosting-Alternative zu Plattformen wie Datadog positioniert
Flexible Abfragen über PromQL und ClickHouse SQL sowie Unterstützung für Benachrichtigungen über mehrere Alerting-Kanäle
In der Praxis hat sich gezeigt, dass SigNoz den Ressourcenverbrauch der Infrastruktur und die gesamten Observability-Kosten senkt, ohne die Performance zu beeinträchtigen
Zwar ist auch ein gemanagter Cloud-Service verfügbar, doch für Organisationen, die die Kontrolle über Daten und Infrastruktur behalten möchten, sind die einsatzbereiten Docker-Images und Helm-Charts eine praktische Wahl

Assess

50. Agent Trace

Von Cursor vorgeschlagene offene Spezifikation zur Standardisierung der Zuordnung von AI-generiertem Code
Mit der zunehmenden Einführung von Coding-Agenten erweitert sich die Frage, wer Code geändert hat, über menschliche Entwickler hinaus auf von AI erzeugte Änderungen
Bestehende Tools wie git blame können zwar zeigen, dass eine Codezeile geändert wurde, erfassen aber nicht, ob die Änderung von Menschen, AI oder beiden stammt
Agent Trace verfolgt einen herstellerneutralen Ansatz zur Definition, wie Codeänderungen nachverfolgt werden; zur Speicherung der Nachverfolgung macht es keine Vorgaben
Kompatibel mit mehreren Versionsverwaltungssystemen, darunter Git, Mercurial und Jujutsu
Die Spezifikation definiert Trace-Records mit Beitragendentypen wie human, AI, mixed und unknown sowie Beschreibungen der Herkunft jedes Beitrags
Frühe Signale für eine Einführung sind die Unterstützung durch Tools wie Cline und OpenCode sowie Implementierungen wie Git AI

51. ClickStack

OpenTelemetry-kompatible Open-Source-Observability-Plattform, die Logs, Traces, Metriken und Sessions in einem einzigen Hochleistungs-Datenspeicher auf Basis von ClickHouse zusammenführt
Mit wachsender Infrastruktur und steigenden Observability-Kosten kämpfen viele Teams mit fragmentierten Telemetrie-Toolchains und teuren Vendor-Plattformen
ClickStack nutzt den spaltenorientierten Datenspeicher von ClickHouse, um Subsekunden-Abfragen mit hoher Kardinalität über große Telemetriedatenmengen hinweg zu ermöglichen, und bietet damit eine einfachere und kosteneffizientere Grundlage für Observability

52. Coder

Eine gute Alternative zu pixel-streamed development environments, die trennt, wo Code ausgeführt wird und wie Entwickler damit interagieren
Statt eine vollständige Desktop-Oberfläche zu streamen, verbinden sich Entwickler über lokale IDEs wie VS Code oder über den Browser mit einer Remote-Umgebung und erhalten so eine reaktionsfreudigere Erfahrung ohne Einbußen bei der Nutzbarkeit
Der Code läuft auf skalierbarer Remote-Infrastruktur, und Umgebungen werden als Code definiert und verwaltet, sodass Teams Entwicklungs-Setups standardisieren und das Onboarding neuer Entwickler vereinfachen können
Erleichtert außerdem kontrollierten Zugriff auf interne Systeme und einen vereinfachten Zugriff für vorab genehmigte AI-Coding-Agenten
Coder wird als Mittelweg zwischen lokaler Entwicklung und vollständig virtualisierten Desktops gesehen — mit zentraler Kontrolle und Governance ohne die Usability-Grenzen von pixel-streamed VDI
Eine gute Option für Organisationen, die Remote- oder kontrollierte Ausführungsumgebungen benötigen, insbesondere dort, wo mehr Rechenleistung oder sicherer Zugriff erforderlich ist
Die mit der Verwaltung solcher Umgebungen verbundenen operativen Overheads und Sicherheitsverantwortlichkeiten sollten jedoch bewertet werden

53. Databricks Agent Bricks

Da agentenbasierte Ansätze zum Mainstream werden, entwickeln sich Datenplattformen dahin, solche Workloads nicht mehr als Zusatzmodul, sondern nativ zu unterstützen
Databricks Agent Bricks bietet vorgefertigte, automatisch optimierte Komponenten für gängige AI-Muster wie Wissensassistenten und Datenanalysten
Folgt einem deklarativen Ansatz — Entwickler definieren Ziele und Basisdaten, das Framework übernimmt Ausführung und Optimierung
Durch vereinfachtes LLMOps und geringeren Aufwand für Data Curation können sich Teams stärker auf Geschäftsergebnisse statt auf Boilerplate konzentrieren
Ein Team nutzte es zusammen mit Custom Agents zur Evaluierung und zum Aufbau einer komplexen RAG-Lösung für präklinische F&E
Wenn bereits in das Databricks-Ökosystem investiert wurde und agentenbasierte Ansätze für gängige Use Cases wie Chatbots und Dokumentenextraktion untersucht werden, sollte eine Evaluierung erwogen werden

54. DuckLake

Einheitliches Data-Lake- und Katalogformat, das Lakehouse-Architekturen vereinfacht, indem es Standard-SQL-Datenbanken für Katalog- und Metadatenmanagement verwendet
Während traditionelle Open-Table-Formate wie Iceberg oder Delta Lake auf komplexe dateibasierte Metadatenstrukturen angewiesen sind, speichert DuckLake Metadaten in einer Katalogdatenbank wie SQLite, PostgreSQL oder DuckDB und persistiert Daten als Parquet-Dateien auf lokalen Datenträgern oder in S3-kompatiblen Objektspeichern
Dieser hybride Ansatz verbessert Latenzen bei der Query-Planung und die Transaktionszuverlässigkeit bei gleichzeitigen Updates
DuckDB fungiert über die Erweiterung ducklake als Query Engine und bietet eine vertraute SQL-Schnittstelle für Standard-DDL- und DML-Operationen
Behält Lakehouse-Eigenschaften wie Partitionierung bei, verzichtet jedoch auf Indizes sowie Primär- und Fremdschlüssel
Mit Unterstützung für Time Travel, Schema Evolution und ACID-Compliance bietet es Teams, die einen unabhängigen Analytics-Stack anstreben, eine Option mit geringer Komplexität
Noch in einem frühen Reifestadium, aber eine vielversprechende und leichtgewichtige Alternative zu traditionellen Lakehouse-Architekturen
Gut geeignet für vereinfachte Datenumgebungen, die den operativen Overhead von Spark- oder Trino-basierten Ökosystemen vermeiden wollen

55. FalkorDB

Redis-basierte Graphdatenbank mit Unterstützung für Cypher, geeignet für Teams, die Graph-Funktionalität wollen, ohne eine schwere Graph-Plattform einzuführen
Eine praktische Option für Organisationen, die beziehungsreiche AI- und Anwendungs-Workloads aufbauen, bei denen geringe operative Reibung wichtig ist und ein serverbasierter Graph-Service gegenüber eingebetteter Speicherung bevorzugt wird
Die Architektur ist vielversprechend und das Entwicklermodell zugänglich, aber vor einer breiten Einführung sollte das Produktionsverhalten von FalkorDB hinsichtlich Skalierung, Betriebstools und langfristiger Reife des Ökosystems validiert werden

56. Google Dialogflow CX

Verwaltete Conversational-AI-Plattform von Google Cloud, die eine graphbasierte State Machine aus Flows und Pages mit generativen Fähigkeiten auf Basis von Vertex AI Gemini kombiniert
Zuvor wurde bereits ihr Vorgänger Dialogflow im Radar verfolgt
CX stellt eine erhebliche Neugestaltung dar und erhielt 2024 nach der Integration von Vertex-AI-Gemini-Modellen von Google besondere Aufmerksamkeit; eingeführt wurden Generative Playbooks für instruktionbasierte Agenten sowie Data Store RAG, das Antworten auf indexierten Inhalten grounded
Wurde zum Aufbau eines Agenten für Natural-Language-Data-Discovery verwendet; wegen der Low-Code-Umgebung und der Generative Playbooks fiel die Wahl auf Dialogflow CX statt auf einen Custom-SDK-Ansatz
Konfiguriert mit Few-Shot-Prompting zur Übersetzung von Natural-Language-Abfragen in SQL
Teams, die auf Google Cloud aufbauen, stellen bei der Entwicklung von Natural-Language-Schnittstellen über strukturierten internen Daten eine schnellere Umsetzung im Vergleich zu Custom-Agent-Stacks fest
Allerdings gibt es keine kostenlose Stufe, die tiefe Abhängigkeit von Google Cloud bringt erhebliche Vendor-Lock-in-Risiken mit sich, und der Aufwand für Context Engineering sollte eingeplant werden

57. MCP Apps

Erste offizielle Erweiterung des Model Context Protocol, mit der MCP-Server interaktive HTML-Oberflächen zurückgeben können, die direkt in einer Konversation als Dashboards, Formulare oder Visualisierungen gerendert werden
Gemeinsam von Anthropic, OpenAI und Open-Source-Mitwirkenden entwickelt; standardisiert wird ein ui://-Ressourcenschema, mit dem Tools UI-Templates deklarieren, die in einer Sandbox-Iframe gerendert werden und bei fehlender UI-Unterstützung des Hosts elegant auf Text zurückfallen
Anders als AG-UI, das als separate Bibliotheksschicht arbeitet, verpackt MCP Apps die UI direkt im MCP-Server
Durch das bidirektionale Design kann das Modell Benutzeraktionen beobachten, während die Oberfläche Echtzeitdaten und direkte Manipulation ermöglicht, die mit Text nicht umsetzbar wären
Clients wie Claude, ChatGPT, VS Code und Goose haben bereits Support veröffentlicht
Teams, die reichhaltigere Agent-Interaktionen erkunden, sollten prüfen, ob die zusätzliche Komplexität gegenüber reinen Textantworten für ihren Use Case gerechtfertigt ist

58. Monarch

Open-Source-Framework für verteilte Programmierung, das die Einfachheit von PyTorch-Workloads auf einer einzelnen Maschine auf große GPU-Cluster überträgt
Bietet eine Python-API zum Erzeugen entfernter Prozesse und Actors und gruppiert diese in einer mesh-Kollektion mit Unterstützung für Broadcast-Messaging
Bietet Fehlertoleranz über einen Supervision Tree, bei dem sich Fehler in der Hierarchie nach oben ausbreiten und so saubere Fehlerbehandlung und granulare Wiederherstellung ermöglichen
Unterstützt Point-to-Point-RDMA-Übertragungen für effiziente GPU-/CPU-Speicherbewegungen und bietet eine Abstraktion für verteilte Tensoren, mit der Actors mit über Prozesse verteilten Tensoren arbeiten können, während das imperative Programmiermodell erhalten bleibt
Monarch ist auf einem performanten Rust-Backend aufgebaut
Noch in einem frühen Entwicklungsstadium, aber die Abstraktion, die verteilte Tensoren wie lokale wirken lässt, ist so leistungsfähig, dass sie die Komplexität großskaligen verteilten AI-Trainings deutlich reduzieren könnte

59. Neutree

Open-Source-Plattform zum Management und Serving von LLMs auf privater Infrastruktur, positioniert als Model-Service-Layer für Enterprise AI
Bietet eine einheitliche Control Plane für das Management des Modell-Lifecycle, Inference Serving und Computing-Scheduling über heterogene Hardware hinweg, etwa Beschleuniger von NVIDIA, AMD und Intel
Da Unternehmen von gehosteten APIs zu selbst gehosteten, gouvernierten Deployments wechseln, schließt Neutree eine klare Lücke — mit Multi-Tenancy, Zugriffskontrolle, Nutzungsabrechnung und Infrastrukturabstraktion als Enterprise-Funktionen für den Betrieb von LLM-Workloads
Trennt Model Serving von der Applikationslogik, sodass Teams Modelle über Bare Metal, VMs und Container hinweg deployen, skalieren und routen können, ohne sich eng an einen bestimmten Cloud-Anbieter zu binden
Ist jedoch noch relativ neu, daher sollte die Einführung mit Vorsicht erfolgen
Ökosystem, operative Reife und Integrationsfähigkeit entwickeln sich im Vergleich zu etablierteren ML-Plattformen noch weiter
Vielversprechend, aber am besten geeignet für Teams, die bereit sind, in die Bewertung und Mitgestaltung aufkommender Enterprise-AI-Infrastruktur zu investieren

60. OptScale

Open-Source-Multi-Cloud-FinOps-Plattform zur Unterstützung AI-/ML-lastiger Workloads, bei denen GPU- und Experimentkosten schnell stark ansteigen können
Sammelt Abrechnungs- und Nutzungsdaten aus Cloud-APIs und kombiniert Kosten-Transparenz, Optimierungsempfehlungen, Budget-Tracking und Anomalieerkennung in einem einzigen System mit richtlinienbasierten Alerts, abgestimmt auf Team- oder Business-Strukturen
Im Vergleich zu OpenCost bietet OptScale Analysen auf Kubernetes-Ebene und deckt zugleich breitere FinOps-Anwendungsfälle außerhalb von Kubernetes ab
Bietet mehr Kontrolle und weniger Vendor Lock-in als Enterprise-Suiten wie IBM Cloudability, CloudZero, CloudHealth, IBM Kubecost und Flexera One
Der Trade-off sind höherer operativer Overhead, komplexere Deployments, Edge Cases bei Konnektoren und Bedenken hinsichtlich der Sicherheitshygiene von Container-Images
Sollte nicht als Plug-and-Play-Produkt, sondern als Investition in Plattformkompetenz betrachtet werden

61. Rhesis

Open-Source-Testplattform für LLMs und agentische Applikationen, mit der Teams erwartetes Verhalten in natürlicher Sprache definieren, adversariale Testszenarien erzeugen und Ergebnisse sowohl über UI als auch per SDK oder API auswerten können
Während traditionelle Testansätze von deterministischem Verhalten ausgehen, scheitern AI-Systeme auf subtilere Weise — etwa durch Jailbreaks, Multi-Turn-Interaktionen, Policy-Verstöße oder kontextabhängige Edge Cases
Eine nützliche Plattform für Teams, die mehr als einfache Prompt-Evaluierung brauchen
Funktionen wie der Conversation Simulator, adversariales Testing, OpenTelemetry-basiertes Tracing und Self-Hosting per Docker sind ein praktischer Weg, Produkt-, Domänen- und Engineering-Teams in einen gemeinsamen Test-Workflow einzubinden
Der wichtigste Vorteil ist eine verbesserte Validierung nichtdeterministischer Systeme vor der Produktion
Zu berücksichtigen sind die üblichen Trade-offs wie Evaluierungskosten, die Grenzen von LLM-as-a-judge-Metriken und die Notwendigkeit klar definierter Anforderungen, bevor die Plattform Wert liefern kann
Für Teams, die LLMs oder agentische Systeme bauen und über einfache Prompt-Checks hinaus kollaborative, wiederholbare Tests benötigen, eine Evaluierung wert

62. RunPod

Wenn Unternehmen mehr Experimente für LLM-Training und Fine-Tuning durchführen, können Hyperscaler wie AWS und Google Cloud hohe Kosten und begrenzte Hardware-Verfügbarkeit mit sich bringen
RunPod bietet eine kosteneffiziente Alternative für rechenintensive AI-Workloads
Arbeitet als global verteilter GPU-Marktplatz und bietet On-Demand-Zugriff auf ein breites Spektrum an Hardware, von Enterprise-H100-Clustern bis zu RTX 4090 für Consumer, oft zu deutlich geringeren Kosten als bei traditionellen Cloud-Anbietern
Eine praktische Option, die Teams prüfen sollten, wenn sie flexible, budgetfreundliche Infrastruktur für Entwicklung, Training und Deployment von AI-Modellen ohne langfristige Bindungen oder Vendor Lock-in benötigen

63. Sprites

Stateful Sandbox-Umgebung von Fly.io, entwickelt für die isolierte Ausführung von AI-Coding-Agents
Während die meisten Agent-Sandboxes ephemer sind, also für eine Aufgabe erstellt werden und wieder verschwinden, bietet Sprites persistente Linux-Umgebungen mit unbegrenzten Checkpoint- und Restore-Fähigkeiten
Entwickler können Snapshots des gesamten Umgebungszustands erstellen, einschließlich installierter Abhängigkeiten, Runtime-Konfiguration und Änderungen am Dateisystem, und zurückrollen, wenn ein Agent vom Kurs abkommt
Das geht über das hinaus, was sich allein mit Git wiederherstellen lässt, da Systemzustand erfasst wird, den Versionsverwaltung nicht nachverfolgt
Da Teams Sandboxed Execution for Coding Agents zunehmend als sinnvollen Standard übernehmen, repräsentiert Sprites ein Ende des Spektrums — ein nicht ephemerer, zustandsbehafteter Ansatz, der die Einfachheit wegwerfbarer Container gegen reichhaltigere Wiederherstellungsoptionen eintauscht
Teams, die Agent-Sandboxing evaluieren, sollten Sprites je nach Bedarf und Workflow zusammen mit ephemeren Alternativen wie Dev Containers in Betracht ziehen

64. torchforge

PyTorch-native Reinforcement-Learning-Bibliothek, entwickelt für großskaliges Post-Training von Sprachmodellen
Bietet Abstraktionen auf hoher Ebene, die algorithmische Logik von Infrastrukturbelangen trennen, und orchestriert Monarch für das Tuning, vLLM für Inferenz und torchtitan für verteiltes Training
Dieser Ansatz ermöglicht es Forschern, komplexe Reinforcement-Learning-Workflows mit einer API ähnlich Pseudocode auszudrücken und Workloads über Tausende von GPUs zu skalieren, ohne Low-Level-Themen wie Ressourcensynchronisierung, Scheduling oder Fehlertoleranz selbst zu managen
Indem das „Was“ (Algorithmusdesign) vom „Wie“ (verteilte Ausführung) getrennt wird, vereinfacht torchforge Experimente und Iteration in großskaligen Alignment-Systemen
Ein nützlicher Schritt, um fortgeschrittene Post-Training-Techniken zugänglicher zu machen, doch Teams sollten Reifegrad und Eignung innerhalb ihrer bestehenden ML-Infrastruktur bewerten

65. torchtitan

PyTorch-native Plattform für großskaliges Pre-Training generativer AI-Modelle, die eine saubere und modulare Referenzimplementierung für performantes verteiltes Training bietet
Führt fortgeschrittene verteilte Primitiven in einem kohärenten System zusammen und unterstützt 4D-Parallelisierung aus Daten-, Tensor-, Pipeline- und Kontext-Parallelisierung (4D parallelism)
Da das Training von Modellen in der Größenordnung von Llama 3.1 405B erhebliche Größenordnungen und Effizienz erfordert, bietet torchtitan eine praktische Grundlage für Aufbau und Betrieb großer Trainings-Workloads
Das modulare Design erleichtert es Teams, Parallelisierungsstrategien zu erproben und weiterzuentwickeln, ohne die Production-Readiness zu verlieren
Ein nützlicher Schritt zur Standardisierung des großskaligen Modelltrainings im PyTorch-Ökosystem, besonders geeignet für Teams, die ihre eigene Pre-Training-Infrastruktur aufbauen

[Tools]

Adopt

66. Axe-core

Open-Source-Test-Tool zur Erkennung von Accessibility-Problemen auf Websites und anderen HTML-basierten Anwendungen
Prüft Seiten auf die Einhaltung von Standards wie WCAG — einschließlich der Konformitätsstufen A, AA und AAA — und weist auf allgemeine Best Practices für Accessibility hin
Seit dem ersten Erscheinen im Radar als Trial im Jahr 2021 haben mehrere Teams bei Clients Axe-core eingeführt
Accessibility wird zunehmend zu einer unverzichtbaren Qualitätsanforderung; in Europa verpflichten Regulierungen wie der European Accessibility Act Organisationen dazu, die Anforderungen an die Accessibility digitaler Dienste zu erfüllen
Passt gut in moderne Entwicklungs-Workflows, da automatisierte Checks in CI-Pipelines aktiviert werden können
Hilft Teams, Regressionen zu vermeiden, Compliance aufrechtzuerhalten und frühzeitig Feedback während der Entwicklung zu erhalten, insbesondere um Accessibility als Teil der Feedback-Schleife bei breiter Einführung von AI-Unterstützung und agentischen Coding-Tools sicherzustellen

67. Claude Code

Agentisches AI-Coding-Tool von Anthropic zur Planung und Ausführung komplexer mehrstufiger Workflows
Teams innerhalb und außerhalb von Thoughtworks nutzen es routinemäßig für die Auslieferung von Produktionssoftware; es gilt weithin als Benchmark für Fähigkeiten und Usability und wurde deshalb nach Adopt verschoben
Das CLI-Agent-Umfeld hat sich mit Tools wie OpenAIs Codex CLI, Googles Gemini CLI, OpenCode und pi schnell erweitert, doch Claude Code ist für viele Teams die bevorzugte Option
Die Nutzung geht über das Schreiben von Code hinaus und umfasst die Ausführung breiter Workflows einschließlich Spezifikationen, Stories, Konfiguration, Infrastruktur, Dokumentation und in Markdown definierter Geschäftsprozesse
Führt fortlaufend Funktionen ein, denen andere Tools folgen, etwa Skills, Subagents, Fernsteuerung und agentische Team-Workflows
Einführende Teams brauchen disziplinierte Betriebspraktiken und Pairing; agentisches Coding verlagert den Entwickleraufwand von manueller Implementierung hin zur Spezifikation von Absicht, Constraints und Review-Grenzen
Kann die Auslieferung beschleunigen, erhöht aber auch das Risiko von Sorglosigkeit gegenüber AI-generiertem Code, wodurch Systeme für Menschen und Agenten gleichermaßen schwerer zu warten und weiterzuentwickeln sind
Das Interesse wächst an Context Engineering zur verlässlicheren Gestaltung agentischer Workflows (Themenbewusstsein, kontextbasierte Auswahl nach Scope) sowie an harness engineering als Umsetzungsansatz für curated shared instructions

68. Cursor

Taucht zusammen mit Claude Code konsistent als Standardwahl von Delivery-Teams auf und ist einer der am breitesten eingeführten Coding-Agenten
Zu einer umfassenden agentischen Umgebung mit Funktionen wie plan mode, hooks, subagents gereift
Terminalbasierte Agenten sind ebenfalls beliebt, aber viele Entwickler stellen fest, dass die Beaufsichtigung von Agenten innerhalb der IDE eine reichhaltigere Erfahrung für das Überprüfen und Verfeinern von Plänen vor der Ausführung bietet
Durch die Einführung des Agent Client Protocol wurde die Hürde für die große JetBrains-Nutzerbasis gesenkt, sodass die Fähigkeiten von Cursor in diesen IDEs zugänglich wurden
Besonders wertvoll sind die Möglichkeit, einzelne Agentenschritte zu inspizieren, sowie die Fähigkeit, bei Abweichungen vom Plan auf frühere Schritte zurückzurollen
Durch die Nutzung von Agent Skills können Teams Anweisungen wiederverwendbar paketieren und standardisieren, wie Agenten mit komplexen Codebases interagieren
Die Produktivitätsgewinne sind klar, aber agentische Autonomie erfordert weiterhin strenge automatisierte Tests und menschliche Aufsicht, um subtile Regressionen zu erkennen

69. Kafbat UI

Kostenlose Open-Source-Web-UI für das Monitoring und Management von Apache-Kafka-Clustern
Besonders nützlich, wenn Teams beim täglichen Debugging schwer lesbare Payloads untersuchen müssen
Teams stoßen beim Debugging verschlüsselter Nachrichten oft an Grenzen; die eingebaute und per Plugin erweiterbare SerDes-Unterstützung von Kafbat UI bietet einen praktischen Weg, Entschlüsselung oder benutzerdefiniertes Decoding anzuwenden, um Nachrichten wieder lesbar zu machen
Bietet schnelleres Feedback als einmalige Debug-Skripte und eine bessere operative Erfahrung für Entwickler- und Support-Teams
Empfohlen für Kafka-lastige Umgebungen, in denen sichere Nachrichteninspektion und effiziente Problemlösung Standardpraxis sein sollten

70. mise

Hat sich seit der letzten Bewertung von einer performanten Alternative zu asdf zum Standard-Frontend für Entwicklungsumgebungen entwickelt
Vereint drei fragmentierte Themenfelder — Tool- und Sprachversionsverwaltung, Verwaltung von Umgebungsvariablen und Task-Ausführung — in einem einzigen performanten, auf Rust basierenden Tool, konfiguriert über deklarative mise.toml-Dateien
mise lässt sich leicht konfigurieren und funktioniert gut mit CI/CD-Pipelines
Fügt durch die Integration mit Cosign und GitHub Artifact Attestations eine Supply-Chain-Sicherheits-Schicht hinzu, die bei anderen Versionsmanagern oft fehlt
Empfohlener Standard für Teams, die die Einrichtung von Entwicklerumgebungen standardisieren wollen
Besonders nützlich in mehrsprachigen Microservice-Umgebungen, wenn Codebases gleichzeitig neue Sprachversionen übernehmen
Funktioniert auch mit bestehenden sprachspezifischen Tools, sodass Teams nicht alles auf einmal migrieren müssen

Trial

71. cargo-mutants

Mutation-Testing-Tool für Rust, das hilft, über einfache Code-Coverage-Metriken hinauszugehen
Injiziert automatisch kleine, absichtliche Bugs wie den Austausch von Operatoren oder die Rückgabe von Default-Werten, um zu prüfen, ob bestehende Tests Regressionen tatsächlich erkennen
Der Zero-Config-Ansatz ist besonders effektiv; anders als frühere Tools sind keine Änderungen am Source-Tree erforderlich
Bietet für Teams, die neu in Rust sind, eine nützliche Feedback-Schleife, um fehlende Edge Cases zu identifizieren und die Zuverlässigkeit von Unit- und Integrationstests zu verbessern
cargo-mutants ist eine spezialisierte Implementierung von Mutation Testing, das auch in anderen Ökosystemen erprobt wird
Der Hauptaufwand liegt in längeren Testlaufzeiten, da jeder Mutant einen inkrementellen Build erfordert
Zur Beherrschung empfiehlt es sich, während der lokalen Entwicklung bestimmte Module gezielt zu testen oder in CI die vollständige Suite asynchron auszuführen
Gelegentlich kann es nötig sein, logisch äquivalente Mutanten herauszufiltern, aber die dadurch gewonnene höhere Testzuverlässigkeit überwiegt das zusätzliche Rauschen

72. Claude Code plugin marketplace

Zuvor war das Teilen von benutzerdefinierten Befehlen, spezialisierten Agenten, MCP-Servern und Skills ein manueller Prozess, bei dem Entwickler Anweisungen aus Confluence oder anderen externen Quellen kopieren und einfügen mussten
Dadurch kam es häufig zu Versionsdrift, und Teammitglieder nutzten veraltete Projektanweisungen
Teams nutzen den Claude Code plugin marketplace, um ein Git-basiertes Bereitstellungsmodell zu verwenden und gemeinsame Befehle, Prompts und Skills zu verteilen
Durch das Hosting interner Team-Marktplätze auf GitHub oder ähnlichen Plattformen können Organisationen diese Artefakte sicherer und konsistenter bereitstellen
Entwickler können KI-basierte Workflows und Tools über die CLI direkt mit ihrer lokalen Umgebung synchronisieren
Andere Coding-Agenten wie Cursor unterstützen ebenfalls Team-plugin marketplace und ermöglichen damit einen schlankeren und stärker gesteuerten Weg, solche Artefakte zu teilen

73. Dev Containers

Eine standardisierte Methode zur Definition reproduzierbarer containerisierter Entwicklungsumgebungen mithilfe der Konfigurationsdatei devcontainer.json
Ursprünglich dafür konzipiert, Teams konsistente Entwicklungs-Setups bereitzustellen, wurde ein attraktiver neuer Anwendungsfall als Sandbox-Ausführungsumgebung für Coding-Agenten entdeckt
Beim Ausführen von AI-Coding-Agenten in einem Dev Container sind diese vom Host-Dateisystem, von Zugangsdaten und vom Netzwerk isoliert, sodass Teams Agenten weitreichende Berechtigungen erteilen können, ohne die Host-Maschine zu gefährden
Die offene Spezifikation wird nativ von VS Code und VS-Code-basierten Tools wie Cursor unterstützt
DevPod erweitert die devcontainer-Unterstützung per SSH auf beliebige Editor- oder Terminal-Workflows
Die Einführung eines ephemeren Standardansatzes (d. h. der Container wird bei jedem Start aus der Konfiguration neu aufgebaut) bietet eine saubere Sicherheitsgrenze auf Kosten der Neuinstallation von Tools und Abhängigkeiten
Für Teams, die persistenten Zustand oder Checkpoint- und Restore-Fähigkeiten benötigen, gibt es andere Ansätze wie Sprites
Neben dem Agent-Sandboxing bietet dies auch Vorteile für die Supply-Chain-Sicherheit, da die Toolchain in deklarativer Konfiguration definiert wird und so die Exposition gegenüber kompromittierten Paketen und unerwarteten Abhängigkeiten verringert

74. Figma Make

Zuvor ein Blip zu self-serve UI prototyping with GenAI; diese Technik wird inzwischen von Entwicklungsteams einschließlich Produktmanagern und Designern breit eingesetzt, um hochwertige Prototypen zu erstellen, die für Nutzertests geeignet sind
Figma Make ist eine leistungsstarke Option, die echte Komponenten und Ebenen aus dem Designsystem nutzt, sodass die Ergebnisse der Produktionsanwendung stark ähneln
Verwendet ein angepasstes KI-Modell, das auf hochwertigen Designmustern trainiert wurde
Teams verwenden es, um neue Design-Screens zu erstellen, bestehende zu verbessern und teilbare Prototypen für schnelles Nutzerfeedback zu bauen

75. OpenAI Codex

Hat sich zu einem eigenständigen agentischen Coding-Tool entwickelt, das über eine macOS-App und CLI verfügbar ist
Entwickelt für die Delegation autonomer Arbeit — nach einem Prompt plant, implementiert und iteriert es mit minimalem Eingriff über mehrere Dateien hinweg
Effektiv als Tool für schnelle Entwürfe, besonders nützlich bei Greenfield-Arbeit und wiederholten Implementierungsaufgaben
Allerdings macht OpenAI Codex automatisierte Tests und menschliches Review erforderlich, da es dazu neigt, logisch saubere, aber funktional veraltete Bibliotheksmuster vorzuschlagen
Wie bei anderen agentischen Tools in diesem Radar ist das Risiko einer schleichenden Anhäufung subtiler technischer Schulden real und proportional zum Grad der Autonomie, den Teams gewähren

76. Typst

Ein Markup-basiertes Satzsystem, das sich als moderner Nachfolger von LaTeX für die programmgesteuerte Dokumentenerzeugung etabliert hat
Kombiniert hochwertige Typografie mit einfacherer Syntax und bietet eine bemerkenswert schnelle Compile-Pipeline, die selbst sehr große Dokumente in einem Bruchteil der Zeit traditioneller LaTeX-Toolchains kompiliert
Typst bietet klarere Fehlermeldungen und integrierte Skripting-Funktionen wie Bedingungen und Schleifen
Kann strukturierte Daten aus JSON oder CSV laden und ist damit gut für automatisierte Dokumentenerzeugung geeignet
Teams nutzen es, um Auszüge und Berichte für Bank- und Finanzdienstleistungskunden zu erzeugen, bei denen große Mengen in konsistentem Format erstellt werden müssen
Der Open-Source-Compiler kann selbst gehostet werden, und das wachsende Ökosystem umfasst von der Community beigesteuerte Pakete
Es ist zugänglicher als LaTeX und liefert dabei vergleichbare typografische Qualität

Assess

77. Agent Scan

Ein Security-Scanner für Agenten-Ökosysteme, der lokale Komponenten einschließlich MCP-Servern und Skills entdeckt und Risiken wie Prompt Injection, Tool-Vergiftung, toxic flow, hartkodierte Secrets und unsichere Verarbeitung von Zugangsdaten kennzeichnet
Schließt eine entstehende Lücke bei der Transparenz der Agenten-Supply-Chain und bietet eine praktikable Methode, die schnell wachsende Agenten-Oberfläche zu inventarisieren und zu testen
Die Einführung sollte jedoch bewusst erfolgen — das Scanning erfordert, Komponenten-Metadaten mit der Snyk API zu teilen, und Signalqualität sowie False-Positive-Rate müssen in der jeweiligen Umgebung validiert werden
Es ist wichtig, den operativen Nutzen zu bestätigen, bevor Teams Agent Scan zu einem verpflichtenden Teil der Delivery-Gates machen

78. Beads

Ein Git-basierter Issue-Tracker, der als persistente Memory-Schicht für Coding-Agenten konzipiert wurde
Statt sich auf temporäre Markdown-Pläne zu verlassen, bietet er Agenten einen branch-freundlichen strukturierten Aufgabengraphen für Blocker-Beziehungen, das Erkennen vorbereitender Arbeit und die Koordination langfristiger Aufgaben über Sitzungen hinweg
Beads ist auf Dolt aufgebaut, einer SQL-Datenbank mit integrierter Versionsverwaltung, die Branches, Merges, Diffs und Tabellenkopien ähnlich wie ein Git-Repository unterstützt
Repräsentiert eine neue Kategorie agentennativer Projekt-Memory- und Task-Tracking-Tools
Weitere frühe Projekte in diesem Bereich sind ticket und tracer
Im Unterschied zu traditionellen Ticketing-Systemen wie GitHub Issues und Jira ermöglicht es neue Workflows für autonome Multi-Agenten-Ausführung, einschließlich der Zuweisung von Arbeit durch Agenten untereinander

79. Bloom

Ein Anthropic-Tool für KI-Sicherheitsforscher zur Bewertung von LLM-Verhalten
Erkennt Verhaltensweisen wie sycophancy (Schmeichelei) und self-preservation (Selbsterhaltung)
Im Vergleich zu statischen Benchmarks verwendet es Seed-Konfigurationen zur Definition von Zielverhalten und Bewertungsparametern, erzeugt dann dynamisch vielfältige Testdialoge und bewertet anschließend die Ergebnisse
Dieser Ansatz zur automatisierten Verhaltensbewertung ist essenziell, um mit der Geschwindigkeit von Modellveröffentlichungen Schritt zu halten, und ermöglicht es externen Forschungsteams, Bewertungen durchzuführen
Petri dient als Begleitwerkzeug, um zu identifizieren, welche Verhaltensweisen in einem gegebenen Modell auftreten, während Bloom identifiziert, in welchen Szenarien und wie häufig solche Verhaltensweisen auftreten; zusammen bilden sie eine vollständigere Evaluierungs-Suite
Eine Sorge bei Bloom ist, dass es ein Lehrer- (oder Bewerter-)Modell zur Bewertung eines gegebenen Schülermodells benötigt; das Lehrermodell kann blinde Flecken und Verzerrungen haben, sodass sich durch den Einsatz mehrerer Bewerter die Verzerrung der Ergebnisse verringern lässt
Für KI-Sicherheitsteams lohnt sich eine Evaluierung als Ergänzung zu statischen Benchmarks für die Bewertung neu entstehender Modellverhaltensweisen

80. CDK Terrain

Ein Community-Fork des Cloud Development Kit for Terraform(CDKTF), das HashiCorp im Dezember 2025 eingestellt und archiviert hat
CDK Terrain (CDKTN) übernimmt dort, wo CDKTF aufgehört hat; Teams können ihre Infrastruktur in TypeScript, Python und Go definieren und über Terraform oder OpenTofu bereitstellen
Für Teams, die bereits in CDKTF investiert haben, bietet es einen Migrationspfad, der bestehenden Code und Workflows erhält, statt einen erzwungenen Wechsel zu HCL oder Pulumi
Das Projekt veröffentlicht monatlich Releases und hat OpenTofu-Unterstützung als Ziel erster Klasse hinzugefügt
Allerdings bergen von der Community gepflegte Forks aufgegebener Vendor-Projekte inhärente Risiken beim langfristigen Support, und der CDKTF-Ansatz konnte keine breite Verbreitung erreichen
HashiCorp nannte bei der Einstellung fehlende Produkt-Markt-Passung
Teams, die derzeit CDKTF nutzen, sollten CDK Terrain als Kontinuitätsoption bewerten und zugleich abwägen, ob jetzt der richtige Zeitpunkt für eine Migration zu einem breiter unterstützten Ansatz ist

81. CodeScene

2017 war social code analysis bereits ein Blip; mit der zunehmenden Einführung von Coding-Agenten gibt es erneut Interesse an Tools wie CodeScene
Ein verhaltensorientiertes Codeanalyse-Tool, das Metriken zur Codekomplexität mit der Versionshistorie kombiniert, um technische Schulden zu identifizieren
Im Unterschied zur traditionellen statischen Analyse hebt es „Hotspots“ hervor und hilft Teams dadurch, Refactorings nach tatsächlicher Entwicklungsaktivität und Business-Impact zu priorisieren
Bietet inzwischen auch Guidance für AI-freundliches Code-Design
Teams stellen fest, dass Codequalität noch wichtiger wird, weil Coding-Agenten Änderungen viel schneller als menschliche Entwickler vornehmen können
Die CodeHealth-Metrik von CodeScene liefert nützliche Guardrails, indem sie Bereiche identifiziert, die für ein sicheres Refactoring durch LLMs ohne Halluzinationsrisiko zu komplex sind
Als Guardrail für die Einführung von Coding-Agenten empfehlenswert, da die CodeHealth-Metrik sichere Refactoring-Ziele hervorhebt und auf Bereiche hinweist, die vor dem Agenteneinsatz verbessert werden sollten

82. ConfIT

Eine Bibliothek, die Integrations- und komponentenorientierte API-Tests deklarativ in JSON definiert, statt sie imperativ als Code zu schreiben
Das Interesse an diesem Ansatz wächst, weil große Test-Suites oft Boilerplate rund um HTTP-Clients, Request-Konfiguration und Assertions ansammeln
AI-unterstützte Entwicklung verstärkt diesen Trend, da strukturierte Testdefinitionen leichter zu generieren und zu pflegen sind als ausführlicher prozeduraler Code
Basierend auf Kundenerfahrung und Evaluationen reduziert die deklarative Schicht Duplikate zwischen Komponenten- und Integrationstests, verbessert die Lesbarkeit und erleichtert es Teams, die Testintention im Lauf der Zeit weiterzuentwickeln
ConfIT selbst hat jedoch nur begrenzte Community-Akzeptanz und ein kleines Ökosystem, weshalb eine breite Empfehlung trotz dieser Vorteile schwierig ist
Für .NET-Teams, die spezifikationsgetriebene API-Tests erkunden, eine prüfenswerte Option — allerdings sollten langfristige Wartbarkeit, Ökosystem-Fit und operative Trade-offs validiert werden

83. Entire CLI

Hängt sich in Git-Workflows ein und erfasst Sitzungen von AI-Coding-Agenten — Transkripte, Prompts, Tool-Aufrufe, berührte Dateien und Token-Nutzung — als durchsuchbare Metadaten, die in einem dedizierten Repository-Branch gespeichert werden
Unterstützt Claude Code, Gemini CLI, OpenCode, Cursor, Factory AI Droid und GitHub Copilot CLI
Da AI-Agenten zu den wichtigsten Beiträgern in Codebasen werden, stehen Teams vor einer wachsenden Lücke zwischen dem, was Git nachverfolgt, und dem, was während Coding-Sessions tatsächlich passiert
Entire CLI erzeugt einen Audit-Trail der Agentenaktivität, indem es die komplette Session zusammen mit Commits aufzeichnet, ohne die Historie des Main-Branch zu verschmutzen
Ein Checkpoint-System ermöglicht zudem praktische Wiederherstellung: Teams können bei Fehlverhalten von Agenten auf einen bekannten guten Zustand zurücksetzen und von jedem Checkpoint aus fortsetzen
Das Tool ist noch sehr neu und das Ökosystem für die Nachverfolgbarkeit von Agentensitzungen bildet sich erst heraus, aber für Teams mit Compliance- oder Audit-Anforderungen rund um AI-generierten Code ist eine Git-native Session-Erfassung ein natürlicher Fit

84. Git AI

Eine Open-Source-Git-Erweiterung zum Nachverfolgen von AI-generiertem Code, die jede von AI geschriebene Zeile mit dem erzeugenden Agenten, Modell und Prompt verknüpft
Git AI nutzt Checkpoints und Hooks, um inkrementelle Codeänderungen zwischen Beginn und Ende eines Commits nachzuverfolgen
Jeder Checkpoint enthält den Diff zwischen dem aktuellen Zustand und dem vorherigen Checkpoint und ist als von AI oder von Menschen geschrieben markiert
Dieser Ansatz ist genauer als Ansätze, die sich nur darauf konzentrieren, Codezeilen zum Zeitpunkt ihrer Einfügung zu zählen
Verwendet einen offenen Standard auf Basis von Git Notes zur Nachverfolgung AI-generierten Codes
Obwohl das unterstützende Agenten-Ökosystem noch reift, ist es für Teams, die in agentischen Workflows langfristige Verantwortlichkeit und Wartbarkeit erhalten wollen, eine prüfenswerte Option
Menschen und AI-Agenten können über den /ask-Skill auf archivierte Agentensitzungen verweisen und so die ursprüngliche Absicht und Architekturentscheidungen hinter bestimmten Codeblöcken abfragen

85. Google Antigravity

Ein eigenständiger VS Code-Fork, aufgebaut auf von Windsurf lizenzierter Technologie, der im November 2025 zusammen mit Gemini 3 als Public Preview veröffentlicht wurde
Ordnet die IDE rund um Multi-Agent-Orchestrierung neu: Ein Agent Manager führt mehrere Agenten parallel über Aufgaben hinweg aus, ein eingebauter Chromium-Browser lässt Agenten direkt mit Live-UIs interagieren, und ein Skill-System speichert wiederverwendbare Agentenanweisungen im Repository
Der Agent Manager fungiert stärker als „Mission Control“-Dashboard als als standardmäßige Chat-Sidebar und markiert einen grundlegenden Wandel der Entwicklerrolle — weg vom zeilenweisen Schreiben von Code hin zur Orchestrierung mehrerer autonomer Workstreams
Bei Bedarf können Entwickler für human-in-the-loop-(HITL)-Kontrolle weiterhin in den Editor eingreifen
Google Antigravity integriert sich über das Model Context Protocol mit Google Cloud und Firebase und unterstützt die Agentenentwicklung mit dem Agent Development Kit
Befindet sich weiterhin in Public Preview, ohne GA-Termin, und Sicherheitslage sowie Enterprise-Readiness entwickeln sich noch weiter
Das Multi-Agent-Ausführungsmodell und der autonome Browser-Zugriff signalisieren die Richtung für agentische IDEs

86. Google Mainframe Assessment Tool

unterstützt Organisationen beim Reverse Engineering von Anwendungen, die auf Mainframes laufen, und bei der Analyse des gesamten Portfolios oder einzelner Systeme
stützt sich im Kern auf deterministische Sprachparser, um Aufrufabläufe und Datenabhängigkeiten über die gesamte Codebasis hinweg zu erfassen und eine strukturelle Sicht darauf zu erzeugen, wie Anwendungen miteinander interagieren
darauf aufbauend bieten GenAI-Funktionen Zusammenfassungen, Dokumentation, Testfallgenerierung und Modernisierungsvorschläge
dieser Ansatz entspricht einem breiteren Muster des Verständnisses von Legacy-Codebasen mit GenAI, bei dem starke Einblicke in das System die Grundlage für einen effektiven Einsatz von AI bilden
Google Mainframe Assessment Tool unterstützt noch nicht alle wichtigen Mainframe-Technologie-Stacks, entwickelt sich aber schnell weiter
Teams haben festgestellt, dass es bei Kundenprojekten mit Fokus auf Mainframe-Anwendungserkennung und -modernisierung hilfreich ist

87. OpenCode

entwickelt sich schnell zu einem der herausragendsten Open-Source-Coding-Agenten mit einer starken Terminal-First-Erfahrung
eine zentrale Stärke ist die Modellflexibilität — Unterstützung für gehostete Frontier-Modelle, selbst gehostete Endpunkte und lokale Modelle
macht OpenCode attraktiv für Kostenkontrolle, Anpassung und eingeschränkte Umgebungen einschließlich Air-Gap-Setups
bedeutet, dass Nutzer bei Abonnements oder API-Nutzung ausdrücklich auf Lizenzen und Anbieterbedingungen achten müssen
das Erweiterungsmodell von OpenCode ist ein weiterer wichtiger Teil seiner Attraktivität, mit Unterstützung sowohl für Plugins als auch für MCP-Integrationen für teambezogene Workflows, Tools und Guardrails
viele Nutzer verwenden Oh My OpenCode, ein optionales, aber beliebtes Harness mit stärker vorgegebenem Ansatz, koordinierten Agenten-Teams und umfassenderen Orchestrierungsmustern sowie einer batteries-included Konfiguration

88. OpenSpec

mit der Weiterentwicklung der Fähigkeiten von AI-Coding-Agenten stehen Entwickler zunehmend vor Herausforderungen bei Vorhersehbarkeit und Wartbarkeit, wenn Anforderungen und Kontext nur in flüchtigen Chat-Verläufen existieren
um das zu adressieren, entstehen spec-driven-development(SDD)-Tools
OpenSpec ist ein Open-Source-SDD-Framework, das eine leichtgewichtige Spezifikationsschicht einführt, die sicherstellt, dass menschliche Entwickler und AI-Agenten darauf abgestimmt sind, was gebaut werden soll, bevor Code generiert wird
ein Unterscheidungsmerkmal ist der flüssige und minimale Workflow, oft auf drei Schritte reduziert — propose → apply → archive
viele SDD-Frameworks (GitHub Spec Kit usw.) oder Agentic-Skills-Workflows (Superpowers usw.) eignen sich besser für Greenfield-Projekte als für Brownfield
statt auf eine vollständige vorgelagerte Definition von Spezifikationen zu setzen, ist der Fokus auf spec deltas besonders gut und für bestehende Systeme gut geeignet
im Unterschied zu schwergewichtigeren Alternativen, die strengere Workflows erzwingen (BMAD usw.) oder vendorspezifische IDE-Integrationen erfordern (Kiro usw.), ist es iterativ und tool-neutral
ein entwicklerfreundliches Framework, das für Teams eine Bewertung wert ist, die Struktur und Vorhersehbarkeit in AI-unterstützte Entwicklung bringen wollen, ohne einen schweren Prozess einzuführen
zugleich wird empfohlen, dass Teams mit stärker werdenden Modellen und Coding-Agenten native Fähigkeiten beobachten und erneut prüfen sowie die Notwendigkeit von SDD-Tools neu bewerten

89. PageIndex

ein Tool zum Aufbau eines hierarchischen Indexes von Dokumenten für vektorlose, auf Reasoning basierende RAG-Pipelines statt der Abhängigkeit von traditioneller embedding-basierter Suche
während das Zerlegen von Dokumenten in Vektoren zu Strukturverlust führen und die Sichtbarkeit darauf einschränken kann, warum Ergebnisse gefunden wurden, erstellt PageIndex einen Inhaltsverzeichnis-Index, den ein LLM schrittweise durchläuft, um relevante Inhalte zu finden
ähnlich wie Menschen Überschriften scannen und dann in bestimmte Abschnitte hineinzoomen, erzeugt es eine explizite Reasoning-Spur, die erklärt, warum bestimmte Abschnitte ausgewählt wurden
funktioniert gut bei Dokumenten, deren Bedeutung stark stärker von Struktur als von Semantik abhängt, z. B. Finanzberichte mit numerischen Daten, juristische Dokumente mit Querverweis-Klauseln oder komplexe klinische bzw. wissenschaftliche Dokumente
bringt jedoch Trade-offs mit sich: Da LLM-Reasoning Teil des Suchprozesses ist, kann es insbesondere bei großen Dokumenten erhebliche Latenz und Kosten verursachen

90. Pencil

ein Design-Canvas-Tool, das sich in IDEs und Coding-Agenten wie Cursor und Claude Code integriert
im Gegensatz zu Figma, das derzeit nur Lesezugriff bietet, führt Pencil einen bidirektionalen lokalen MCP-Server aus und bietet damit sowohl Lese- als auch Schreibzugriff für die direkte Bearbeitung des Canvas
wie Tools wie Figma Make und Builder.io bietet es auch Design-to-Code-Funktionen, jedoch mit stärker entwicklerzentriertem Ansatz — Designdateien werden in einem offenen JSON-Format namens .pen im Repository gespeichert, sodass Design-Assets gemeinsam mit Code versioniert werden können
hilft durch die Integration in entwicklervertraute Tools dabei, die Lücke beim Design-Development-Handover zu schließen
für große und komplexe Design-Systeme bleibt Figma dennoch der kollaborative Standard über Rollen hinweg
für Teams ohne dedizierte Designer oder Teams mit Entwicklern mit starken Design-Skills aber eine Überlegung wert

91. Pi

ein in TypeScript geschriebener minimalistischer Open-Source-Terminal-Coding-Agent
eine attraktive Option für Tüftler und Experimentierende statt eines Mainstream-Enterprise-Defaults
Pi ist ein stärker anpassbares Barebones-Harness als vollwertige Agenten wie OpenCode
leichter anzupassen als der Aufbau neuer Agenten mit agentischen Frameworks wie ADK, LangGraph oder Mastra
trotz starker Dynamik und aktiver Releases ist das Projekt noch in einem frühen Stadium und wird hauptsächlich von den Maintainers getragen
pi sollte als techniknaher Baustein für Engineers und nicht als Enterprise-Plattform mit vollständigen Guardrails und Support betrachtet werden

92. Qwen 3 TTS

ein Open-Source-Text-to-Speech-Modell, das den Qualitätsabstand zu kommerziellen Produkten deutlich verringert und gleichzeitig mehr Entwicklerkontrolle bietet als viele kostenpflichtige APIs
unterstützt mehrere Sprachen, ermöglicht Voice Cloning aus kurzen Samples (etwa 10–15 Sekunden) und erlaubt Fine-Tuning nach dem Training für domänen- oder charakterspezifische Stimmen
eine attraktive Option für Teams, die markenspezifische Stimmen oder On-Prem-Kontrolle benötigen
Qwen 3 TTS wurde allerdings erst vor Kurzem veröffentlicht; Teams sollten vor dem Einsatz in produktionskritischen Sprach-Workloads Stabilität, Sicherheitskontrollen, Eignung der Lizenz und operative Reife validieren

93. SGLang

Ein hochperformantes Serving-Framework, das durch die gemeinsame Entwicklung von Frontend-Programmiersprache und Backend-Runtime den Rechen-Overhead bei LLM-Inferenz reduziert
Führt RadixAttention ein, eine Speicherverwaltungstechnik, die KV-States (Key-Value) über Prompts hinweg aggressiv cached und wiederverwendet
Dieser Ansatz liefert erhebliche Performance-Verbesserungen gegenüber Standard-Serving-Engines wie vLLM in Szenarien mit hoher Prefix-Overlap
Für Teams, die komplexe autonome Agenten bauen, auf lange System-Prompts angewiesen sind oder Shared Examples für umfangreiches Few-Shot-Prompting nutzen, kann SGLang bei Latenz und Effizienz deutliche Vorteile bringen

94. ty

Da Python insbesondere im Bereich AI und Data Science immer beliebter wird, wird ein starkes Typsystem zunehmend wertvoller
Ty ist ein in Rust geschriebener extrem schneller Python-Type-Checker und Language Server
Teil des Astral-Ökosystems, zu dem auch Tools wie uv und ruff gehören
Liefert schnelles Feedback und integriert sich gut in gängige Editoren wie Visual Studio Code
Der Einsatz von ty zusammen mit anderen Astral-Tools kann die Python-Entwicklung in großen Organisationen vereinfachen
Da agentisches Coding immer verbreiteter wird, hilft ein deterministischer Type-Checker mit schnellen Feedback-Loops, Fehler früh zu erkennen und den Aufwand für Code Reviews bei einfachen Fehlern zu reduzieren

95. Warp

Seit der letzten Aufnahme in den Radar hat sich Warp weit über die Beschreibung als „Terminal mit AI-Funktionen“ hinaus entwickelt
Die Kernstärken — blockbasierte Befehlsausgabe, AI-gestützte Vorschläge und Notebook-Funktionen — bleiben erhalten, während es sich in Bereiche ausdehnt, die traditionell von IDEs besetzt waren
Es kann nun Markdown rendern, Dateibäume anzeigen und Dateien direkt im Terminal öffnen und unterstützt vollständige agentische Entwicklungs-Workflows über mehrere Panels hinweg — in einem Panel ein Coding-Agent wie Claude Code, in einem anderen eine Shell und in einem dritten die Dateiansicht des Workspace
Ein beobachteter praktischer Vorteil ist, dass Warp die hochvolumigen Textausgaben moderner Coding-Agenten besser verarbeitet als herkömmliche Terminals, bei denen Rendering-Geschwindigkeit und Lesbarkeit zum Flaschenhals werden können
Es wurde auch ein eingebauter Coding-Assistent ergänzt, den das Team jedoch nicht umfassend evaluiert hat
Warp hat kürzlich außerdem Oz veröffentlicht, eine Orchestrierungsplattform für Cloud-Agenten mit Integration ins Terminal, dieser Blip konzentriert sich jedoch auf das Terminal selbst
Für Teams, die ein leichtgewichtiges, kombinierbares Terminal bevorzugen und eigene AI-Tools mitbringen wollen, ist Ghostty womöglich passender — im Gegensatz zu Warps Batteries-included-Philosophie ein bewusst minimalistischer Ansatz
Das Tempo neuer Funktionen und Warps breitere Plattformambitionen machen einen Wechsel zu Trial verfrüht, bis das Produkt stabilisiert ist und mehr Praxiserfahrung mit den neuen Fähigkeiten vorliegt

96. WuppieFuzz

Ein Open-Source-Fuzzer für REST-APIs, der OpenAPI-Definitionen nutzt, um gültige Requests zu erzeugen, diese zur Erkundung von Edge Cases mutiert und sich auf serverseitiges Coverage-Feedback stützt, um Inputs zu priorisieren, die neue Ausführungspfade erreichen
Die meisten Teams verlassen sich noch immer auf beispielbasierte Integrations- und Contract-Tests und erkunden unerwartete Inputs, ungewöhnliche Request-Sequenzen und fehlerlastige Pfade kaum, obwohl APIs oft die zentrale Integrationsoberfläche moderner Systeme sind
Basierend auf einer ersten Bewertung wirkt WuppieFuzz wie eine vielversprechende Ergänzung zu solchen Tests — es kann Issues aufdecken wie unbehandelte Exceptions, Lücken bei der Autorisierung, Lecks sensibler Daten, serverseitige Fehler und Logikfehler, die Script-Tests übersehen könnten
Teams müssen jedoch weiterhin bewerten, wie es in CI passt, welchen Runtime-Overhead es mit sich bringt und wie nützlich die Ergebnisse in der Praxis tatsächlich sind
Deshalb für Teams, die kritische oder extern exponierte REST-APIs entwickeln, eine lohnende Evaluierung

Caution

97. OpenClaw

Ein Open-Source-Projekt in der vom Autor so bezeichneten Kategorie „hyper-personal AI assistant“
Nutzer hosten ihre eigene Instanz, halten sie über Messaging-Kanäle wie WhatsApp oder iMessage dauerhaft verfügbar und lassen über verbundene Tools Aufgaben ausführen
Mit dauerhaftem Gedächtnis für Gespräche, Vorlieben und Gewohnheiten entsteht eine persistente persönliche Erfahrung, die sich deutlich anders anfühlt als ein GenAI-Chat-Interface oder ein typischer Coding-Agent
Das Modell ist offensichtlich attraktiv und hat bereits Nachahmer wie Claude Cowork inspiriert
OpenClaw wurde in Caution eingeordnet, weil das Modell erhebliche Security-Trade-offs erfordert
Je mehr Zugriff auf Kalender, E-Mails, Dateien und Kommunikation gewährt wird, desto nützlicher wird es — und desto stärker konzentrieren sich Berechtigungen genau in dem Muster, vor dem toxic flow analysis for AI warnt
Dieses Risiko ist nicht einzigartig für OpenClaw, sondern gilt auch für andere Implementierungen desselben Musters, einschließlich etablierter Vendor-Produkte
Für Teams, die OpenClaw in Betracht ziehen, wurden Hinweise und eine Sandbox-Ausführungsumgebung veröffentlicht; Alternativen wie NanoClaw oder ZeroClaw können den Blast Radius verringern
Das Muster des hyper-personal assistant selbst strebt jedoch nach umfassenden Berechtigungen und bleibt mit hohem Risiko verbunden

[Languages and Frameworks]

Adopt

98. Apache Iceberg

Ein offenes Tabellenformat für große analytische Datensätze, das definiert, wie Datendateien, Metadaten und Schemata in Speichersystemen wie S3 organisiert werden
Hat sich in den vergangenen Jahren stark weiterentwickelt und sich als grundlegender Baustein technologieunabhängiger Lakehouse-Architekturen etabliert
Unterstützt von allen großen Datenplattform-Anbietern, darunter AWS (Athena, EMR, Redshift), Snowflake, Databricks und Google BigQuery, und damit eine starke Option zur Vermeidung von Vendor Lock-in
Was Apache Iceberg von anderen offenen Tabellenformaten unterscheidet, ist die Offenheit bei Funktionen und Governance, im Gegensatz zu Alternativen, deren Fähigkeiten von einem einzelnen Vendor eingeschränkt oder kontrolliert werden
In Bezug auf Zuverlässigkeit bietet das Snapshot-basierte Design serialisierbare Isolation, sicheres paralleles Schreiben durch optimistische Nebenläufigkeit und einen Versionsverlauf einschließlich Rollbacks und liefert starke Korrektheitsgarantien ohne Performance-Engpässe
Apache Spark ist die am weitesten verbreitete Engine, aber auch Trino, Flink und DuckDB werden gut unterstützt, wodurch es sich für ein breites Spektrum an Use Cases eignet — von Enterprise-Datenplattformen bis zu leichtgewichtiger lokaler Analyse
Hat bei vielen Teams großes Vertrauen als stabiles und offenes Datenformat gewonnen und wird als Standardwahl für Organisationen empfohlen, die moderne Datenplattformen aufbauen

99. Declarative Automation Bundles

Früher als Databricks Asset Bundles bekannt und inzwischen zu einem zentralen Werkzeug für die Einführung von Software-Engineering- und CI/CD-Praktiken im Databricks-Ökosystem weiterentwickelt
Deutlich gereift, sodass Teams den Großteil der Plattformressourcen einschließlich Clustern, ETL-Pipelines, Jobs, Machine-Learning-Modellen und Dashboards als Code verwalten können
Mit dem Befehl databricks bundle plan können Teams Änderungen vorab ansehen und so wiederholbare Deployment-Praktiken auf Databricks-Artefakte anwenden, ähnlich wie bei der Verwaltung von Infrastruktur mit Tools wie Terraform
Indem traditionell veränderliche Assets wie Dashboards und ML-Pipelines als Code behandelt werden, lassen sie sich mit derselben Strenge wie klassische Microservices versionieren, testen und deployen
Auf Basis von Erfahrungen in Produktionsumgebungen haben sich Declarative Automation Bundles als verlässlicher Ansatz für das Management von Daten- und ML-Workflows in Databricks etabliert
Teams mit umfangreicher Arbeit im Databricks-Ökosystem wird empfohlen, die Einführung zur Standardisierung ihrer Infrastruktur-Management-Praktiken zu prüfen

100. React JS

Seit 2016 die Standardwahl für die Entwicklung von JavaScript-UIs, aber mit dem stabilen Release des React Compiler als Teil von React 19 (im vergangenen Oktober) erneut einen Blick wert
Übernimmt Memoisierung zur Build-Zeit, sodass manuelle useMemo- und useCallback-Aufrufe weitgehend überflüssig werden; Teams wird empfohlen, sie als Escape Hatch zu behalten, wenn eine präzise Kontrolle von Effect-Abhängigkeiten nötig ist
Bei Meta battle-tested und unterstützt von Expo SDK 54, Vite, Next.js; damit entfällt eine Kategorie von Performance-Boilerplate, die bei React in großem Maßstab lange als Kostenfaktor galt
React 19 führt außerdem Actions und Hooks wie useActionState und useOptimistic ein und vereinfacht Formularverarbeitung und Datenmutationen ohne Abhängigkeit von externen Bibliotheken
2025 wurde die React Foundation unter dem Dach der Linux Foundation gestartet — Amazon, Expo, Callstack, Microsoft, Software Mansion und Vercel sind neben Meta beteiligt — was die langfristige Stabilität der Bibliothek stärkt und Bedenken ausräumt, die zurückhaltende Teams bei einer Einführung historisch angeführt haben

101. React Native

Als Standardwahl für plattformübergreifende mobile Entwicklung in Adopt verschoben
Zuvor in Trial, aber der Rollout der New Architecture — konkret JSI und Fabric — hat langjährige Bedenken zu Bridge-Engpässen und Initialisierungsgeschwindigkeit behoben
Bei komplexen UI-Übergängen und datenintensiven Workloads wurden erhebliche Performance-Gewinne beobachtet
Durch die Abkehr von der asynchronen Bridge liefert React Native nun eine Reaktionsfähigkeit, die nativen Implementierungen nahekommt, bei gleichzeitigem Erhalt einer einheitlichen Codebasis
Erfolgreich in mehreren Produktionsprojekten eingesetzt; Expo und das React-zentrierte Ökosystem sind ausgereift und stabil
State Management erfordert weiterhin sorgfältige Planung, aber die Produktivitätsvorteile des fast refresh-Workflows und gemeinsam genutzter Skillsets überwiegen diese Kosten
Für die meisten hybriden mobilen Anwendungsfälle eine zentrale Empfehlung für Teams, die Performance, Konsistenz und Geschwindigkeit suchen

102. Svelte

Ein JavaScript-UI-Framework, das Komponenten zur Build-Zeit in optimiertes JavaScript kompiliert und weder auf eine große browserseitige Runtime noch auf ein Virtual DOM angewiesen ist
Seit der letzten Erwähnung in Trial von mehr Teams erfolgreich in Produktion eingesetzt; SvelteKit ist zu einer robusteren Wahl für SSR und Full-Stack-Webanwendungen geworden, was das Vertrauen in den Wechsel zu Adopt erhöht
Die ursprünglichen Gründe für die Wahl von Svelte gelten weiterhin — kleine Bundles, starke Runtime-Performance und ein einfacheres Komponentenmodell
Neue Fähigkeiten in Svelte 5 wie runes und snippets machen Reaktivität und UI-Komposition expliziter und flexibler
Bietet im Vergleich zu schwergewichtigeren Frontend-Frameworks eine sauberere Entwicklungserfahrung mit weniger Code
Rückmeldungen aus Teams zeigen zunehmend, dass es eine verlässliche Alternative zu React oder Vue ist und keine Nischenoption
Vertrautheit mit dem Ökosystem, Recruiting und Plattform-Fit müssen weiterhin bedacht werden, aber es wird als vernünftiger Standard für den Bau moderner Webanwendungen empfohlen, bei denen Performance und einfache Auslieferung wichtig sind

103. Typer

Eine Python-Bibliothek zum Erstellen von CLIs aus Funktionen mit Standard-Typannotationen, die automatisch Hilfetexte und Shell-Autovervollständigung erzeugt und einen klaren Pfad von kleinen Skripten zu großen CLI-Anwendungen bietet
Gewinnt an Relevanz, da Teams interne Tools, Automatisierung und AI-nahe Entwickler-Workflows in erstklassige CLIs überführen
Typer lässt sich leicht in reale Projekte einführen; Teams schätzen, wie schnell sich damit klare und gut lesbare Befehle erstellen lassen
Stärken — typannotierungsbasierte API, automatische Hilfe und Autovervollständigung sowie ein reibungsloser Weg von einfachen Skripten zu CLI-Anwendungen mit mehreren Befehlen
Ist jedoch eine Python-spezifische Lösung und möglicherweise nicht die beste Wahl, wenn hochgradig angepasste CLI-Verhalten oder sprachübergreifende Konsistenz erforderlich sind
Empfohlen für Teams, die CLIs für Auslieferungs-, Betriebs- und Developer-Experience-Workflows bauen

Trial

104. Agent Development Kit (ADK)

Ein Google-Framework zum Aufbau und Betrieb von AI-Agenten, das auf Software Engineering ausgerichtete Abstraktionen für Orchestrierung, Tools, Evaluierung und Deployment bereitstellt
Seit der Aufnahme in Assess sind Ökosystem und operative Fähigkeiten deutlich gereift, mit aktiver mehrsprachiger Entwicklung sowie stärkeren Funktionen für Observability und Runtime
Vendor-native Agent-Frameworks sind inzwischen ein dicht besetztes Feld — konkurrierende Optionen wie Microsoft Agent Framework, Amazon Bedrock AgentCore, OpenAI Agents SDK, Claude Agent SDK und andere entwickeln sich weiter
Open-Source-Alternativen wie LangGraph und CrewAI bleiben eine starke Wahl für Teams, die Framework-Portabilität und ein breiteres Ökosystem priorisieren
Obwohl sich ADK teils noch im pre-GA-Status befindet und gelegentlich unausgereifte Stellen sowie Upgrade-Reibung zeigt, wird vor allem bei Projekten mit Investitionen in die Google-Plattform eine zunehmende Zahl erfolgreicher Einsätze beobachtet

105. DeepEval

Open-Source-Python-basiertes Framework zur Bewertung der LLM-Performance
Kann zur Bewertung von RAG-Systemen und -Anwendungen verwendet werden, die mit Frameworks wie LlamaIndex oder LangChain aufgebaut wurden, sowie auch für Modell-Baselines und Benchmarks
Geht über einfache Metriken zum Wortabgleich hinaus und bietet mit Bewertungen von Genauigkeit, Relevanz und Konsistenz verlässlichere Evaluierungen für reale Szenarien
Umfasst Fähigkeiten wie Halluzinationserkennung, Relevanzbewertung von Antworten und Hyperparameter-Optimierung; besonders nützlich ist die Möglichkeit für Teams, Metriken für benutzerdefinierte Anwendungsfälle selbst zu definieren
Kürzlich wurde DeepEval um die Unterstützung für komplexe agentische Workflows und Multi-Turn-Dialogsysteme erweitert
Über die Bewertung der finalen Ausgabe hinaus bietet es integrierte Metriken für tool correctness, step efficiency und task completion, einschließlich der Bewertung von Interaktionen mit MCP-Servern
Neu eingeführt wurde außerdem conversation simulation, die Testfälle automatisch generiert, um groß angelegte Multi-Turn-Anwendungen einem Stresstest zu unterziehen

106. Docling

Open-Source-Bibliothek für Python und TypeScript, die unstrukturierte Dokumente in saubere, maschinenlesbare Ausgaben umwandelt
Nutzt einen computer-vision-basierten Ansatz zum Verständnis von Layout und Semantik und verarbeitet komplexe Eingaben wie PDFs, einschließlich gescannter Dokumente, in strukturierte Formate wie JSON und Markdown
Gut geeignet für RAG-Pipelines und die Erzeugung von strukturierten Ausgaben aus LLMs, im Gegensatz zu Vision-First-Retrieval-Ansätzen wie ColPali
Docling bietet eine Open-Source-Self-Hosting-Alternative zu proprietären, gemanagten Cloud-Services wie Azure Document Intelligence, Amazon Textract und Google Document AI und integriert sich gut mit Frameworks wie LangGraph
Liefert gute Ergebnisse in Extraktions-Workloads im Produktionsmaßstab über digitale und gescannte PDFs hinweg, auch bei sehr großen Dateien mit Text, Tabellen und Bildern
Bietet für nachgelagerte agentische RAG-Workflows eine starke Balance zwischen Qualität und Kosten

107. LangExtract

Python-Bibliothek, die auf Basis benutzerdefinierter Anweisungen strukturierte Informationen aus unstrukturiertem Text extrahiert, einschließlich präziser Quellenverankerung, die jede extrahierte Entität mit ihrer Position im Ursprungsdokument verknüpft
Verarbeitet domänenspezifisches Material wie klinische Notizen und Berichte
Die zentrale Stärke ist die Nachverfolgbarkeit der Quelle, wodurch sichergestellt wird, dass jeder extrahierte Datenpunkt bis zu seiner Quelle zurückverfolgt werden kann
Extrahierte Entitäten können in JSONL-Dateien exportiert werden, einem Standardformat für Daten aus Sprachmodellen, und über eine interaktive HTML-Oberfläche für kontextbezogene Überprüfung visualisiert werden
Teams, die strukturierte Ausgaben aus LLMs für die Dokumentenverarbeitung in Betracht ziehen, sollten LangExtract zusammen mit schemaerzwingenden Ansätzen wie Pydantic AI evaluieren
LangExtract ist besser für lange, unstrukturierte Quellmaterialien geeignet, während Pydantic AI bei Ausgabeformat-Beschränkungen für kürzere und besser vorhersehbare Eingaben besonders stark ist

108. LangGraph

Seit dem vorherigen Radar wurde beobachtet, dass die LangGraph-Architektur, die alle Multi-Agenten-Systeme als zustandsbehaftete Graphen mit global gemeinsam genutztem Status behandelt, nicht immer die beste Wahl für den Aufbau agentischer Systeme ist
Auch alternative Ansätze, wie sie in Frameworks wie Pydantic AI verwendet werden, funktionieren gut
Statt mit starren Graphen und umfangreichem gemeinsamem Zustand zu beginnen, bevorzugt dieser Ansatz einfache Agentenkommunikation über Codeausführung und fügt bei Bedarf später Graphstrukturen hinzu
In vielen Anwendungsfällen entstehen dadurch kompaktere und effektivere Systeme, da jeder Agent nur auf den benötigten Zustand zugreift, was Argumentation, Tests und Debugging erleichtert
Infolgedessen Weggang aus Adopt; weiterhin ein leistungsfähiges Werkzeug, aber nicht länger als Standardwahl für den Aufbau aller agentischen Systeme angesehen

109. LiteLLM

Begann als schmale Abstraktionsschicht über mehreren LLM-Anbietern und hat sich zu einem vollwertigen AI-Gateway entwickelt
Geht über die Vereinfachung der API-Integration hinaus und adressiert allgemeine Querschnittsthemen von GenAI-Systemen — darunter Retries und Failover, providerübergreifendes Load-Balancing sowie Kostenverfolgung mit Budgetkontrolle
Teams übernehmen LiteLLM zunehmend als vernünftigen Standard für AI-basierte Anwendungen
Das Gateway bietet einen konsistenten Ort zur Lösung von Governance-Themen, einschließlich Request-Tracking, Zugriffskontrolle, API-Key-Management, Content-Filtering und Guardrails auf Edge-Ebene wie Datenanpassung und -Maskierung
Teams, die jedoch auf differenzierende Funktionen einzelner Anbieter angewiesen sind, benötigen oft anbieterspezifische Parameter und führen damit die Kopplung wieder ein, die das Gateway eigentlich beseitigen soll
Der Modus drop_params verwirft nicht unterstützte Parameter stillschweigend, was zu Fähigkeitsverlust ohne Transparenz über Routing-Entscheidungen hinweg führen kann
Eine pragmatische Wahl für operative Kontrolle, aber die Nutzung anbieterspezifischer Fähigkeiten bedeutet, sowohl Gateway-Abhängigkeiten als auch an Anbieter gekoppelten Code beizubehalten

110. Modern.js

React-Meta-Framework von ByteDance, im Trial einsortiert für Teams mit Micro-Frontend-Anforderungen auf Basis von Module Federation
Der Auslöser ist pragmatisch — nextjs-mf bewegt sich in Richtung End-of-Life, der Pages Router wird voraussichtlich nur kleinere Backport-Fixes erhalten, neue Entwicklung ist nicht geplant, und CI-Tests dürften in der zweiten Hälfte von 2026 entfernt werden
Wegen fehlender offizieller Module-Federation-Unterstützung in Next.js und der schrittweisen Einstellung von Community-Plugins empfiehlt das Module-Federation-Core-Team Modern.js als zentrales unterstütztes Framework für föderationsbasierte Architekturen
Das Plugin @module-federation/modern-js-v3 liefert sofort automatisches Build-Wiring; Streaming SSR und die Bridge API können als separate Fähigkeiten genutzt werden
Es gibt jedoch Einschränkungen bei der Kopplung — @module-federation/bridge-react ist noch nicht mit Node-Umgebungen kompatibel, daher ist die Nutzung der Bridge in SSR-Szenarien nicht möglich
Die ersten Erfahrungen sind positiv, und für Teams, die Module Federation bereits nutzen, ist der Migrationspfad gut definiert
Das Ökosystem außerhalb von ByteDance reift jedoch noch, mit Bedarf an umfassenderer Dokumentation und engerer Zusammenarbeit mit Upstream-Projekten
Derzeit ist die Investition für Module-Federation-Anwendungsfälle ohne besser unterstützte Alternative gerechtfertigt

Assess

111. Agent Lightning

Ein Framework zur Optimierung und zum Training von Agenten, das automatische Prompt-Optimierung, überwachtes Fine-Tuning und agentisches Reinforcement Learning ermöglicht
Die meisten Agenten-Frameworks konzentrieren sich auf den Aufbau von Agenten, nicht aber auf deren Verbesserung im Zeitverlauf
Agent Lightning unterstützt Frameworks wie AutoGen und CrewAI und ermöglicht die kontinuierliche Verbesserung bestehender Agenten ohne Änderungen an der Basisimplementierung
Dies wird durch einen Ansatz namens Training-Agent Disaggregation erreicht, der eine Schicht zwischen Training und Agenten-Framework einführt
Zwei Kernkomponenten — der Lightning Server verwaltet den Trainingsprozess und stellt APIs für aktualisierte Modelle bereit, der Lightning Client fungiert als Laufzeitumgebung, die Traces sammelt und zur Unterstützung des Trainings an den Server sendet
Teams mit etablierten Agenten-Deployments wird empfohlen, dies als Methode zur kontinuierlichen Verbesserung der Agentenleistung zu evaluieren

112. GitHub Spec Kit

In den Diskussionen dieses Zyklus stach Spec-driven Development hervor, wobei sich zwei breite Lager abzeichneten — Teams, die sich mit minimaler Struktur auf die fortlaufenden Verbesserungsfähigkeiten von Coding-Agenten verlassen, und Teams, die definierte Workflows und detaillierte Spezifikationen bevorzugen
Mehrere Teams experimentieren vor allem in Brownfield-Umgebungen mit der Umsetzung von Spec-driven Practices mithilfe von GitHub Spec Kit
Das Kernkonzept von Spec Kit ist die constitution, ein grundlegendes Regelwerk zur Ausrichtung des Softwareentwicklungslebenszyklus
Eine in der Praxis nützliche constitution erfasst typischerweise Projektumfang, Domänenkontext, Technologieversionen, Coding-Standards und Repository-Struktur (z. B. hexagonale Architektur, geschichtete Module) und hilft Agenten, innerhalb der beabsichtigten Architekturgrenzen zu arbeiten
Dabei entstehen auch Herausforderungen wie instruction bloat — ein ständig wachsender Satz von Agentenanweisungen durch fortlaufend hinzugefügten Projektkontext — und schließlich context rot; ein Team begegnete dem, indem es wiederverwendbare Leitlinien als Skills extrahierte, um die Agentenanweisungen kompakt zu halten und detaillierten Kontext nur bei Bedarf zu laden
In Brownfield-Systemen entsteht viel Nacharbeit durch unklare Absichten, verborgene Annahmen und das späte Entdecken von Einschränkungen; ein Team führte einen spec → plan → tasks → coding → review-Lebenszyklus ein, um solche Probleme früher sichtbar zu machen
Mit der Zeit wurden wiederholbare Kontexte in Dateien wie .github/prompts/speckit.<command>.prompt.md verschoben, wodurch die Prompts kürzer und das Verhalten der Agenten konsistenter wurden
Es wurden unsaubere Stellen berichtet, etwa unnötige defensive Checks und übermäßig ausführliche Markdown-Ausgaben
Einige Probleme ließen sich durch die Anpassung von Spec-Kit-Templates und Anweisungen lösen, etwa durch eine Begrenzung der Anzahl erzeugter Markdown-Dateien oder weniger ausführliche Konsolenausgaben
Letztlich ziehen erfahrene Engineers mit starken Clean-Coding- und Architekturpraktiken den größten Nutzen aus Spec-driven Workflows

113. Mastra

Ein Open-Source-, TypeScript-natives Framework zum Aufbau von KI-Anwendungen und Agenten
Es bietet eine graphbasierte Workflow-Engine, einen integrierten Ansatz für verschiedene LLM-Anbieter, Human-in-the-loop-Pause und -Fortsetzung sowie RAG- und Memory-Primitiven
Ebenfalls enthalten sind integrierte Tools zum Schreiben von MCP-Servern sowie für Evaluierung und Observability, unterstützt durch klare Entwicklerdokumentation
Mastra bietet eine Alternative zu Python-lastigen Stacks und ermöglicht Teams, umfangreiche KI-Fähigkeiten direkt innerhalb bestehender Web-Ökosysteme wie Node.js oder Next.js aufzubauen
Für Teams, die in das TypeScript-Ökosystem investiert sind und für die KI-Schicht nicht zu Python wechseln möchten, eine evaluierenswerte Option

114. Pipecat

Ein Open-Source-Framework zum Aufbau von Echtzeit-Sprach- und multimodalen Agenten mit einem modularen Pipeline-Modell für STT, LLM, TTS und Transport-Orchestrierung
Es weckt starkes Interesse, weil Teams das Gesprächsverhalten schnell iterieren und Anbieter mit relativ geringer Reibung wechseln können
Im Vergleich zu LiveKit Agents bietet Pipecat mehr Flexibilität auf Framework-Ebene, aber einen weniger integrierten Pfad in die Produktion, besonders bei Self-Hosting-Deployments, Transportzuverlässigkeit und latenzarmer Turn-Verarbeitung im großen Maßstab
Es bietet eine starke, engineeringnahe Grundlage, erfordert jedoch erhebliche Platform-Engineering-Arbeit, bevor man sich für geschäftskritische Produktions-Workloads darauf verlässt

115. Superpowers

Mit der zunehmenden Nutzung von Coding-Agenten gibt es keinen einzigen vorgeschriebenen Workflow für alle Teams; stattdessen entwickeln Teams angepasste Workflows auf Basis ihres Kontexts und ihrer Einschränkungen weiter
Superpowers ist einer dieser Workflows und aus kombinierbaren Skills aufgebaut
Es kapselt Coding-Agenten als Skills in einem strukturierten Workflow und fördert Brainstorming vor dem Coden, detaillierte Planung vor der Implementierung, TDD mit erzwungenem Red-Green-Refactor-Zyklus, systematisches Debugging mit Fokus auf die Ursache und Code-Reviews nach der Implementierung
Es wird als Plugin verteilt über den Claude Code plugin marketplace und den Cursor plugin marketplace

116. TanStack Start

Ein Full-Stack-Framework für React und Solid, aufgebaut auf TanStack Router, vergleichbar mit Next.js, mit Unterstützung für SSR, Caching und viele der gleichen Funktionen
TanStack Start bietet durchgängige Compile-Time-Safety über Serverfunktionen, Loader und Routing hinweg und reduziert so das Risiko von kaputten Links oder inkonsistenten Datenformen im Frontend
Es bevorzugt explizite Konfiguration statt Konvention, und die Erfahrung liegt näher an der Arbeit mit plain React
SSR-Fähigkeiten lassen sich je nach Bedarf schrittweise hinzufügen
Im Vergleich zu Next.js mit seinen meinungsstärkeren Defaults, die zu unerwartetem Verhalten führen können, wenn man mit den internen Abläufen nicht vertraut ist, ist es expliziter und vorhersehbarer
Das TanStack-Ökosystem ist zudem deutlich gereift und bietet einen leistungsfähigen Werkzeugsatz zum Aufbau moderner Webanwendungen

117. TOON (Token-Oriented Object Notation)

Eine menschenlesbare Kodierung von JSON-Daten, die darauf ausgelegt ist, den Tokenverbrauch zu reduzieren, wenn strukturierte Daten an LLMs übergeben werden
JSON kann in bestehenden Systemen beibehalten und nur an den Schnittstellen zur Interaktion mit dem Modell konvertiert werden
Tokenkosten, Latenz und Einschränkungen des Kontextfensters werden in RAG-Pipelines, Agenten-Workflows und anderen KI-lastigen Anwendungen zu realen Designüberlegungen
Rohes JSON verbraucht Tokens oft für wiederholte Schlüssel und strukturellen Overhead statt für nützliche Inhalte
In ersten Evaluierungen erwies sich TOON als interessante Last-Mile-Optimierung für Prompt-Eingaben, besonders bei großen, regelmäßigen Datensätzen, bei denen ein schemaorientiertes Format effizienter und für Modelle leichter zu verarbeiten ist als JSON
Es ist kein Ersatz für JSON in APIs, Datenbanken oder Modellausgaben und oft die falsche Wahl für tief verschachtelte oder uneinheitliche Strukturen, halbgleichförmige Arrays oder flache tabellarische Daten, bei denen CSV kompakter ist
Für latenzkritische Pfade, auf denen kompaktes JSON gut funktioniert, kann es ebenfalls weniger geeignet sein
Für Teams, die LLM-Anwendungen bauen, bei denen die Größe strukturierter Eingaben ein relevanter Kosten- oder Qualitätsfaktor ist, lohnt sich eine Evaluierung, inklusive Benchmarking gegen JSON oder CSV mit dem eigenen Daten- und Modell-Stack

118. Unsloth

Open-Source-Framework, das sich darauf konzentriert, LLM-Feinabstimmung und Reinforcement Learning deutlich schneller und speichereffizienter zu machen
Die Feinabstimmung von LLMs umfasst Milliarden von Matrixmultiplikationen und profitiert von GPU-Beschleunigung; Unsloth optimiert diese Operationen, indem es sie in hocheffiziente Custom Kernels für NVIDIA-GPUs umwandelt, wodurch Kosten und Speicherverbrauch drastisch sinken
Ermöglicht die Feinabstimmung von Modellen auf Consumer-GPUs ab T4, statt auf teuren H100-Clustern
Unterstützt LoRA, vollständige Feinabstimmung, Multi-GPU-Training und Feinabstimmung mit langem Kontext (bis zu 500K Token) für populäre Modelle wie Llama, Mistral, DeepSeek-R1, Qwen und Gemma
Da domänenspezifische KI-Anwendungen zunehmend auf Feinabstimmung angewiesen sind, senkt Unsloth die Einstiegshürde erheblich

Thoughtworks Technology Radar, Volume 34 veröffentlicht

Das Agenten-Zeitalter und die Herausforderungen der Technologiebewertung

Prinzipien beibehalten, aber Muster neu prüfen

Sicherheitsprobleme von Agenten mit Machtanspruch

Coding-Agenten an die Leine legen

[Techniques]

Adopt

Trial

Assess

Caution

[Platforms]

Adopt

Trial

Assess

[Tools]

Adopt

Trial

Assess

Caution

[Languages and Frameworks]

Adopt

Trial

Assess

Verwandte Beiträge

Noch keine Kommentare.