Thoughtworks Technology Radar, Volume 34 veröffentlicht
(thoughtworks.com)- Neueste Trends in den Bereichen Techniken/Tools/Plattformen/Programmiersprachen und Frameworks werden in vier Stufen visualisiert und erläutert: "Empfohlen für die Einführung, im Testeinsatz, in Bewertung, mit Vorsicht"
- Vier Kernthemen: das Agenten-Zeitalter und die Bewertung von Technologien, Prinzipien beibehalten, aber Muster neu prüfen, Sicherheitsprobleme von Agenten, Harnesses für Coding-Agenten
Das Agenten-Zeitalter und die Herausforderungen der Technologiebewertung
- Durch die Einführung von KI wird bereits die Technologiebewertung selbst schwieriger, und wegen semantic diffusion tauchen neue Begriffe schnell auf, bevor sich ihre Bedeutung stabilisiert
- Begriffe wie spec-driven development oder harness engineering werden uneinheitlich verwendet oder überschneiden sich in ihrer Bedeutung
- Weil gemeinsame Definitionen fehlen, ist schwer zu beurteilen, ob es sich um getrennte Techniken oder nur um unterschiedliche Namen für dasselbe Konzept handelt
- Die Unterscheidung zwischen ausgereiften, eigenständigen Engineering-Methoden und dem alltäglichen Einsatz von KI-Tools wie Coding-Assistenten bleibt eine dauerhafte Herausforderung
- Das Tempo des Wandels verstärkt die Unsicherheit: Es erscheinen viele noch keinen Monat alte Tools, und einige werden von nur einem einzelnen Beitragenden zusammen mit einem Coding-Agent gepflegt
- Wartet man auf die Reifung der Tools, veralten Empfehlungen; bewegt man sich zu schnell, besteht das Risiko, Trends hervorzuheben, die bald wieder verschwinden
- Es stellt sich die Frage nach der Nachhaltigkeit von Dingen, die schnell und mit wenig Aufwand erstellt werden
- Codebase Cognitive Debt
- Je mehr KI-generierter Code zunimmt, desto leichter werden Lösungen übernommen, ohne ein mentales Modell ihrer Funktionsweise zu haben
- Wenn sich diese Verständnislücke aufstaut, wird es schwieriger, Systeme zu verstehen, zu debuggen und weiterzuentwickeln
Prinzipien beibehalten, aber Muster neu prüfen
- KI lässt uns nicht nur über die Zukunft nachdenken, sondern auch die Grundlagen des Software Craftsmanship neu betrachten
- Bestehende Praktiken wie Pair Programming, Zero-Trust-Architektur, Mutation Testing und DORA-Metriken werden neu beleuchtet
- Zentrale Prinzipien wie Clean Code, bewusstes Design, Testbarkeit und Barrierefreiheit werden erneut als Anliegen erster Ordnung bestätigt
- Das ist keine Nostalgie, sondern ein notwendiges Gegengewicht zur Geschwindigkeit, mit der KI-Tools Komplexität erzeugen
- Die Rückkehr der Kommandozeile: Jahrelang wurde aus Usability-Gründen abstrahiert, doch agentische Tools bringen Entwickler wieder zurück ins Terminal
- KI-gestützte Entwicklung ist ein grundlegender Wandel der Engineering-Praxis und erfordert ein Überdenken von Zusammenarbeit und Teamstrukturen
- agent topologies müssen neben team topologies betrachtet und Feedback-Zyklen neu entworfen werden
- Techniken wie measuring collaboration quality with coding agents definieren sogar neu, was ein Softwareentwickler überhaupt ist
- In einem KI-getriebenen Umfeld ist das Management kognitiver Schulden eine Kernaufgabe; wichtig bleibt das Prinzip: "Geschwindigkeit ohne Disziplin erhöht die Kosten"
Sicherheitsprobleme von Agenten mit Machtanspruch
- "Permission hungry" beschreibt das grundlegende Dilemma der aktuellen Agentensituation: Je wertvoller ein Agent ist, desto mehr Zugriff auf alles braucht er
- OpenClaw, Claude Cowork überwachen reale Arbeitsabläufe
- Gas Town koordiniert Agenten-Swarms über die gesamte Codebasis hinweg
- Erforderlich ist umfassender Zugriff auf private Daten, externe Kommunikation und reale Systeme
- Die Schutzmechanismen halten mit diesem Ehrgeiz nicht Schritt; durch Prompt Injection können Modelle vertrauenswürdige Anweisungen und nicht vertrauenswürdige Eingaben nicht zuverlässig unterscheiden
- Simon Willisons Definition der "lethal trifecta" — private Daten, nicht vertrauenswürdige Inhalte und externe Aktionen — trifft nicht wegen Fehlkonfigurationen zu, sondern standardmäßig auf die meisten nützlichen Agenten
- Es gibt auch Bedrohungen jenseits von Injection, etwa die Inkonsistenz des Modellverhaltens
- Es gibt keine Garantie, dass eine einmal erfolgreiche Aufgabe beim nächsten Mal wieder gelingt
- Agenten finden auch ohne böse Absicht kreative Wege für Datenabfluss, pushen in Branches, die nicht angerührt werden sollten, und hebeln Freigabe-/Ablehnungs-Checkpoints aus
- Was derzeit möglich ist: Zero Trust, Least Privilege, Modellverbesserungen und Defense in Depth sind Grundvoraussetzungen, aber es gibt keine einzelne Lösung
- Sichere Agentensysteme sollten nicht aus monolithischen Agenten bestehen, sondern aus Pipelines stärker eingeschränkter Agenten mit robuster Überwachung und Kontrolle
- Agent Skills können als kontrollierbare Alternative zu MCP genutzt werden
- durable agents und Techniken zur Vermeidung von agent instruction bloat weisen in diese Richtung
- Da sich der Bereich schnell weiterentwickelt, ist Vorsicht unerlässlich, um teure Fehler zu vermeiden
Coding-Agenten an die Leine legen
- Mit der steigenden Leistungsfähigkeit von Coding-Agenten wächst die Versuchung, den Menschen aus dem Loop zu nehmen; deshalb beginnen Teams, in coding agent harnesses zu investieren
- Kontrollmechanismen, die das Verhalten des Agenten vor der Codeerzeugung lenken und ihm danach über Feedback eine Selbstkorrektur ermöglichen
- Feedforward-Kontrolle
- Dem Agenten wird vorab das Nötige gegeben, damit sich die Wahrscheinlichkeit einer richtigen ersten Antwort erhöht
- Agent Skills sind dabei ein wichtiger Fortschritt: Anweisungen und Konventionen werden modularisiert und bei Bedarf geladen
- Superpowers ist ein Beispiel für einen nützlichen Skill-Katalog für Softwareteams
- Das Konzept von plugin marketplaces gewinnt an Bedeutung und erleichtert die Verteilung von Skills und Kontextkonfigurationen
- Frameworks für spec-driven development — etwa GitHub Spec-Kit und OpenSpec — strukturieren Workflows für Planung, Design und Implementierung
- Feedback-Kontrolle
- Das Verhalten des Agenten wird nach der Ausführung beobachtet, um Schleifen zur Selbstkorrektur zu erzeugen
- feedback sensors for coding agents — deterministische Qualitäts-Gates wie Compiler, Linter, Type Checker und Test Suites werden direkt in den Agenten-Workflow integriert
- Bei Fehlern wird vor dem menschlichen Review automatisch eine Korrektur ausgelöst
- Beispiele aus diesem Radar sind cargo-mutants und Tools für Mutation Testing, Fuzz-Testing-Tools wie WuppieFuzz sowie Tools zur Codequalitätsanalyse wie CodeScene
- Neben Feedback im Loop gibt es auch Fälle, in denen die Kombination aus deterministischen Strukturregeln und LLM-basierter Bewertung Architectural Drift reduziert
[Techniques]
Adopt
1. Context engineering
- Eine Technik, die sich zu einem zentralen Architekturthema moderner KI-Systeme entwickelt hat: Anders als Prompt Engineering, das sich auf Formulierungen konzentriert, behandelt sie das Kontextfenster als Designfläche und baut die Informationsumgebung der KI bewusst auf
- Je komplexere Aufgaben Agenten bearbeiten, desto eher führt das Hineinschütten roher Daten in große Kontextfenster zu "context rot" und schlechterem Reasoning; daher erfolgt der Übergang von statischen, monolithischen Prompts zu progressive context disclosure
- Context setup senkt mit prompt caching durch vorgeladene statische Anweisungen die Kosten und verbessert die Time-to-First-Token; Dynamic retrieval geht über einfaches RAG hinaus zu Tool-Auswahl und lädt nur die benötigten MCP-Server
- Context graphs modellieren institutionelles Reasoning wie Richtlinien, Ausnahmen und Präzedenzfälle als strukturierte und abfragbare Daten; stateful compression und Sub-Agenten fassen Zwischenergebnisse in langen Workflows zusammen
- KI-Kontext als statische Textbox zu behandeln, ist eine Abkürzung zu Halluzinationen; um robuste Enterprise-Agenten zu bauen, muss Kontext als dynamische und präzise verwaltete Pipeline engineered werden
2. Kuratierte gemeinsame Anweisungen für Software-Teams
- Die Praxis betrachtet es als Anti-Pattern, wenn einzelne Entwickler Prompts von Grund auf selbst schreiben, und behandelt AI-Guidance als kollaboratives Engineering-Asset statt als persönlichen Workflow
- Anfangs lag der Fokus auf der Pflege einer allgemeinen Prompt-Bibliothek für gemeinsame Aufgaben, inzwischen hat sich dies zu einem weiterentwickelten Ansatz gewandelt, bei dem Anweisungen direkt in Service-Templates verankert werden
- Anweisungsdateien wie
CLAUDE.md,AGENTS.mdund.cursorruleswerden in Basis-Repositories für das Scaffolding neuer Services abgelegt
- Anweisungsdateien wie
- Verwandte Praktiken, bei denen Coding Agents an Referenzapplikationen verankert werden, werden ebenfalls untersucht; eine lebendige, kompilierbare Codebasis dient dabei als Single Source of Truth
- Wenn sich Architektur und Coding-Standards weiterentwickeln, können sowohl die Referenz-App als auch die eingebetteten Anweisungen aktualisiert werden; neue Repositories erben standardmäßig die neuesten Agent-Workflows und Regeln
3. DORA-Metriken
- Metriken, die vom DORA-Forschungsprogramm definiert wurden, darunter Lead Time for Changes, Deployment-Frequenz, MTTR, Change Failure Rate sowie als neue fünfte Metrik die Rework Rate
- Die Rework Rate ist eine Stabilitätsmetrik und misst den Anteil der Team-Delivery-Pipeline, der für Nacharbeit an bereits abgeschlossener Arbeit wie Nutzerbugs oder Defekten aufgewendet wird
- Im Zeitalter AI-gestützter Entwicklung sind DORA-Metriken wichtiger denn je; Produktivität anhand der Zahl AI-generierter Codezeilen zu messen, ist irreführend
- Ohne sinkende Lead Time und steigende Deployment-Frequenz führt schnellere Codegenerierung nicht zu besseren Ergebnissen
- Sinkende Stabilitätsmetriken, insbesondere eine steigende Rework Rate, sind ein Frühwarnsignal für blinde Flecken, technische Schulden und Risiken einer unüberlegten AI-gestützten Entwicklung
- Statt komplexe Dashboards aufzubauen, sind einfache Mechanismen wie Check-ins während Retrospektiven für die Verbesserung von Fähigkeiten wirksamer
4. Passkeys
- Von der FIDO Alliance vorangetriebene und von Apple, Google und Microsoft unterstützte FIDO2-Zugangsdaten, die asymmetrische Public-Key-Kryptografie nutzen, um Passwörter zu ersetzen
- Der private Schlüssel wird in der hardwarebasierten Secure Enclave des Geräts gespeichert, durch Biometrie oder PIN geschützt und verlässt das Gerät nicht; jede Zugangsdateninstanz ist ursprungsgebunden an die Relying-Party-Domain und damit strukturell phishing-resistent
- Phishing ist für mehr als ein Drittel aller Datenschutzverletzungen verantwortlich; der FIDO Alliance Passkey Index 2025 berichtet weltweit über mehr als 15 Milliarden geeignete Konten, Google verbesserte die Login-Erfolgsquote über 800 Millionen Nutzer hinweg um 30 %, Amazon bestätigte Logins sechsmal schneller als mit bisherigen Methoden
- NIST SP 800-63-4 (Juli 2025) stuft synced passkeys neu als AAL2-konform ein; Regulierungsbehörden in den VAE, Indien und US-Bundesbehörden schreiben phishing-resistente Authentifizierung für Finanz- und Regierungssysteme vor
- Das FIDO Credential Exchange Protocol sorgt für sichere Portabilität zwischen Credential-Managern; große ID-Provider wie Auth0, Okta und Azure AD unterstützen dies als First-Class-Feature, wodurch die Implementierung von monatelanger Arbeit zu einem Projekt über 2 Sprints vereinfacht wird
- Beim Design der Kontowiederherstellung ist Vorsicht geboten, und phishing-anfällige Fallback-Pfade wie SMS-OTP sollten vermieden werden
- Für AAL3-Szenarien (z. B. privilegierter Zugriff) sind gerätegebundene Zugangsdaten auf Hardware-Sicherheitsschlüsseln weiterhin erforderlich
5. Strukturierte Ausgabe von LLMs
- Eine Praxis, bei der das Modell dazu eingeschränkt wird, in einem vordefinierten Format wie JSON oder einer Klasse einer bestimmten Programmiersprache zu antworten
- Liefert in der Produktion verlässliche Ergebnisse und gilt als vernünftiger Standard für Anwendungen, die LLM-Antworten programmatisch verarbeiten
- Alle großen Modellanbieter bieten native Modi für strukturierte Ausgaben; die unterstützten Teilmengen von JSON Schema unterscheiden sich, und die APIs entwickeln sich schnell weiter
- Bibliotheken wie Instructor oder Frameworks wie Pydantic AI bieten robuste Abstraktionen mit Validierung und automatischen Wiederholungsversuchen; für die Erzeugung von Constraints bei selbstgehosteten Modellen wird Outlines empfohlen
6. Zero-Trust-Architektur
- Mit dem Eintritt in das Agenten-Zeitalter ein vernünftiger Standard zur Bewältigung von Sicherheitsrisiken, wenn unvorhersehbaren Systemen Autonomie gegeben wird
- „Niemals vertrauen, immer verifizieren“: identitätsbasierte Sicherheit und das Prinzip des Least-Privilege-Zugriffs werden als Grundlage jeder Agent-Deployment-Strategie behandelt
- Standards wie SPIFFE werden auf Agenten angewendet, um eine starke Identitätsbasis zu schaffen und feingranulare Authentifizierung in dynamischen Umgebungen zu ermöglichen
- Kontinuierliche Überwachung und Verifizierung des Agentenverhaltens sind wichtig für ein proaktives Threat-Management
- Auch außerhalb von Agent-Deployments werden Praktiken wie GCPs OIDC impersonation in CI/CD-Pipelines eingeführt; langlebige statische Schlüssel werden durch kurzlebige Tokens ersetzt, die nach Identitätsprüfung ausgestellt werden
- Es wird empfohlen, ZTA-Prinzipien unabhängig vom Build-System als nicht verhandelbaren Standard zu behandeln
Trial
7. Agent Skills
- Da sich AI-Agenten von einfachen Chat-Interfaces zur autonomen Ausführung von Aufgaben entwickeln, wird Context Engineering zur Kernherausforderung; Agent Skills bündeln relevante Ressourcen wie Anweisungen, ausführbare Skripte und Dokumentation und bieten damit einen offenen Standard zur Modularisierung von Kontext
- Agenten laden Skills nur bei Bedarf auf Basis ihrer Beschreibung, was den Token-Verbrauch senkt und das Ausschöpfen des Context Windows sowie Probleme durch agent instruction bloat reduziert
- Die schnelle Einführung erfolgt nicht nur bei Coding Agents, sondern auch bei persönlichen Assistenten wie OpenClaw; viele Anwendungsfälle lassen sich effektiv lösen, indem Agenten auf lokale CLI-Tools oder Skripte verweisen, was einer der Gründe ist, warum Teams beim standardmäßigen Einsatz von MCP vorsichtig werden
- Plugin marketplaces entwickeln sich zu einer Möglichkeit, Skills zu versionieren und zu teilen; zudem wird vielerorts untersucht, wie sich die Wirksamkeit von Skills bewerten lässt
- Die ungeprüfte Wiederverwendung von Skills Dritter kann ernste Supply-Chain-Sicherheitsrisiken verursachen und erfordert daher Vorsicht
8. Browserbasiertes Component Testing
- Früher wurden browserbasierte Tools nicht empfohlen (schwer zu konfigurieren, langsam und flaky), inzwischen haben sie sich jedoch stark verbessert und sind mit Tools wie Playwright ein praktikabler und bevorzugter Ansatz
- Wenn Tests in echten Browsern ausgeführt werden, entspricht dies der Umgebung, in der der Code tatsächlich läuft, und liefert höhere Konsistenz
- Performance-Einbußen sind auf ein akzeptables Maß gesunken, auch die Flakiness hat abgenommen, sodass dies mehr Wert bietet als emulierte Umgebungen wie jsdom
9. Feedback-Sensoren für Coding Agents
- Um Coding Agents effektiver zu machen und die Belastung menschlicher Reviewer zu verringern, sind Feedback-Loops nötig, auf die Agenten direkt zugreifen können; das Feedback wirkt als Form von Backpressure
- Entwickler verlassen sich seit Langem auf deterministische Quality Gates wie Compiler, Linter, Architekturtests und Test-Suites; diese werden in agentische Workflows eingebunden, um bei Fehlern rechtzeitig Selbstkorrekturen auszulösen
- Möglich sind verschiedene Implementierungen, etwa ein Reviewer-Agent, der Checks ausführt und Korrekturen anstößt, oder das Offenlegen von Checks als begleitender parallel laufender Prozess
- Durch Coding Agents sind die Kosten für den Aufbau kundenspezifischer Linter und Architekturtests gesunken, was Feedback-Loops stärkt
- Wenn möglich, sollten sie während der Coding-Session statt erst nach dem Commit ausgeführt werden, damit vor dem Commit saubere Ergebnisse vorliegen
10. Zuordnung von Code Smells zu Refactoring-Techniken
- Eine Technik, bei der Agenten angewiesen werden, bestimmte Probleme mit einem definierten Ansatz zu behandeln
- Die erste Ebene lenkt Agenten für allgemeine Fälle mit allgemeinen Referenzen wie Refactoring; speziellere Probleme ordnen über Agent Skills, Slash-Commands und
AGENTS.mdeigene Smells bestimmten Techniken zu - Bei Integration mit Linting-Tools entsteht deterministisches Feedback, das bei jeder Erkennung eines Smells den passenden Refactoring-Ansatz auslöst
- Besonders wirksam bei Legacy-Stacks wie .NET Framework 2.0 oder Java 8, nützlich, wenn in allgemeinen Trainingsdaten wenig vorhanden ist
- Ohne zielgerichtete Anweisungen neigen Agenten dazu, statt spezifischer Anforderungen auf allgemeine Muster zurückzufallen
11. Mutation Testing
- Das ehrlichste Signal zur Bewertung der tatsächlichen Fehlererkennungsfähigkeit einer Testsuite: Anders als traditionelle Code Coverage, die nur die Ausführung von Zeilen verfolgt, werden absichtliche Fehler (Mutationen) in den Quellcode eingebracht, um zu prüfen, ob Tests bei beschädigtem Verhalten fehlschlagen
- Wenn Mutationen nicht erkannt werden, zeigt das keine bloß fehlende Coverage, sondern Lücken in der Validierung; besonders wichtig im Zeitalter AI-gestützter Entwicklung — hohe Coverage kann logisch leere Tests oder generierten Code ohne sinnvolle Assertions verdecken
- Mit der Verbreitung von AI-generierten Testfällen dient dies als zusätzliche Absicherung, um „dauerhaft grüne“ (perpetually green) Tests zu erkennen, die wegen fehlender Assertions oder isolierter Mocks unabhängig von Logikänderungen bestehen
- Tools wie Stryker, Pitest und cargo-mutants verlagern den Fokus darauf, wie viel Code in der Kerndomänenlogik tatsächlich verifiziert wird
12. Progressive Offenlegung von Kontext
- Eine Technik innerhalb der Praxis des Context engineering, bei der Agenten nicht präventiv mit Anweisungen überladen werden, sondern zunächst eine leichtgewichtige Discovery-Phase erhalten, in der sie auf Basis des Nutzerprompts auswählen, was benötigt wird
- Geeignet für RAG-Szenarien: Der Agent identifiziert zuerst die relevante Domäne aus der Nutzeranfrage und ruft dann spezifische Anweisungen und Daten ab
- Entspricht der Art, wie viele agentische Coding-Tools Agent Skills verarbeiten: Statt eines einzigen monolithischen Anweisungssatzes voller Bedingungen und Hinweise wird zuerst bestimmt, welche Skills für die Aufgabe relevant sind, und dann werden detaillierte Anweisungen geladen
- Beim Aufbau agentischer Systeme gerät man leicht in die Falle aufgeblähter Anweisungen mit endlosen „DO“- und „DO NOT“-Regeln, was letztlich die Leistung verschlechtert
- Hält das Kontextfenster kompakt und verhindert context rot
13. Sandboxed Execution für Coding-Agenten
- Eine Praxis zur Ausführung von Agenten in isolierten Umgebungen mit eingeschränktem Dateisystemzugriff, kontrollierten Netzwerkverbindungen und begrenzter Ressourcennutzung
- Da Coding-Agenten Autonomie bei Codeausführung, Builds und Dateisysteminteraktionen erhalten, bringt unbegrenzter Zugriff reale Risiken mit sich — von versehentlichen Schäden bis zur Offenlegung von Zugangsdaten — und ist daher kein optionales Upgrade, sondern ein vernünftiger Standard
- Das Spektrum an Sandboxing-Optionen ist breit: Viele Coding-Agenten bieten integrierte Sandbox-Modi, Dev Containers bieten vertraute containerbasierte Isolation
- Shuru startet für jede Ausführung eine flüchtige MicroVM, die zurückgesetzt wird; Sprites bietet zustandsbehaftete Umgebungen mit Unterstützung für Checkpoints und Wiederherstellung
- Für native Isolation unter Linux bietet Bubblewrap leichtgewichtiges, namespace-basiertes Sandboxing, unter macOS liefert
sandbox-execeinen ähnlichen Schutz - Über die grundlegende Isolation hinaus müssen auch alles Notwendige für Build und Tests, eine sichere und einfache Authentifizierung gegenüber Diensten wie GitHub und Modellanbietern, Port-Forwarding sowie ausreichend CPU und Speicher berücksichtigt werden
- Ob die Sandbox standardmäßig flüchtig oder zur Sitzungswiederherstellung dauerhaft sein soll, ist eine Designentscheidung abhängig von den Prioritäten bei Sicherheit, Kosten und Workflow-Kontinuität
14. Semantic Layer
- Eine Datenarchitekturtechnik, die einen gemeinsamen Business-Logik-Layer zwischen Datenspeichern und konsumierenden Anwendungen wie BI-Tools, AI-Agenten und APIs einführt
- Zentralisiert Metrikdefinitionen, Joins, Zugriffsregeln und Geschäftsbegriffe, damit alle Konsumenten gemeinsame Definitionen nutzen; das Konzept existiert schon länger als der moderne Data Stack, gewinnt aber mit code-first-Ansätzen wie metrics stores wieder an Aufmerksamkeit
- Ohne Semantic Layer verteilt sich die Business-Logik über ad-hoc-Warehouse-Tabellen, Dashboards und Downstream-Anwendungen, und Metrikdefinitionen driften unbemerkt auseinander
- Durch agentische AI verschärft sich das Problem: Wenn LLMs naive Text-to-SQL-Übersetzungen ausführen, entstehen häufig falsche Ergebnisse, insbesondere wenn Geschäftsregeln wie Umsatzrealisierung außerhalb des Schemas liegen
- Cloud-Plattformen betten Semantic Layers inzwischen direkt ein: Snowflake nennt sie Semantic Views, Databricks nennt sie Metric Views, während eigenständige Tools wie dbt MetricFlow und Cube systemübergreifend portable Layer bereitstellen
- Open Semantic Interchange (OSI) v1.0 wurde kürzlich veröffentlicht; die Unterstützung durch zahlreiche Anbieter signalisiert wachsende Standardisierung und Interoperabilität über Analytics-, AI- und BI-Plattformen hinweg
- Die Hauptkosten liegen in den Vorabinvestitionen für Datenmodellierung; empfohlen wird, mit einer einzelnen Domäne zu beginnen statt mit einem unternehmensweiten Rollout
15. Server-driven UI
- Trennt das Rendering in generische Container auf und liefert Struktur und Daten über den Server, sodass mobile Teams die langen Review-Zyklen der App Stores bei jeder Iteration umgehen können
- Aktiviert Echtzeit-Updates über JSON-basierte Formate und verbessert die Time-to-Release deutlich; mit stabilen Mustern bei Unternehmen wie Airbnb und Lyft sinkt die Komplexität
- Früher wurde davor gewarnt, dass proprietäre Frameworks ein „schreckliches, überkonfigurierbares Chaos“ erzeugen könnten; bei großen Anwendungen lässt sich die Investition heute leichter rechtfertigen
- Erfordert weiterhin einen starken Business Case und disziplinierte Engineering-Arbeit; wichtig ist, die Entstehung eines schwer wartbaren „God-Protocol“ zu vermeiden
- Empfohlen für hochdynamische Bereiche, nicht als Ersatz für die gesamte UI-Entwicklung einer Anwendung
Assess
16. Agentische Reinforcement-Learning-Umgebungen
- Als Trainingsumgebung für LLM-basierte Agenten kombinieren sie Kontext, Tools und Feedback, um mehrstufige Aufgaben abzuschließen
- Dieser Ansatz gestaltet das Post-Training von LLMs von einfachen Single-Turn-Ausgaben hin zu agentischem Verhalten wie Schlussfolgern und Tool-Nutzung um und weist jeder Aktion eine Belohnung oder Strafe zu
- Mit Verfahren wie RLVR wird sichergestellt, dass Belohnungen verifizierbar sind und gegen Gamification resistent bleiben
- Derzeit wird die Entwicklung vor allem von AI-Forschungslaboren vorangetrieben, insbesondere für Coding- und Computer-Use-Agenten; Cursors Composer ist ein Beispiel außerhalb der Frontier-Labs für ein spezialisiertes Coding-Modell, das innerhalb einer Produktumgebung trainiert wurde
- Frameworks und Plattformen wie Prime Intellects Environments Hub, Agent Lightning und NVIDIA NeMo Gym vereinfachen den Prozess zunehmend
17. Reduzierung von Architecture Drift mit LLMs
- Durch die zunehmende Nutzung von AI-Coding-Agenten beschleunigt sich der Drift weg von der beabsichtigten Codebase- und Architekturgestaltung; bleibt er unbeachtet, reproduzieren Agenten und Menschen bestehende Muster, auch degradierte, wodurch sich der Drift verstärkt und eine Feedback-Schleife entsteht, in der schlechter Code noch schlechteren Code erzeugt
- Durch die Kombination deterministischer Analysetools (Spectral, ArchUnit, Spring Modulith) mit LLM-basierter Bewertung lassen sich sowohl strukturelle als auch semantische Verstöße erkennen
- Einsetzbar zur Definition von Architekturzonen, die API-Qualitätsrichtlinien über Services hinweg durchsetzen und Verbesserungen bei agentisch erzeugtem Code anleiten
- Wie beim klassischen Linting machen erste Scans viele Verstöße sichtbar → Kategorisierung und Priorisierung sind nötig, wobei LLMs helfen
- Agentisch erzeugte Korrekturen sollten klein und fokussiert bleiben, damit Reviews leichter fallen; eine zusätzliche Validierungsschleife ist essenziell, um sicherzustellen, dass Änderungen das System ohne Regressionen verbessern
- Erweitert die Idee von feedback sensors for coding agents auf spätere Phasen des Delivery-Lebenszyklus; in den Worten des OpenAI-Teams funktioniert Drift-Reduzierung als eine Form von „Garbage Collection“
18. Code Intelligence als agentisches Tooling
- LLMs verarbeiten Code als Token-Stream und haben kein natives Verständnis von Call Graphs, Typhierarchien oder Symbolbeziehungen
- Für die Code-Erkundung nutzen die meisten Coding-Agenten heute standardmäßig textbasierte Suche, den stärksten gemeinsamen Nenner über alle Sprachen hinweg; für Refactorings, die in einer IDE schnelle Shortcuts sind, müssen Agenten mehrere Text-Diffs erzeugen
- Agenten verbrauchen erhebliche Mengen an Tokens, um Informationen zu rekonstruieren, die im AST bereits vorhanden sind
- Agenten sollten Zugriff auf AST-bewusste Tools erhalten, etwa über das Language Server Protocol (LSP), um Operationen wie „alle Referenzen auf dieses Symbol finden“ oder „diesen Typ überall umbenennen“ als erstklassige Aktionen auszuführen
- Codemod-Tools wie OpenRewrite arbeiten auf einer reichhaltigeren Code-Repräsentation, dem Lossless Semantic Tree (LST); geeignete Delegation an deterministische Tools reduziert halluzinierte Edits und senkt den Token-Verbrauch
- Claude Code, OpenCode und andere integrieren lokal laufende LSP-Server; JetBrains bietet einen MCP-Server, der IDE-Navigation und Refactoring für externe Agenten verfügbar macht, und der Serena-MCP-Server bietet semantische Codesuche und -bearbeitung
19. Context Graph
- Eine Wissensrepräsentationstechnik, die Entscheidungen, Richtlinien, Ausnahmen, Präzedenzfälle, Belege und Ergebnisse als erstklassig verknüpfte Knoten in einem Graphen modelliert und für den AI-Konsum strukturiert
- Wenn Aufzeichnungssysteme erfassen, was passiert ist, dann erfasst ein Context Graph das Warum — er verwandelt institutionelles Denken, das in Slack-Threads, Freigabeketten und den Köpfen von Menschen verborgen ist, in eine abfragbare, maschinenlesbare Struktur
- Essenziell für die Wirksamkeit von Agenten: Wenn ein Agent etwa eine Rabatt-Ausnahme bearbeitet und nicht erkennen kann, ob es sich um eine Standardrichtlinie oder eine einmalige Überschreibung handelt, zieht er falsche Schlüsse; ein Context Graph legt Quellen direkt offen, sodass Entscheidungsverläufe nachvollzogen, relevante Präzedenzfälle angewendet und mehrstufige Kausalketten erschlossen werden können
- Anders als GraphRAG, das aus statischen Dokumentenkorpora aufgebaut wird, erhält ein Context Graph zeitliche Gültigkeit für jede Kante; ersetzte Fakten werden nicht überschrieben, sondern invalidiert
- Eine Evaluierung wert für agentische Anwendungen, die persistente Memory über Sitzungen hinweg oder nachvollziehbare Entscheidungsbegründungen benötigen
20. Feedback Flywheel
- Teams, die mit Coding-Agenten arbeiten, übernehmen zunehmend Workflows nach spec-driven development; unabhängig von leichten oder stark meinungsgeprägten Frameworks folgen sie dem Ablauf spec → plan → implement
- Das Feedback Flywheel erweitert diesen Ablauf um einen zusätzlichen Schritt mit Fokus auf die kontinuierliche Verbesserung des Coding-Agent-Harness
- Ähnlich wie bei Retrospektiven erfassen Teams Erfolge und Misserfolge aus Coding-Agent-Sessions und nutzen sie, um die Vorhersagbarkeit künftiger Sessions zu verbessern; mit der Zeit entsteht ein Zinseszinseffekt
- Eine Meta-Technik, bei der der human on the loop sich auf die Verbesserung von Feedforward-Kontrollen wie curated shared instructions und feedback sensors for coding agents konzentriert
- Die nächste Stufe ist das agentic feedback flywheel, bei dem Agenten auf Basis kumulierten Feedbacks selbst notwendige Verbesserungen bestimmen; derzeit ist jedoch weiterhin ein Human-in-the-Loop nötig, um Context Rot und verrauschtes Feedback zu verhindern, das Agenten in die Irre führen könnte
- Lässt sich zur Bewertung des gesamten Coding-Agent-Harness nutzen, wenn sich die Umgebung weiterentwickelt, insbesondere bei der Einführung neuer Modelle, da das, was bei einem Modell funktioniert hat, beim nächsten unnötig sein kann
21. HTML Tools
- Mit agentischen Tools ist es leicht geworden, kleine, auf einzelne Aufgaben zugeschnittene Utilities zu bauen; die zentrale Herausforderung ist nun die Bereitstellung und das Teilen
- HTML Tools sind ein Ansatz, gemeinsam nutzbare Skripte oder Utilities in einer einzelnen HTML-Datei zu verpacken
- Sie laufen direkt im Browser, können überall gehostet oder einfach als Datei geteilt werden und vermeiden so den Bereitstellungsaufwand von CLI-Tools, bei denen Binärdateien verteilt oder Paketmanager genutzt werden müssen
- Einfacher als der Bau einer vollständigen Webanwendung mit dediziertem Hosting
- Aus Sicherheitssicht bleibt das Ausführen nicht vertrauenswürdiger Dateien riskant, auch wenn Browser-Sandboxing und die Möglichkeit zur Quellcodeprüfung teilweise Abhilfe schaffen
- Für leichtgewichtige Utilities bietet eine einzelne HTML-Datei eine sehr zugängliche und portable Form
22. LLM evaluation using semantic entropy
- Konfabulation (confabulation) als Form von Halluzination in LLM-QA-Anwendungen ist mit traditionellen Bewertungsmethoden schwer zu adressieren
- Ein Ansatz nutzt Informationsentropie, um Unsicherheit zu messen, indem lexikalische Variationen der Ausgaben für eine gegebene Eingabe analysiert werden
- Die Auswertung von LLMs mit Semantic entropy erweitert diese Idee, indem sie sich statt auf oberflächliche Variationen auf Unterschiede in der Bedeutung konzentriert
- Da Bedeutung statt Wortfolgen bewertet wird, ist der Ansatz ohne Vorwissen über Datensätze und Aufgaben hinweg anwendbar und generalisiert gut auf unbekannte Aufgaben
- Hilft dabei, Prompts zu identifizieren, die wahrscheinlich Konfabulationen auslösen, und bei Bedarf zur Vorsicht zu raten
- Naive Entropie scheitert oft daran, Konfabulationen zu erkennen; semantic entropy ist beim Filtern falscher Behauptungen wirksamer
23. Measuring collaboration quality with coding agents
- Beim Einsatz von Coding Agents werden zwar reale Produktivitätsgewinne beobachtet, doch die meisten Bewertungsmetriken fokussieren sich weiterhin zu stark auf coding throughput wie Zeit bis zur ersten Ausgabe, generierte Codezeilen oder abgeschlossene Aufgaben
- Damit Teams nicht in die Geschwindigkeitsfalle (speed trap) geraten, sollte der Fokus darauf verlagert werden, wie effektiv Menschen und Agenten zusammenarbeiten
- Metriken wie first-pass acceptance rate, Iterationszyklen pro Aufgabe, Nacharbeit nach dem Merge, fehlgeschlagene Builds und Review-Aufwand liefern aussagekräftigere Signale als Geschwindigkeit allein
- Teams, die Claude Code nutzen, können mit dem Befehl
/insightsBerichte über Erfolg und Aufgabenerfüllung von Agent-Sessions erzeugen; zudem wird experimentiert, die first-pass acceptance über einen angepassten/review-Befehl zu verfolgen - Kurze Feedback-Zyklen und weniger fehlgeschlagene Builds sind Indikatoren für eine effektivere Interaktion mit Agenten
- Auf Teamebene statt auf Individualebene sollte die Qualität der Zusammenarbeit zusammen mit DORA-Metriken verfolgt werden, um ein vollständigeres Bild der Einführung von Coding Agents zu erhalten
24. MITRE ATLAS
- Agentische Systeme und Coding-Tools führen neue Architekturen und neu entstehende Sicherheitsbedrohungen ein
- MITRE ATLAS ist eine Wissensbasis zu gegnerischen Taktiken und Techniken, die auf AI- und ML-Systeme abzielen
- Sie ist fokussierter als das breitere Framework MITRE ATT&CK und als Ergänzung dazu konzipiert; sie bietet eine Klassifikation von Bedrohungen für ML-Pipelines, LLM-Anwendungen und agentische Systeme
- Ohne gemeinsames Vokabular werden Sicherheitsrisiken oft übersehen oder auf eine bloße Checkbox-Übung reduziert; ATLAS hilft hier
- Basierend auf der Untersuchung realer Incidents und technischer Muster können Teams das Framework zur Unterstützung von Threat Modeling nutzen
- Eine natürliche Ergänzung zu Control-Frameworks wie SAIF, die dabei hilft, die sich wandelnde Bedrohungslandschaft von AI-Systemen zu beschreiben
25. Ralph loop
- Eine Technik für autonome Coding Agents, auch als Wiggum loop bekannt, bei der ein fester Prompt in einer Endlosschleife an den Agenten übergeben wird
- Jede Iteration beginnt mit einem neuen Context Window — der Agent wählt aus Spezifikation oder Plan eine Aufgabe, setzt sie um und startet die Schleife mit neuem Kontext erneut
- Die Kernerkenntnis ist Einfachheit: Statt teams of coding agents oder coding agent swarms zu orchestrieren, arbeitet ein einzelner Agent autonom an der Spezifikation, wobei erwartet wird, dass sich die Codebasis durch wiederholte Iterationen der Spezifikation annähert
- Durch ein neues Context Window in jeder Iteration wird Qualitätsverlust durch akkumulierten Kontext vermieden, allerdings um den Preis erheblicher Token-Kosten
- Tools wie goose implementieren dieses Muster und erweitern es in manchen Fällen um modellübergreifende Reviews zwischen den Iterationen
26. Reverse engineering for design system
- Organisationen kämpfen oft mit fragmentierten Legacy-Interfaces, bei denen „Designstandards“ nur als lose Sammlung separater Webseiten, Marketingmaterialien und Screenshots existieren
- Historisch war das Auditieren dieser Artefakte, um eine Grundlage für Konsolidierung zu schaffen, ein manueller und zeitaufwendiger Prozess
- Mit multimodalen LLMs lässt sich diese Extraktion automatisieren und ein Design System aus vorhandenen visuellen Assets effektiv rückwärts entwickeln
- Indem Websites, Screenshots und UI-Fragmente in spezialisierte Tools oder Vision-fähige AI-Modelle eingespeist werden, können Teams zentrale Design-Tokens wie Farbpaletten, Typografieskalen und Abstandsregeln extrahieren und wiederkehrende Komponentenmuster identifizieren
- AI synthetisiert diese unstrukturierten visuellen Daten in eine strukturierte semantische Repräsentation des Design Systems; in Integration mit Tools wie Figma beschleunigt die Ausgabe die Erstellung formalisierter und wartbarer Komponentenbibliotheken erheblich
- Über die Reduzierung des Aufwands für visuelle Audits hinaus dient es auch als Sprungbrett zum Aufbau „AI-ready“-fähiger Design-Systeme
- Für Unternehmen, die unter Brownfield-Designschulden leiden, ist es ein pragmatischer Ausgangspunkt, mit AI ein grundlegendes Design System zu etablieren, bevor eine vollständige Neugestaltung oder Frontend-Standardisierung angegangen wird
27. Role-based contextual isolation in RAG
- Eine Architekturtechnik, die die Zugriffskontrolle von der Anwendungsschicht in die Retrieval-Schicht verlagert
- Allen Daten-Chunks werden beim Indexieren rollenbasierte Berechtigungs-Tags zugewiesen; zur Query-Zeit beschränkt die Retrieval Engine den Suchraum auf Basis der authentifizierten Identität des Nutzers und gleicht ihn mit den Metadaten jedes Chunks ab
- Da das AI-Modell bereits im Retrieval-Schritt gefiltert wird, ist sichergestellt, dass es nicht auf nicht autorisierten Kontext zugreifen kann; das schafft eine Zero-Trust-Grundlage für interne Wissensbasen
- Viele Vektor-Datenbanken wie Milvus oder Dienste auf Basis von Amazon S3 unterstützen performantes Metadaten-Filtering, wodurch der Einsatz auch für große Wissensbasen praktikabel ist
28. Skills als ausführbare Onboarding-Dokumentation
- Agent Skills, kuratierte gemeinsame Anweisungen und andere Techniken des Context Engineering tauchen im gesamten Radar auf; ein im Coding-Kontext besonders hervorzuhebender Anwendungsfall sind Skills als ausführbare Onboarding-Dokumentation
- Auf mehreren Ebenen einsetzbar; im Codebase kann ein
/_setup-Skill die Rolle einesgo.sh-Skripts und einer README-Datei übernehmen und bei nicht skriptbaren Schritten LLM-Ausführungssemantik mit Skripten kombinieren - Über das hinaus, was Skripte leisten können, ist eine dynamische Berücksichtigung des aktuellen Zustands von Codebase und Umgebung möglich
- Ersteller von Bibliotheken und APIs können Verbrauchern Skills als Teil der Dokumentation bereitstellen, über interne oder externe Skill-Register (wie Tessl)
- Nützlich für das Onboarding in internen Plattformen von Teams, um die Hürden bei der Nutzung von Kerntechnologien zu senken oder Reibung bei der Einführung eines Designsystems zu verringern; bisher wurde dafür stark auf MCP-Server gesetzt, inzwischen erfolgt eine Verlagerung hin zu Skills
- Wie bei anderen Dokumentationsformen verschwindet die Herausforderung, alles aktuell zu halten, nicht; ausführbare Dokumentation hilft jedoch im Unterschied zu statischer Dokumentation dabei, Veraltung deutlich früher zu bemerken
29. Small language models
- SLMs verbessern sich weiter und beginnen, in bestimmten Anwendungsfällen mehr Intelligenz pro Dollar als LLMs zu liefern
- Teams evaluieren SLMs, um Inferenzkosten zu senken und agentische Workflows zu beschleunigen; jüngste Fortschritte zeigen stetige Zugewinne bei der Intelligenzdichte, wodurch sie bei Aufgaben wie Zusammenfassung und einfachem Coding gegenüber älteren LLMs konkurrenzfähig werden
- Dies spiegelt die Verschiebung von „größer ist besser“ hin zu höherwertigen Daten, Modelldestillation und Quantisierung wider
- Modelle wie Phi-4-mini und Ministral 3 3B zeigen, dass destillierte Modelle viele Fähigkeiten größerer Lehrermodelle beibehalten
- Selbst ultrakleine Modelle wie Qwen3-0.6B und Gemma-3-270M können inzwischen auf Edge-Geräten ausgeführt werden
- Für agentische Anwendungsfälle, in denen früher ältere LLMs ausreichten, sollten SLMs als kostengünstige, latenzarme und ressourcenschonendere Alternative in Betracht gezogen werden
30. Team aus Coding-Agenten
- Im vorherigen Radar wurde dies als Technik beschrieben, bei der Entwickler eine Kleingruppe rollenbasierter Agenten orchestrieren, die bei Coding-Aufgaben zusammenarbeitet
- Seitdem sind die Einführungshürden gesunken; Unterstützung für Subagenten ist in bestehenden Coding-Agent-Tools weithin zur Grundfunktion geworden, einschließlich der in Claude Code eingebauten Funktion für Agententeams, die Orchestrierung bereitstellt
- In einem Agententeam koordiniert der Hauptorchestrator typischerweise die Aufgabenreihenfolge und Parallelisierung; die Agenten sollten nicht nur mit dem Orchestrator, sondern auch untereinander kommunizieren können
- Häufige Anwendungsfälle sind Review-Teams oder Gruppen von Implementierern, die verschiedene Teile einer Anwendung übernehmen, etwa Backend und Frontend
- Teile der Branche verwenden „agent teams“ und "agent swarms" austauschbar (Claude Code beschreibt seine Funktion für Agententeams als „our implementation of swarms“), doch die Unterscheidung hat Wert
- Kleine, bewusst zusammengestellte Agententeams, die an einer Aufgabe zusammenarbeiten, unterscheiden sich hinsichtlich Einstiegshürden, Komplexität und Anwendungsfällen deutlich von großen Swarms
31. Temporal Fakes
- Erweiterung der Idee der Simulation realer Systeme, die in IoT- und Industrieplattformen seit Langem genutzt wird
- AI-Coding-Agenten verringern den Aufwand für den Aufbau von Simulatoren und machen es deutlich einfacher, hochgradig realitätsnahe Repliken externer Abhängigkeiten zu erzeugen
- Anders als herkömmliche Mocks, die statische Request-Response-Paare zurückgeben, halten Temporal Fakes interne Zustandsmaschinen aufrecht und modellieren die zeitliche Entwicklung realer Systeme
- Ein Team nutzte diese Technik bei der Entwicklung eines Observability-Stacks für große GPU-Rechenzentren, um die Beschaffung physischer Hardware zu vermeiden
- Tests von Alarmregeln, Dashboards und Anomalieerkennung auf realen Systemen sind unpraktisch (z. B. das absichtliche Überhitzen von GPUs, um einen Alarm für thermal throttle zu validieren)
- Stattdessen wurden Fakes für Hardware-Domänen wie NVIDIA DCGM und InfiniBand-Fabrics in Go gebaut
- Mit dem Simulator lassen sich Fehlerszenarien wie Thermal Throttling, XID-Error-Stürme, Link Flaps und PSU-Ausfälle mit konfigurierbarer Intensität und Dauer aktivieren; orchestriert wird dies über einen process-compose-Stack
- Ein zentrales Register definiert gültige Fehlerszenarien, und ein MCP-Server stellt Agenten das Einschleusen von Szenarien bereit
- Agenten können Fehler auslösen, etwa Thermal Throttling auf einer bestimmten GPU, und prüfen, ob sich Metriken erwartungsgemäß ändern, Alarme ausgelöst werden und Dashboards aktualisiert werden
- Diese zeitliche Genauigkeit macht die Technik wertvoll für das Testen komplexer Systeme mit kaskadierenden Fehlern; wenn die Fakes das reale Verhalten jedoch nicht getreu abbilden, besteht das Risiko, in automatisierten Pipelines falsches Vertrauen zu erzeugen
32. Toxic Flow Analysis für AI
- Die Fähigkeiten von Agenten überholen derzeit die Sicherheitspraktiken; mit dem Aufkommen berechtigungshungriger Agenten wie OpenClaw setzen Teams zunehmend Agenten in Umgebungen ein, die dem lethal trifecta ausgesetzt sind — Zugriff auf private Daten, Kontakt mit nicht vertrauenswürdigen Inhalten und Fähigkeit zur externen Kommunikation
- Mit wachsenden Fähigkeiten vergrößert sich auch die Angriffsfläche, wodurch Systeme Risiken wie Prompt Injection und Tool Poisoning ausgesetzt werden
- Toxic Flow Analysis bleibt als zentrale Technik anerkannt, um agentische Systeme zu untersuchen und unsichere Datenpfade sowie potenzielle Angriffsvektoren zu identifizieren
- Das Risiko beschränkt sich nicht mehr nur auf MCP-Integrationen; ähnliche Muster werden auch bei Agent Skills beobachtet — böswillige Akteure verpacken nützlich erscheinende Skills mit versteckten Anweisungen zur Exfiltration sensibler Daten
- Teams, die mit Agenten arbeiten, wird dringend empfohlen, Toxic Flow Analysis durchzuführen und Tools wie Agent Scan zu verwenden, um unsichere Datenpfade vor einer Ausnutzung zu identifizieren
33. Vision Language Models für End-to-End-Dokumentenparsing
- Das Dokumentenparsing stützt sich auf mehrstufige Pipelines, die Layout-Erkennung, traditionelles OCR und Nachbearbeitungsskripte kombinieren, und hat mit komplexen Layouts und mathematischen Formeln zu kämpfen
- End-to-End-Dokumentenparsing mit VLMs behandelt Dokumentbilder als eine einzige Eingabemodalität, vereinfacht damit die Architektur und bewahrt eine natürliche Lesereihenfolge sowie strukturierte Inhalte
- Speziell für diesen Zweck trainierte Open-Source-Modelle wie olmOCR-2, das tokeneffiziente DeepSeek-OCR (3B) und das ultrakleine PaddleOCR-VL liefern sehr effiziente Ergebnisse
- Auch wenn VLMs mehrstufige Pipelines ersetzen und dadurch die architektonische Komplexität verringern, neigen sie aufgrund ihrer generativen Natur zu Halluzinationen
- Anwendungsfälle mit geringer Fehlertoleranz benötigen weiterhin hybride Ansätze oder deterministisches OCR
- Teams, die große Dokumentensammlungen verarbeiten, sollten diese integrierten Ansätze bewerten, um zu entscheiden, ob sich damit die Genauigkeit aufrechterhalten und zugleich der langfristige Wartungsaufwand verringern lässt
Caution
34. Aufblähung von Agent-Anweisungen
- Kontextdateien wie
AGENTS.mdundCLAUDE.mdsammeln im Lauf der Zeit Codebase-Überblicke, Architekturbeschreibungen, Konventionen und zusätzliche Regeln an - Jede Ergänzung ist für sich genommen nützlich, führt aber oft zu agent instruction bloat, wodurch Anweisungen länger werden und sich teils gegenseitig widersprechen
- Modelle neigen dazu, Inhalten weniger Aufmerksamkeit zu schenken, wenn sie mitten in langen Kontexten vergraben sind; Guidance tief in langen Gesprächsverläufen kann übersehen werden
- Mit zunehmender Zahl von Anweisungen steigt die Wahrscheinlichkeit, dass wichtige Regeln ignoriert werden
- Viele Teams erzeugen
AGENTS.md-Dateien mit AI, aber Forschung deutet darauf hin, dass von Hand geschriebene Versionen oft effektiver sind als von LLMs erzeugte - Beim Einsatz agentischer Tools sollte man mit Anweisungen bewusst und selektiv umgehen, sie bei Bedarf ergänzen und fortlaufend zu einem minimalen und konsistenten Set verfeinern
- Ziehen Sie den Einsatz von progressive context disclosure in Betracht, damit nur die für die aktuelle Aufgabe nötigen Anweisungen und Fähigkeiten sichtbar gemacht werden
35. AI-beschleunigte Shadow IT
- AI senkt weiterhin die Hürden für Nicht-Coder, komplexe Systeme zu bauen, ermöglicht Experimente und eine frühe Validierung von Anforderungen, bringt aber auch das Risiko einer AI-beschleunigten Shadow IT mit sich
- Neben No-Code-Workflow-Plattformen, die AI-APIs wie OpenAI oder Anthropic integrieren, stehen Nicht-Codern auch mehr agentische Tools wie Claude Cowork zur Verfügung
- Wenn Tabellenkalkulationen, die bislang still im Hintergrund das Geschäft betrieben haben, sich zu Custom-agentischen Workflows ohne Governance weiterentwickeln, entstehen erhebliche Sicherheitsrisiken und es verbreiten sich konkurrierende Lösungen für ähnliche Probleme
- Die Unterscheidung zwischen einmaligen Workflows und kritischen Prozessen, die belastbare und produktionsreife Implementierungen brauchen, ist entscheidend für die Balance zwischen Experimentieren und Kontrolle
- Organisationen sollten Governance als Teil ihrer AI-Einführungsstrategie priorisieren und zugleich Experimente in kontrollierten Umgebungen fördern
- Ein passend instrumentiertes internes Sandbox-System kann Nicht-Codern einen Ort bieten, an dem sie Prototypen mit nachvollziehbarer Nutzung bereitstellen können
- In Kombination mit einem bestehenden Katalog gemeinsam genutzter Workflows hilft das Teams, bereits Gebautes zu finden und doppelte Arbeit zu vermeiden
36. Kognitive Verschuldung der Codebase
- Die wachsende Lücke zwischen der Implementierung eines Systems und dem gemeinsamen Verständnis des Teams darüber, wie und warum es funktioniert
- Während AI das Änderungstempo erhöht, können Teams — insbesondere bei vielen Beitragenden oder Coding Agent Swarms — die Nachverfolgung von Designabsicht und versteckten Kopplungen verlieren
- In Verbindung mit wachsender technischer Schuld entsteht ein Verstärkungskreislauf, der Systeme immer schwerer nachvollziehbar macht
- Ein schwaches Systemverständnis verringert die Fähigkeit von Entwicklern, AI wirksam anzuleiten, Edge Cases vorauszusehen und Agents von Architekturfallen fernzuhalten
- Wenn dies nicht gemanagt wird, wird ein Kipppunkt erreicht, an dem kleine Änderungen unerwartete Ausfälle auslösen, Korrekturen Regressionen einführen und Aufräumarbeiten das Risiko eher erhöhen als senken
- Vermeiden Sie Sorglosigkeit gegenüber AI-generiertem Code und führen Sie explizite Gegenmaßnahmen ein — feedback sensors for coding agents, Tracking der kognitiven Last von Teams und Architektur-Fitness-Funktionen, damit zentrale Einschränkungen weiterhin durchgesetzt werden, während AI die Output-Erzeugung beschleunigt
37. Coding Agent Swarms
- Wenn ein team of coding agents eine kleine, bewusst zusammengestellte Gruppe ist, dann setzt ein coding agent swarm Dutzende bis Hunderte von Agents auf ein Problem an, wobei AI Zusammensetzung und Größe dynamisch festlegt
- Projekte wie Gas Town und Ruflo (früher Claude Flow) sind gute Beispiele
- Es zeichnen sich erste Muster für Swarm-Implementierungen ab — hierarchische Rollentrennung (Orchestrator, Supervisoren, temporäre Worker), langlebige Arbeits-Logs, die Agents bei der Aufteilung und Koordination von Aufgaben unterstützen (Gas Town verwendet beads), sowie Merge-Mechanismen zur Behandlung von Konflikten bei paralleler Arbeit
- Zwei Swarm-Experimente sind besonders bemerkenswert — die Erzeugung eines C-Compilers von Anthropic und das Agent-Scaling-Experiment von Cursor (Erzeugung eines Browsers über den Verlauf einer Woche)
- Beide Teams wählten Anwendungsfälle, die sich auf vorhandene detaillierte Spezifikationen stützen konnten, beim C-Compiler einschließlich einer umfassenden Testsuite, die klares und messbares Feedback lieferte
- Diese Bedingungen sind nicht repräsentativ für typische Produktentwicklung, bei der Anforderungen weniger klar definiert und schwerer zu validieren sind
- Dennoch tragen diese Experimente zu entstehenden Mustern bei, die langlaufende Swarms technisch machbar machen; sie sind weiterhin teuer und weit von Reife entfernt, daher ist Vorsicht bei der Einführung empfohlen
38. Coding Throughput als Maß für Produktivität
- AI-Coding-Assistenten sorgen tatsächlich für Produktivitätsgewinne und etablieren sich schnell als Standard-Entwicklerwerkzeuge
- Gleichzeitig messen Organisationen Erfolg jedoch zunehmend mit oberflächlichen Kennzahlen wie der Anzahl generierter Codezeilen oder Pull Requests (PRs)
- Werden solche Coding-Throughput-Metriken isoliert verwendet, können sie das Verhalten von Mitarbeitenden negativ beeinflussen
- Das Ergebnis ist oft eine Flut schlecht abgestimmten Codes, die Reviews verlangsamt, den Delivery-Durchsatz beeinträchtigt und Sicherheitsrisiken einführt, weil Engineers PRs einreichen, die mit unzureichend geprüftem AI-Output gefüllt sind, was durch wiederholtes Hin und Her mit Reviewern die Zykluszeit erhöht
- Diese Metriken erfassen nicht den verbleibenden Aufwand, der nötig ist, um AI-generierten Code an Team-Architektur, Konventionen und Muster anzupassen
- Es gibt aussagekräftigere Frühindikatoren — die first-pass acceptance rate, also wie oft AI-Output mit minimaler Nacharbeit verwendet werden kann
- Ihre Messung macht verborgenen Aufwand sichtbar und ermöglicht Verbesserungen, sodass Teams durch Verfeinerung von Prompts, bessere Priming-Dokumentation und intensivere Design-Gespräche die Akzeptanz kontinuierlich steigern können
- So entsteht ein positiver Kreislauf, in dem AI-Output weniger Anpassungen benötigt; first-pass acceptance ist zudem natürlich mit den DORA-Metriken verknüpft — niedrige Akzeptanzraten gehen tendenziell mit höheren Change-Failure-Raten einher, und wiederholte Iterationsschleifen verlängern die Lead Time für Änderungen
- Da AI-Assistenten allgegenwärtig werden, müssen Organisationen den Fokus von Coding Throughput allein auf Metriken verlagern, die reale Wirkung und Delivery-Ergebnisse abbilden
39. Ignorieren von Durability in Agent-Workflows
- Ein bei mehreren Teams beobachtetes Antipattern, das in der Entwicklung funktioniert, aber in Produktion scheiternde Systeme hervorbringt
- Die Herausforderungen verteilter Systeme treten beim Bau von Agents noch stärker hervor; eine Denkweise, die Ausfälle erwartet und elegant darauf reagiert, ist reaktiven Ansätzen überlegen
- LLMs und Tool-Calls können durch Netzwerkausfälle und Serverabstürze scheitern, was den Fortschritt von Agents unterbricht und zu schlechter User Experience sowie höheren Betriebskosten führt
- Manche Systeme können das tolerieren, wenn Aufgaben kurzlebig sind, aber komplexe Workflows, die über Tage oder Wochen laufen, benötigen Durability
- Agent-Frameworks wie LangGraph und Pydantic AI integrieren Durable Execution
- Sie bieten persistente Speicherung des Zustands von Fortschritt und Tool-Calls, sodass Agents nach Fehlern die Arbeit wieder aufnehmen können
- In Workflows mit human in the loop kann Durable Execution den Fortschritt pausieren, während auf Eingaben gewartet wird
- Auch Durable-Computing-Plattformen wie Temporal, Restate und Golem unterstützen Agents
- Die Observability von integrierter Tool-Ausführung und Entscheidungsverläufen erleichtert Debugging und verbessert das Verständnis von Produktivsystemen
- Am besten beginnt man mit nativer Unterstützung für Durable Execution im Agent-Framework und nutzt unabhängige Plattformen, wenn Workflows wichtiger oder komplexer werden
40. MCP standardmäßig verwenden
- Das Model Context Protocol (MCP) erhält viel Aufmerksamkeit, und Teams wie auch Vendoren neigen dazu, es als standardmäßige Integrationsschicht zwischen AI-Agents und externen Systemen zu übernehmen, obwohl es einfachere Alternativen gibt
- Diese Standardnutzung von MCP ist mit Vorsicht zu betrachten; MCP schafft echten Mehrwert bei strukturierten Tool-Verträgen, OAuth-basierten Authentifizierungsgrenzen und Governance-gesteuertem Multi-Tenant-Zugriff
- Gleichzeitig führt es auch das ein, was Justin Poehnelt als „abstraction tax“ bezeichnet — jede zusätzliche Protokollschicht zwischen Agent und API kann zu Fidelity-Verlust führen, und bei komplexen APIs potenziert sich dieser Effekt
- In der Praxis kann eine gut gestaltete CLI mit gutem
--help-Output, strukturierten JSON-Antworten und vorhersehbarer Fehlerbehandlung alles liefern, was ein Agent braucht — ganz ohne Protokoll-Overhead - Wie Simon Willison anmerkt, lässt sich „fast alles, was mit MCP erreicht werden kann, auch mit CLI-Tools umsetzen“
- Das ist keine Absage an MCP, aber Teams sollten eine Übernahme als Standard vermeiden und zuerst fragen, ob ihr System tatsächlich Interoperabilität auf Protokollebene benötigt
- MCP ist dann sinnvoll, wenn seine Governance- und Integrationsvorteile die zusätzliche Komplexität und den potenziellen Fidelity-Verlust überwiegen
41. Pixel-gestreamte Entwicklungsumgebungen
- Einsatz von Remote-Desktops oder Workstations im VDI-Stil für Softwareentwicklung, bei dem Bearbeitung, Build und Debugging über einen gestreamten Desktop statt auf dem lokalen Rechner oder in codezentrierten Remote-Umgebungen erfolgen
- Organisationen setzen dies weiterhin ein, insbesondere um Ziele bei Sicherheit, Standardisierung und Onboarding für Offshore-Teams und Lift-and-Shift-Cloud-Programme zu erreichen
- In der Praxis sind die Trade-offs jedoch oft schlecht — Latenz, Eingabeverzögerung und inkonsistente Bildschirmreaktionen erzeugen anhaltende kognitive Reibung, verlangsamen die Delivery-Geschwindigkeit und machen alltägliche Entwicklungsarbeit ermüdender
- Im Unterschied zu Cloud-Entwicklungsumgebungen, Google Cloud Workstations, Coder oder VS Code Remote Development — die Rechenleistung näher an den Code verlagern, ohne den gesamten Desktop zu streamen
- Pixel-gestreamte Setups priorisieren zentralisierte Kontrolle gegenüber dem Entwicklerfluss und werden oft ohne ausreichendes Feedback der Engineers eingeführt, die damit arbeiten müssen
- Wenn starke Sicherheits- oder Regulierungsanforderungen die Produktivitätskosten nicht klar überwiegen, sind pixel-gestreamte Entwicklungsumgebungen keine Empfehlung als Standardwahl für Software Delivery
[Platforms]
Adopt
— keine
Trial
42. AG-UI Protocol
- Ein offenes Protokoll und eine Bibliothek, die entwickelt wurden, um die Kommunikation zwischen reichhaltigen Benutzeroberflächen und Backend-AI-Agents zu standardisieren
- Historisch erforderte der Bau agentischer UIs maßgeschneiderte Plumbing-Arbeit für bidirektionale zustandsbehaftete Zusammenarbeit; AG-UI adressiert dies mit einer einheitlichen ereignisbasierten Architektur, die Transports wie Server-Sent Events (SSE) und WebSockets unterstützt
- Unterstützt Streaming von Inferenzschritten, Zustandssynchronisierung und dynamisches Rendering von UI-Komponenten
- Allerdings verändert sich die Architektur-Landschaft für Agent-Interfaces schnell, und AG-UI positioniert sich bewusst außerhalb von MCP als Interface-Schicht zwischen Frontend und Agent-Backend
- Gleichzeitig entsteht mit neuen MCP-basierten Anwendungen, die HTML und UI-Widgets direkt in MCP-Servern oder Skills paketieren, ein anderer Ansatz
- Da UI-Komponenten zusammen mit Tools eingebettet und ausgeliefert werden können — ein Muster, das mit angrenzenden Standards wie MCP-UI zusammenhängt — wird die Notwendigkeit einer separaten UI-Protokollschicht wie AG-UI infrage gestellt
- Für die Trennung von Frontend-UX und Backend-Orchestrierung bleibt es dennoch eine robuste Wahl, allerdings sollte seine Rolle unter Berücksichtigung des Trends zur Integration von Tool-Logik und UI innerhalb des MCP-Ökosystems neu bewertet werden
43. Apache APISIX
- Ein Open-Source-, hochperformantes, Cloud-native Gateway, das die Grenzen von Legacy-Lösungen auf Nginx-Basis überwindet
- Aufgebaut auf LuaJIT von Nginx und OpenResty; verwendet etcd als Konfigurationsspeicher und beseitigt damit durch Reloads verursachte Latenzen, wodurch es sich gut für dynamische Microservices- und Serverless-Architekturen eignet
- Zu den wichtigsten Stärken zählen eine vollständig dynamische und pluginfähige Architektur sowie ein mehrsprachiges Plugin-Ökosystem einschließlich API und WASM, mit dem sich Traffic-Management, Sicherheit und Observability anpassen lassen
- Dank Unterstützung für die Kubernetes Gateway API kann Apache APISIX als Kubernetes-Gateway genutzt werden und ist ein starker Kandidat als Ersatz für Legacy-Nginx-Ingress-Controller
44. AWS Bedrock AgentCore
- Eine agentische Plattform zum sicheren Aufbau, Ausführen und Betrieb von Agents im großen Maßstab ohne Overhead für das Infrastrukturmanagement, ähnlich wie GCP Vertex AI Agent Builder und Azure AI Foundry Agent Service
- Es ist leicht, die Plattform als monolithische Blackbox zu übernehmen, doch mit einer feingranularen und entkoppelten Architektur stellt sich größerer Erfolg ein — für Produktionsanforderungen wie Session-Isolation, Sicherheit und Observability wird die AgentCore-Runtime genutzt, während die Orchestrierungslogik in externen Frameworks wie LangGraph verbleibt
- Diese Trennung der Zuständigkeiten ermöglicht es, die Vorteile einer gemanagten Infrastruktur zu nutzen und zugleich flexibel zu bleiben, wenn sich das LLM-Umfeld weiterentwickelt
- Der Fokus auf die Runtime erlaubt es Organisationen, agentische Workloads schrittweise in die Produktion zu überführen, ohne die Kontrolle über die Kernlogik an eine vendorspezifische Orchestrierungsschicht abzugeben
45. Graphiti
- Die Open-Source-Engine für temporale Wissensgraphen von Zep belegt die Produktionstauglichkeit zur Lösung von LLM-Memory-Problemen
- Während flache Vektorspeicher in RAG-Pipelines Änderungen von Fakten über die Zeit nicht nachverfolgen können, sammelt Graphiti Daten in separaten Episoden und hält auf Graph-Kanten bitemporale Gültigkeitsfenster vor; veraltete Fakten werden nicht überschrieben, sondern entwertet
- Anders als das batchorientierte GraphRAG aktualisiert es den Graphen inkrementell und bietet mit hybrider Suche aus semantischer Suche, BM25 und Graph-Traversierung Subsekunden-Suche ohne LLM-Aufrufe zur Query-Zeit
- Zwei Faktoren treiben die Verbreitung — ein peer-reviewter Benchmark, der eine Genauigkeitsverbesserung um 18,5 % und eine Reduktion der Latenz um 90 % meldet, sowie die Einführung eines erstklassigen MCP-Servers, der es mit Model Context Protocol kompatiblen Agents erlaubt, mit minimalem Integrationsaufwand persistentes zeitliches Memory anzubinden
- Eine starke Community-Adoption ist ein weiteres Signal für Produktionsreife
- Neo4j ist das primäre Backend, FalkorDB eine leichtgewichtigere Alternative
- Zu berücksichtigen sind die LLM-Extraktionskosten pro Schreibvorgang sowie die Notwendigkeit, Abhängigkeiten angesichts des Release-Status vor Version 1.0 festzuschreiben
46. Langfuse
- Eine Open-Source-LLM-Engineering-Plattform für Observability, Prompt-Management, Evaluierung und Dataset-Management
- Seit der letzten Bewertung ist das Projekt deutlich gereift; die v3-Architektur führt ClickHouse, Redis und S3 als Backend-Komponenten ein, was die Skalierbarkeit verbessert, aber auch die Komplexität des Self-Hostings erhöht
- Sowohl die Python- als auch die TypeScript-SDKs sind nativ auf OpenTelemetry aufgebaut und passen daher natürlich zu Teams, die OTEL-basierte Observability nutzen
- Neue Funktionen wie das Experiment-Runner-SDK und Unterstützung für strukturierte Ausgaben bei Prompt-Experimenten erweitern Langfuse von reinem Tracing hin zu systematischen Evaluierungs-Workflows
- In einem zunehmend überfüllten Feld neben Arize Phoenix, Helicone und LangSmith eine Überlegung wert
- Teams, die primär auf Pydantic AI aufbauen, sollten statt eines LLM-spezifischen Toolsets auch Pydantic Logfire in Betracht ziehen, das als Full-Stack-OTEL-Observability-Plattform einen breiteren Ansatz verfolgt
- Eine verlässliche Wahl für Teams, die integriertes Tracing, Evaluierung und Prompt-Management auf einer einzigen selbst hostbaren Plattform benötigen; wenn jedoch vor allem Kosten- und Latenztransparenz auf der Modellebene gebraucht wird, sollte geprüft werden, ob ein enger zugeschnittenes Tool wie Helicone ausreicht
47. Port
- Ein kommerzielles internes Entwicklerportal, das zur Verbesserung der Developer Experience entwickelt wurde und Plattform-Teams eine Single Source of Truth für Self-Service-Workflows bietet, indem es Software-Assets zentralisiert, Workflows automatisiert und Engineering-Standards durchsetzt
- Wird wichtiger, da Organisationen ihre Engineering-Workflows standardisieren und Templates, APIs, Automatisierungen und Agents in einer Form bereitstellen wollen, die Entwickler tatsächlich nutzen können
- Nicht nur als eigenständiges Portal, sondern über die API und die MCP-Schicht von Port auch direkt in der IDE nutzbar
- Funktioniert gut für Organisationen, die ohne starke Investitionen in Platform Engineering produktisierte Portal-Funktionalität wollen
- In Kundenprojekten konnten damit relativ kleine Plattform-Teams wirksamen Self-Service schnell bereitstellen und zugleich Tausende von Entwicklern unterstützen
- Für Organisationen, die schnell Funktionen eines internen Entwicklerportals benötigen und die Einschränkungen einer kommerziellen Plattform samt Vendor Lock-in akzeptieren können, eine Evaluierung wert
48. Replit
- Eine Cloud-native kollaborative Entwicklungsplattform, die sofort verfügbare Entwicklungsumgebungen, Echtzeit-Coding und integrierte KI-Assistenz direkt im Browser bietet
- Vereint Editor, Runtime, Deployment und KI-Coding-Workflows in einer einzigen integrierten Plattform, sodass Entwickler ohne lokales Setup sofort mit dem Coden beginnen können
- Die KI-gestützte kollaborative IDE hilft sehr dabei, Reibung beim Onboarding zu verringern, und eignet sich gut für gemeinsames Prototyping im Team
- Auch für Trainingssessions, Wissensaustausch und Bootcamps sehr effektiv
- Manche sehen Replit vielleicht als Ort für KI-unterstützte Hobbyprojekte, aber die Umgebung ist leistungsfähig genug, um mit traditionellen lokalen IDEs zu konkurrieren, wodurch Iteration und Zusammenarbeit deutlich einfacher werden
49. SigNoz
- Eine Open-Source-Observability-Plattform mit nativer OpenTelemetry-Unterstützung, die Logs, Metriken und Traces integriert unterstützt
- Erfüllt APM- und Instrumentierungsanforderungen moderner Microservices- und verteilter Architekturen und vermeidet dabei Vendor Lock-in
- Nutzt ClickHouse als spaltenorientierte Standarddatenbank und bietet damit skalierbaren, hochperformanten und kosteneffizienten Speicher bei schnellen Abfragen, wodurch es sich als starke Self-Hosting-Alternative zu Plattformen wie Datadog positioniert
- Flexible Abfragen über PromQL und ClickHouse SQL sowie Unterstützung für Benachrichtigungen über mehrere Alerting-Kanäle
- In der Praxis hat sich gezeigt, dass SigNoz den Ressourcenverbrauch der Infrastruktur und die gesamten Observability-Kosten senkt, ohne die Performance zu beeinträchtigen
- Zwar ist auch ein gemanagter Cloud-Service verfügbar, doch für Organisationen, die die Kontrolle über Daten und Infrastruktur behalten möchten, sind die einsatzbereiten Docker-Images und Helm-Charts eine praktische Wahl
Assess
50. Agent Trace
- Von Cursor vorgeschlagene offene Spezifikation zur Standardisierung der Zuordnung von AI-generiertem Code
- Mit der zunehmenden Einführung von Coding-Agenten erweitert sich die Frage, wer Code geändert hat, über menschliche Entwickler hinaus auf von AI erzeugte Änderungen
- Bestehende Tools wie
git blamekönnen zwar zeigen, dass eine Codezeile geändert wurde, erfassen aber nicht, ob die Änderung von Menschen, AI oder beiden stammt - Agent Trace verfolgt einen herstellerneutralen Ansatz zur Definition, wie Codeänderungen nachverfolgt werden; zur Speicherung der Nachverfolgung macht es keine Vorgaben
- Kompatibel mit mehreren Versionsverwaltungssystemen, darunter Git, Mercurial und Jujutsu
- Die Spezifikation definiert Trace-Records mit Beitragendentypen wie human, AI, mixed und unknown sowie Beschreibungen der Herkunft jedes Beitrags
- Frühe Signale für eine Einführung sind die Unterstützung durch Tools wie Cline und OpenCode sowie Implementierungen wie Git AI
51. ClickStack
- OpenTelemetry-kompatible Open-Source-Observability-Plattform, die Logs, Traces, Metriken und Sessions in einem einzigen Hochleistungs-Datenspeicher auf Basis von ClickHouse zusammenführt
- Mit wachsender Infrastruktur und steigenden Observability-Kosten kämpfen viele Teams mit fragmentierten Telemetrie-Toolchains und teuren Vendor-Plattformen
- ClickStack nutzt den spaltenorientierten Datenspeicher von ClickHouse, um Subsekunden-Abfragen mit hoher Kardinalität über große Telemetriedatenmengen hinweg zu ermöglichen, und bietet damit eine einfachere und kosteneffizientere Grundlage für Observability
52. Coder
- Eine gute Alternative zu pixel-streamed development environments, die trennt, wo Code ausgeführt wird und wie Entwickler damit interagieren
- Statt eine vollständige Desktop-Oberfläche zu streamen, verbinden sich Entwickler über lokale IDEs wie VS Code oder über den Browser mit einer Remote-Umgebung und erhalten so eine reaktionsfreudigere Erfahrung ohne Einbußen bei der Nutzbarkeit
- Der Code läuft auf skalierbarer Remote-Infrastruktur, und Umgebungen werden als Code definiert und verwaltet, sodass Teams Entwicklungs-Setups standardisieren und das Onboarding neuer Entwickler vereinfachen können
- Erleichtert außerdem kontrollierten Zugriff auf interne Systeme und einen vereinfachten Zugriff für vorab genehmigte AI-Coding-Agenten
- Coder wird als Mittelweg zwischen lokaler Entwicklung und vollständig virtualisierten Desktops gesehen — mit zentraler Kontrolle und Governance ohne die Usability-Grenzen von pixel-streamed VDI
- Eine gute Option für Organisationen, die Remote- oder kontrollierte Ausführungsumgebungen benötigen, insbesondere dort, wo mehr Rechenleistung oder sicherer Zugriff erforderlich ist
- Die mit der Verwaltung solcher Umgebungen verbundenen operativen Overheads und Sicherheitsverantwortlichkeiten sollten jedoch bewertet werden
53. Databricks Agent Bricks
- Da agentenbasierte Ansätze zum Mainstream werden, entwickeln sich Datenplattformen dahin, solche Workloads nicht mehr als Zusatzmodul, sondern nativ zu unterstützen
- Databricks Agent Bricks bietet vorgefertigte, automatisch optimierte Komponenten für gängige AI-Muster wie Wissensassistenten und Datenanalysten
- Folgt einem deklarativen Ansatz — Entwickler definieren Ziele und Basisdaten, das Framework übernimmt Ausführung und Optimierung
- Durch vereinfachtes LLMOps und geringeren Aufwand für Data Curation können sich Teams stärker auf Geschäftsergebnisse statt auf Boilerplate konzentrieren
- Ein Team nutzte es zusammen mit Custom Agents zur Evaluierung und zum Aufbau einer komplexen RAG-Lösung für präklinische F&E
- Wenn bereits in das Databricks-Ökosystem investiert wurde und agentenbasierte Ansätze für gängige Use Cases wie Chatbots und Dokumentenextraktion untersucht werden, sollte eine Evaluierung erwogen werden
54. DuckLake
- Einheitliches Data-Lake- und Katalogformat, das Lakehouse-Architekturen vereinfacht, indem es Standard-SQL-Datenbanken für Katalog- und Metadatenmanagement verwendet
- Während traditionelle Open-Table-Formate wie Iceberg oder Delta Lake auf komplexe dateibasierte Metadatenstrukturen angewiesen sind, speichert DuckLake Metadaten in einer Katalogdatenbank wie SQLite, PostgreSQL oder DuckDB und persistiert Daten als Parquet-Dateien auf lokalen Datenträgern oder in S3-kompatiblen Objektspeichern
- Dieser hybride Ansatz verbessert Latenzen bei der Query-Planung und die Transaktionszuverlässigkeit bei gleichzeitigen Updates
- DuckDB fungiert über die Erweiterung
ducklakeals Query Engine und bietet eine vertraute SQL-Schnittstelle für Standard-DDL- und DML-Operationen - Behält Lakehouse-Eigenschaften wie Partitionierung bei, verzichtet jedoch auf Indizes sowie Primär- und Fremdschlüssel
- Mit Unterstützung für Time Travel, Schema Evolution und ACID-Compliance bietet es Teams, die einen unabhängigen Analytics-Stack anstreben, eine Option mit geringer Komplexität
- Noch in einem frühen Reifestadium, aber eine vielversprechende und leichtgewichtige Alternative zu traditionellen Lakehouse-Architekturen
- Gut geeignet für vereinfachte Datenumgebungen, die den operativen Overhead von Spark- oder Trino-basierten Ökosystemen vermeiden wollen
55. FalkorDB
- Redis-basierte Graphdatenbank mit Unterstützung für Cypher, geeignet für Teams, die Graph-Funktionalität wollen, ohne eine schwere Graph-Plattform einzuführen
- Eine praktische Option für Organisationen, die beziehungsreiche AI- und Anwendungs-Workloads aufbauen, bei denen geringe operative Reibung wichtig ist und ein serverbasierter Graph-Service gegenüber eingebetteter Speicherung bevorzugt wird
- Die Architektur ist vielversprechend und das Entwicklermodell zugänglich, aber vor einer breiten Einführung sollte das Produktionsverhalten von FalkorDB hinsichtlich Skalierung, Betriebstools und langfristiger Reife des Ökosystems validiert werden
56. Google Dialogflow CX
- Verwaltete Conversational-AI-Plattform von Google Cloud, die eine graphbasierte State Machine aus Flows und Pages mit generativen Fähigkeiten auf Basis von Vertex AI Gemini kombiniert
- Zuvor wurde bereits ihr Vorgänger Dialogflow im Radar verfolgt
- CX stellt eine erhebliche Neugestaltung dar und erhielt 2024 nach der Integration von Vertex-AI-Gemini-Modellen von Google besondere Aufmerksamkeit; eingeführt wurden Generative Playbooks für instruktionbasierte Agenten sowie Data Store RAG, das Antworten auf indexierten Inhalten grounded
- Wurde zum Aufbau eines Agenten für Natural-Language-Data-Discovery verwendet; wegen der Low-Code-Umgebung und der Generative Playbooks fiel die Wahl auf Dialogflow CX statt auf einen Custom-SDK-Ansatz
- Konfiguriert mit Few-Shot-Prompting zur Übersetzung von Natural-Language-Abfragen in SQL
- Teams, die auf Google Cloud aufbauen, stellen bei der Entwicklung von Natural-Language-Schnittstellen über strukturierten internen Daten eine schnellere Umsetzung im Vergleich zu Custom-Agent-Stacks fest
- Allerdings gibt es keine kostenlose Stufe, die tiefe Abhängigkeit von Google Cloud bringt erhebliche Vendor-Lock-in-Risiken mit sich, und der Aufwand für Context Engineering sollte eingeplant werden
57. MCP Apps
- Erste offizielle Erweiterung des Model Context Protocol, mit der MCP-Server interaktive HTML-Oberflächen zurückgeben können, die direkt in einer Konversation als Dashboards, Formulare oder Visualisierungen gerendert werden
- Gemeinsam von Anthropic, OpenAI und Open-Source-Mitwirkenden entwickelt; standardisiert wird ein
ui://-Ressourcenschema, mit dem Tools UI-Templates deklarieren, die in einer Sandbox-Iframe gerendert werden und bei fehlender UI-Unterstützung des Hosts elegant auf Text zurückfallen - Anders als AG-UI, das als separate Bibliotheksschicht arbeitet, verpackt MCP Apps die UI direkt im MCP-Server
- Durch das bidirektionale Design kann das Modell Benutzeraktionen beobachten, während die Oberfläche Echtzeitdaten und direkte Manipulation ermöglicht, die mit Text nicht umsetzbar wären
- Clients wie Claude, ChatGPT, VS Code und Goose haben bereits Support veröffentlicht
- Teams, die reichhaltigere Agent-Interaktionen erkunden, sollten prüfen, ob die zusätzliche Komplexität gegenüber reinen Textantworten für ihren Use Case gerechtfertigt ist
58. Monarch
- Open-Source-Framework für verteilte Programmierung, das die Einfachheit von PyTorch-Workloads auf einer einzelnen Maschine auf große GPU-Cluster überträgt
- Bietet eine Python-API zum Erzeugen entfernter Prozesse und Actors und gruppiert diese in einer mesh-Kollektion mit Unterstützung für Broadcast-Messaging
- Bietet Fehlertoleranz über einen Supervision Tree, bei dem sich Fehler in der Hierarchie nach oben ausbreiten und so saubere Fehlerbehandlung und granulare Wiederherstellung ermöglichen
- Unterstützt Point-to-Point-RDMA-Übertragungen für effiziente GPU-/CPU-Speicherbewegungen und bietet eine Abstraktion für verteilte Tensoren, mit der Actors mit über Prozesse verteilten Tensoren arbeiten können, während das imperative Programmiermodell erhalten bleibt
- Monarch ist auf einem performanten Rust-Backend aufgebaut
- Noch in einem frühen Entwicklungsstadium, aber die Abstraktion, die verteilte Tensoren wie lokale wirken lässt, ist so leistungsfähig, dass sie die Komplexität großskaligen verteilten AI-Trainings deutlich reduzieren könnte
59. Neutree
- Open-Source-Plattform zum Management und Serving von LLMs auf privater Infrastruktur, positioniert als Model-Service-Layer für Enterprise AI
- Bietet eine einheitliche Control Plane für das Management des Modell-Lifecycle, Inference Serving und Computing-Scheduling über heterogene Hardware hinweg, etwa Beschleuniger von NVIDIA, AMD und Intel
- Da Unternehmen von gehosteten APIs zu selbst gehosteten, gouvernierten Deployments wechseln, schließt Neutree eine klare Lücke — mit Multi-Tenancy, Zugriffskontrolle, Nutzungsabrechnung und Infrastrukturabstraktion als Enterprise-Funktionen für den Betrieb von LLM-Workloads
- Trennt Model Serving von der Applikationslogik, sodass Teams Modelle über Bare Metal, VMs und Container hinweg deployen, skalieren und routen können, ohne sich eng an einen bestimmten Cloud-Anbieter zu binden
- Ist jedoch noch relativ neu, daher sollte die Einführung mit Vorsicht erfolgen
- Ökosystem, operative Reife und Integrationsfähigkeit entwickeln sich im Vergleich zu etablierteren ML-Plattformen noch weiter
- Vielversprechend, aber am besten geeignet für Teams, die bereit sind, in die Bewertung und Mitgestaltung aufkommender Enterprise-AI-Infrastruktur zu investieren
60. OptScale
- Open-Source-Multi-Cloud-FinOps-Plattform zur Unterstützung AI-/ML-lastiger Workloads, bei denen GPU- und Experimentkosten schnell stark ansteigen können
- Sammelt Abrechnungs- und Nutzungsdaten aus Cloud-APIs und kombiniert Kosten-Transparenz, Optimierungsempfehlungen, Budget-Tracking und Anomalieerkennung in einem einzigen System mit richtlinienbasierten Alerts, abgestimmt auf Team- oder Business-Strukturen
- Im Vergleich zu OpenCost bietet OptScale Analysen auf Kubernetes-Ebene und deckt zugleich breitere FinOps-Anwendungsfälle außerhalb von Kubernetes ab
- Bietet mehr Kontrolle und weniger Vendor Lock-in als Enterprise-Suiten wie IBM Cloudability, CloudZero, CloudHealth, IBM Kubecost und Flexera One
- Der Trade-off sind höherer operativer Overhead, komplexere Deployments, Edge Cases bei Konnektoren und Bedenken hinsichtlich der Sicherheitshygiene von Container-Images
- Sollte nicht als Plug-and-Play-Produkt, sondern als Investition in Plattformkompetenz betrachtet werden
61. Rhesis
- Open-Source-Testplattform für LLMs und agentische Applikationen, mit der Teams erwartetes Verhalten in natürlicher Sprache definieren, adversariale Testszenarien erzeugen und Ergebnisse sowohl über UI als auch per SDK oder API auswerten können
- Während traditionelle Testansätze von deterministischem Verhalten ausgehen, scheitern AI-Systeme auf subtilere Weise — etwa durch Jailbreaks, Multi-Turn-Interaktionen, Policy-Verstöße oder kontextabhängige Edge Cases
- Eine nützliche Plattform für Teams, die mehr als einfache Prompt-Evaluierung brauchen
- Funktionen wie der Conversation Simulator, adversariales Testing, OpenTelemetry-basiertes Tracing und Self-Hosting per Docker sind ein praktischer Weg, Produkt-, Domänen- und Engineering-Teams in einen gemeinsamen Test-Workflow einzubinden
- Der wichtigste Vorteil ist eine verbesserte Validierung nichtdeterministischer Systeme vor der Produktion
- Zu berücksichtigen sind die üblichen Trade-offs wie Evaluierungskosten, die Grenzen von LLM-as-a-judge-Metriken und die Notwendigkeit klar definierter Anforderungen, bevor die Plattform Wert liefern kann
- Für Teams, die LLMs oder agentische Systeme bauen und über einfache Prompt-Checks hinaus kollaborative, wiederholbare Tests benötigen, eine Evaluierung wert
62. RunPod
- Wenn Unternehmen mehr Experimente für LLM-Training und Fine-Tuning durchführen, können Hyperscaler wie AWS und Google Cloud hohe Kosten und begrenzte Hardware-Verfügbarkeit mit sich bringen
- RunPod bietet eine kosteneffiziente Alternative für rechenintensive AI-Workloads
- Arbeitet als global verteilter GPU-Marktplatz und bietet On-Demand-Zugriff auf ein breites Spektrum an Hardware, von Enterprise-H100-Clustern bis zu RTX 4090 für Consumer, oft zu deutlich geringeren Kosten als bei traditionellen Cloud-Anbietern
- Eine praktische Option, die Teams prüfen sollten, wenn sie flexible, budgetfreundliche Infrastruktur für Entwicklung, Training und Deployment von AI-Modellen ohne langfristige Bindungen oder Vendor Lock-in benötigen
63. Sprites
- Stateful Sandbox-Umgebung von Fly.io, entwickelt für die isolierte Ausführung von AI-Coding-Agents
- Während die meisten Agent-Sandboxes ephemer sind, also für eine Aufgabe erstellt werden und wieder verschwinden, bietet Sprites persistente Linux-Umgebungen mit unbegrenzten Checkpoint- und Restore-Fähigkeiten
- Entwickler können Snapshots des gesamten Umgebungszustands erstellen, einschließlich installierter Abhängigkeiten, Runtime-Konfiguration und Änderungen am Dateisystem, und zurückrollen, wenn ein Agent vom Kurs abkommt
- Das geht über das hinaus, was sich allein mit Git wiederherstellen lässt, da Systemzustand erfasst wird, den Versionsverwaltung nicht nachverfolgt
- Da Teams Sandboxed Execution for Coding Agents zunehmend als sinnvollen Standard übernehmen, repräsentiert Sprites ein Ende des Spektrums — ein nicht ephemerer, zustandsbehafteter Ansatz, der die Einfachheit wegwerfbarer Container gegen reichhaltigere Wiederherstellungsoptionen eintauscht
- Teams, die Agent-Sandboxing evaluieren, sollten Sprites je nach Bedarf und Workflow zusammen mit ephemeren Alternativen wie Dev Containers in Betracht ziehen
64. torchforge
- PyTorch-native Reinforcement-Learning-Bibliothek, entwickelt für großskaliges Post-Training von Sprachmodellen
- Bietet Abstraktionen auf hoher Ebene, die algorithmische Logik von Infrastrukturbelangen trennen, und orchestriert Monarch für das Tuning, vLLM für Inferenz und torchtitan für verteiltes Training
- Dieser Ansatz ermöglicht es Forschern, komplexe Reinforcement-Learning-Workflows mit einer API ähnlich Pseudocode auszudrücken und Workloads über Tausende von GPUs zu skalieren, ohne Low-Level-Themen wie Ressourcensynchronisierung, Scheduling oder Fehlertoleranz selbst zu managen
- Indem das „Was“ (Algorithmusdesign) vom „Wie“ (verteilte Ausführung) getrennt wird, vereinfacht torchforge Experimente und Iteration in großskaligen Alignment-Systemen
- Ein nützlicher Schritt, um fortgeschrittene Post-Training-Techniken zugänglicher zu machen, doch Teams sollten Reifegrad und Eignung innerhalb ihrer bestehenden ML-Infrastruktur bewerten
65. torchtitan
- PyTorch-native Plattform für großskaliges Pre-Training generativer AI-Modelle, die eine saubere und modulare Referenzimplementierung für performantes verteiltes Training bietet
- Führt fortgeschrittene verteilte Primitiven in einem kohärenten System zusammen und unterstützt 4D-Parallelisierung aus Daten-, Tensor-, Pipeline- und Kontext-Parallelisierung (4D parallelism)
- Da das Training von Modellen in der Größenordnung von Llama 3.1 405B erhebliche Größenordnungen und Effizienz erfordert, bietet torchtitan eine praktische Grundlage für Aufbau und Betrieb großer Trainings-Workloads
- Das modulare Design erleichtert es Teams, Parallelisierungsstrategien zu erproben und weiterzuentwickeln, ohne die Production-Readiness zu verlieren
- Ein nützlicher Schritt zur Standardisierung des großskaligen Modelltrainings im PyTorch-Ökosystem, besonders geeignet für Teams, die ihre eigene Pre-Training-Infrastruktur aufbauen
[Tools]
Adopt
66. Axe-core
- Open-Source-Test-Tool zur Erkennung von Accessibility-Problemen auf Websites und anderen HTML-basierten Anwendungen
- Prüft Seiten auf die Einhaltung von Standards wie WCAG — einschließlich der Konformitätsstufen A, AA und AAA — und weist auf allgemeine Best Practices für Accessibility hin
- Seit dem ersten Erscheinen im Radar als Trial im Jahr 2021 haben mehrere Teams bei Clients Axe-core eingeführt
- Accessibility wird zunehmend zu einer unverzichtbaren Qualitätsanforderung; in Europa verpflichten Regulierungen wie der European Accessibility Act Organisationen dazu, die Anforderungen an die Accessibility digitaler Dienste zu erfüllen
- Passt gut in moderne Entwicklungs-Workflows, da automatisierte Checks in CI-Pipelines aktiviert werden können
- Hilft Teams, Regressionen zu vermeiden, Compliance aufrechtzuerhalten und frühzeitig Feedback während der Entwicklung zu erhalten, insbesondere um Accessibility als Teil der Feedback-Schleife bei breiter Einführung von AI-Unterstützung und agentischen Coding-Tools sicherzustellen
67. Claude Code
- Agentisches AI-Coding-Tool von Anthropic zur Planung und Ausführung komplexer mehrstufiger Workflows
- Teams innerhalb und außerhalb von Thoughtworks nutzen es routinemäßig für die Auslieferung von Produktionssoftware; es gilt weithin als Benchmark für Fähigkeiten und Usability und wurde deshalb nach Adopt verschoben
- Das CLI-Agent-Umfeld hat sich mit Tools wie OpenAIs Codex CLI, Googles Gemini CLI, OpenCode und pi schnell erweitert, doch Claude Code ist für viele Teams die bevorzugte Option
- Die Nutzung geht über das Schreiben von Code hinaus und umfasst die Ausführung breiter Workflows einschließlich Spezifikationen, Stories, Konfiguration, Infrastruktur, Dokumentation und in Markdown definierter Geschäftsprozesse
- Führt fortlaufend Funktionen ein, denen andere Tools folgen, etwa Skills, Subagents, Fernsteuerung und agentische Team-Workflows
- Einführende Teams brauchen disziplinierte Betriebspraktiken und Pairing; agentisches Coding verlagert den Entwickleraufwand von manueller Implementierung hin zur Spezifikation von Absicht, Constraints und Review-Grenzen
- Kann die Auslieferung beschleunigen, erhöht aber auch das Risiko von Sorglosigkeit gegenüber AI-generiertem Code, wodurch Systeme für Menschen und Agenten gleichermaßen schwerer zu warten und weiterzuentwickeln sind
- Das Interesse wächst an Context Engineering zur verlässlicheren Gestaltung agentischer Workflows (Themenbewusstsein, kontextbasierte Auswahl nach Scope) sowie an harness engineering als Umsetzungsansatz für curated shared instructions
68. Cursor
- Taucht zusammen mit Claude Code konsistent als Standardwahl von Delivery-Teams auf und ist einer der am breitesten eingeführten Coding-Agenten
- Zu einer umfassenden agentischen Umgebung mit Funktionen wie plan mode, hooks, subagents gereift
- Terminalbasierte Agenten sind ebenfalls beliebt, aber viele Entwickler stellen fest, dass die Beaufsichtigung von Agenten innerhalb der IDE eine reichhaltigere Erfahrung für das Überprüfen und Verfeinern von Plänen vor der Ausführung bietet
- Durch die Einführung des Agent Client Protocol wurde die Hürde für die große JetBrains-Nutzerbasis gesenkt, sodass die Fähigkeiten von Cursor in diesen IDEs zugänglich wurden
- Besonders wertvoll sind die Möglichkeit, einzelne Agentenschritte zu inspizieren, sowie die Fähigkeit, bei Abweichungen vom Plan auf frühere Schritte zurückzurollen
- Durch die Nutzung von Agent Skills können Teams Anweisungen wiederverwendbar paketieren und standardisieren, wie Agenten mit komplexen Codebases interagieren
- Die Produktivitätsgewinne sind klar, aber agentische Autonomie erfordert weiterhin strenge automatisierte Tests und menschliche Aufsicht, um subtile Regressionen zu erkennen
69. Kafbat UI
- Kostenlose Open-Source-Web-UI für das Monitoring und Management von Apache-Kafka-Clustern
- Besonders nützlich, wenn Teams beim täglichen Debugging schwer lesbare Payloads untersuchen müssen
- Teams stoßen beim Debugging verschlüsselter Nachrichten oft an Grenzen; die eingebaute und per Plugin erweiterbare SerDes-Unterstützung von Kafbat UI bietet einen praktischen Weg, Entschlüsselung oder benutzerdefiniertes Decoding anzuwenden, um Nachrichten wieder lesbar zu machen
- Bietet schnelleres Feedback als einmalige Debug-Skripte und eine bessere operative Erfahrung für Entwickler- und Support-Teams
- Empfohlen für Kafka-lastige Umgebungen, in denen sichere Nachrichteninspektion und effiziente Problemlösung Standardpraxis sein sollten
70. mise
- Hat sich seit der letzten Bewertung von einer performanten Alternative zu asdf zum Standard-Frontend für Entwicklungsumgebungen entwickelt
- Vereint drei fragmentierte Themenfelder — Tool- und Sprachversionsverwaltung, Verwaltung von Umgebungsvariablen und Task-Ausführung — in einem einzigen performanten, auf Rust basierenden Tool, konfiguriert über deklarative
mise.toml-Dateien - mise lässt sich leicht konfigurieren und funktioniert gut mit CI/CD-Pipelines
- Fügt durch die Integration mit Cosign und GitHub Artifact Attestations eine Supply-Chain-Sicherheits-Schicht hinzu, die bei anderen Versionsmanagern oft fehlt
- Empfohlener Standard für Teams, die die Einrichtung von Entwicklerumgebungen standardisieren wollen
- Besonders nützlich in mehrsprachigen Microservice-Umgebungen, wenn Codebases gleichzeitig neue Sprachversionen übernehmen
- Funktioniert auch mit bestehenden sprachspezifischen Tools, sodass Teams nicht alles auf einmal migrieren müssen
Trial
71. cargo-mutants
- Mutation-Testing-Tool für Rust, das hilft, über einfache Code-Coverage-Metriken hinauszugehen
- Injiziert automatisch kleine, absichtliche Bugs wie den Austausch von Operatoren oder die Rückgabe von Default-Werten, um zu prüfen, ob bestehende Tests Regressionen tatsächlich erkennen
- Der Zero-Config-Ansatz ist besonders effektiv; anders als frühere Tools sind keine Änderungen am Source-Tree erforderlich
- Bietet für Teams, die neu in Rust sind, eine nützliche Feedback-Schleife, um fehlende Edge Cases zu identifizieren und die Zuverlässigkeit von Unit- und Integrationstests zu verbessern
- cargo-mutants ist eine spezialisierte Implementierung von Mutation Testing, das auch in anderen Ökosystemen erprobt wird
- Der Hauptaufwand liegt in längeren Testlaufzeiten, da jeder Mutant einen inkrementellen Build erfordert
- Zur Beherrschung empfiehlt es sich, während der lokalen Entwicklung bestimmte Module gezielt zu testen oder in CI die vollständige Suite asynchron auszuführen
- Gelegentlich kann es nötig sein, logisch äquivalente Mutanten herauszufiltern, aber die dadurch gewonnene höhere Testzuverlässigkeit überwiegt das zusätzliche Rauschen
72. Claude Code plugin marketplace
- Zuvor war das Teilen von benutzerdefinierten Befehlen, spezialisierten Agenten, MCP-Servern und Skills ein manueller Prozess, bei dem Entwickler Anweisungen aus Confluence oder anderen externen Quellen kopieren und einfügen mussten
- Dadurch kam es häufig zu Versionsdrift, und Teammitglieder nutzten veraltete Projektanweisungen
- Teams nutzen den Claude Code plugin marketplace, um ein Git-basiertes Bereitstellungsmodell zu verwenden und gemeinsame Befehle, Prompts und Skills zu verteilen
- Durch das Hosting interner Team-Marktplätze auf GitHub oder ähnlichen Plattformen können Organisationen diese Artefakte sicherer und konsistenter bereitstellen
- Entwickler können KI-basierte Workflows und Tools über die CLI direkt mit ihrer lokalen Umgebung synchronisieren
- Andere Coding-Agenten wie Cursor unterstützen ebenfalls Team-plugin marketplace und ermöglichen damit einen schlankeren und stärker gesteuerten Weg, solche Artefakte zu teilen
73. Dev Containers
- Eine standardisierte Methode zur Definition reproduzierbarer containerisierter Entwicklungsumgebungen mithilfe der Konfigurationsdatei
devcontainer.json - Ursprünglich dafür konzipiert, Teams konsistente Entwicklungs-Setups bereitzustellen, wurde ein attraktiver neuer Anwendungsfall als Sandbox-Ausführungsumgebung für Coding-Agenten entdeckt
- Beim Ausführen von AI-Coding-Agenten in einem Dev Container sind diese vom Host-Dateisystem, von Zugangsdaten und vom Netzwerk isoliert, sodass Teams Agenten weitreichende Berechtigungen erteilen können, ohne die Host-Maschine zu gefährden
- Die offene Spezifikation wird nativ von VS Code und VS-Code-basierten Tools wie Cursor unterstützt
- DevPod erweitert die devcontainer-Unterstützung per SSH auf beliebige Editor- oder Terminal-Workflows
- Die Einführung eines ephemeren Standardansatzes (d. h. der Container wird bei jedem Start aus der Konfiguration neu aufgebaut) bietet eine saubere Sicherheitsgrenze auf Kosten der Neuinstallation von Tools und Abhängigkeiten
- Für Teams, die persistenten Zustand oder Checkpoint- und Restore-Fähigkeiten benötigen, gibt es andere Ansätze wie Sprites
- Neben dem Agent-Sandboxing bietet dies auch Vorteile für die Supply-Chain-Sicherheit, da die Toolchain in deklarativer Konfiguration definiert wird und so die Exposition gegenüber kompromittierten Paketen und unerwarteten Abhängigkeiten verringert
74. Figma Make
- Zuvor ein Blip zu self-serve UI prototyping with GenAI; diese Technik wird inzwischen von Entwicklungsteams einschließlich Produktmanagern und Designern breit eingesetzt, um hochwertige Prototypen zu erstellen, die für Nutzertests geeignet sind
- Figma Make ist eine leistungsstarke Option, die echte Komponenten und Ebenen aus dem Designsystem nutzt, sodass die Ergebnisse der Produktionsanwendung stark ähneln
- Verwendet ein angepasstes KI-Modell, das auf hochwertigen Designmustern trainiert wurde
- Teams verwenden es, um neue Design-Screens zu erstellen, bestehende zu verbessern und teilbare Prototypen für schnelles Nutzerfeedback zu bauen
75. OpenAI Codex
- Hat sich zu einem eigenständigen agentischen Coding-Tool entwickelt, das über eine macOS-App und CLI verfügbar ist
- Entwickelt für die Delegation autonomer Arbeit — nach einem Prompt plant, implementiert und iteriert es mit minimalem Eingriff über mehrere Dateien hinweg
- Effektiv als Tool für schnelle Entwürfe, besonders nützlich bei Greenfield-Arbeit und wiederholten Implementierungsaufgaben
- Allerdings macht OpenAI Codex automatisierte Tests und menschliches Review erforderlich, da es dazu neigt, logisch saubere, aber funktional veraltete Bibliotheksmuster vorzuschlagen
- Wie bei anderen agentischen Tools in diesem Radar ist das Risiko einer schleichenden Anhäufung subtiler technischer Schulden real und proportional zum Grad der Autonomie, den Teams gewähren
76. Typst
- Ein Markup-basiertes Satzsystem, das sich als moderner Nachfolger von LaTeX für die programmgesteuerte Dokumentenerzeugung etabliert hat
- Kombiniert hochwertige Typografie mit einfacherer Syntax und bietet eine bemerkenswert schnelle Compile-Pipeline, die selbst sehr große Dokumente in einem Bruchteil der Zeit traditioneller LaTeX-Toolchains kompiliert
- Typst bietet klarere Fehlermeldungen und integrierte Skripting-Funktionen wie Bedingungen und Schleifen
- Kann strukturierte Daten aus JSON oder CSV laden und ist damit gut für automatisierte Dokumentenerzeugung geeignet
- Teams nutzen es, um Auszüge und Berichte für Bank- und Finanzdienstleistungskunden zu erzeugen, bei denen große Mengen in konsistentem Format erstellt werden müssen
- Der Open-Source-Compiler kann selbst gehostet werden, und das wachsende Ökosystem umfasst von der Community beigesteuerte Pakete
- Es ist zugänglicher als LaTeX und liefert dabei vergleichbare typografische Qualität
Assess
77. Agent Scan
- Ein Security-Scanner für Agenten-Ökosysteme, der lokale Komponenten einschließlich MCP-Servern und Skills entdeckt und Risiken wie Prompt Injection, Tool-Vergiftung, toxic flow, hartkodierte Secrets und unsichere Verarbeitung von Zugangsdaten kennzeichnet
- Schließt eine entstehende Lücke bei der Transparenz der Agenten-Supply-Chain und bietet eine praktikable Methode, die schnell wachsende Agenten-Oberfläche zu inventarisieren und zu testen
- Die Einführung sollte jedoch bewusst erfolgen — das Scanning erfordert, Komponenten-Metadaten mit der Snyk API zu teilen, und Signalqualität sowie False-Positive-Rate müssen in der jeweiligen Umgebung validiert werden
- Es ist wichtig, den operativen Nutzen zu bestätigen, bevor Teams Agent Scan zu einem verpflichtenden Teil der Delivery-Gates machen
78. Beads
- Ein Git-basierter Issue-Tracker, der als persistente Memory-Schicht für Coding-Agenten konzipiert wurde
- Statt sich auf temporäre Markdown-Pläne zu verlassen, bietet er Agenten einen branch-freundlichen strukturierten Aufgabengraphen für Blocker-Beziehungen, das Erkennen vorbereitender Arbeit und die Koordination langfristiger Aufgaben über Sitzungen hinweg
- Beads ist auf Dolt aufgebaut, einer SQL-Datenbank mit integrierter Versionsverwaltung, die Branches, Merges, Diffs und Tabellenkopien ähnlich wie ein Git-Repository unterstützt
- Repräsentiert eine neue Kategorie agentennativer Projekt-Memory- und Task-Tracking-Tools
- Weitere frühe Projekte in diesem Bereich sind ticket und tracer
- Im Unterschied zu traditionellen Ticketing-Systemen wie GitHub Issues und Jira ermöglicht es neue Workflows für autonome Multi-Agenten-Ausführung, einschließlich der Zuweisung von Arbeit durch Agenten untereinander
79. Bloom
- Ein Anthropic-Tool für KI-Sicherheitsforscher zur Bewertung von LLM-Verhalten
- Erkennt Verhaltensweisen wie sycophancy (Schmeichelei) und self-preservation (Selbsterhaltung)
- Im Vergleich zu statischen Benchmarks verwendet es Seed-Konfigurationen zur Definition von Zielverhalten und Bewertungsparametern, erzeugt dann dynamisch vielfältige Testdialoge und bewertet anschließend die Ergebnisse
- Dieser Ansatz zur automatisierten Verhaltensbewertung ist essenziell, um mit der Geschwindigkeit von Modellveröffentlichungen Schritt zu halten, und ermöglicht es externen Forschungsteams, Bewertungen durchzuführen
- Petri dient als Begleitwerkzeug, um zu identifizieren, welche Verhaltensweisen in einem gegebenen Modell auftreten, während Bloom identifiziert, in welchen Szenarien und wie häufig solche Verhaltensweisen auftreten; zusammen bilden sie eine vollständigere Evaluierungs-Suite
- Eine Sorge bei Bloom ist, dass es ein Lehrer- (oder Bewerter-)Modell zur Bewertung eines gegebenen Schülermodells benötigt; das Lehrermodell kann blinde Flecken und Verzerrungen haben, sodass sich durch den Einsatz mehrerer Bewerter die Verzerrung der Ergebnisse verringern lässt
- Für KI-Sicherheitsteams lohnt sich eine Evaluierung als Ergänzung zu statischen Benchmarks für die Bewertung neu entstehender Modellverhaltensweisen
80. CDK Terrain
- Ein Community-Fork des Cloud Development Kit for Terraform(CDKTF), das HashiCorp im Dezember 2025 eingestellt und archiviert hat
- CDK Terrain (CDKTN) übernimmt dort, wo CDKTF aufgehört hat; Teams können ihre Infrastruktur in TypeScript, Python und Go definieren und über Terraform oder OpenTofu bereitstellen
- Für Teams, die bereits in CDKTF investiert haben, bietet es einen Migrationspfad, der bestehenden Code und Workflows erhält, statt einen erzwungenen Wechsel zu HCL oder Pulumi
- Das Projekt veröffentlicht monatlich Releases und hat OpenTofu-Unterstützung als Ziel erster Klasse hinzugefügt
- Allerdings bergen von der Community gepflegte Forks aufgegebener Vendor-Projekte inhärente Risiken beim langfristigen Support, und der CDKTF-Ansatz konnte keine breite Verbreitung erreichen
- HashiCorp nannte bei der Einstellung fehlende Produkt-Markt-Passung
- Teams, die derzeit CDKTF nutzen, sollten CDK Terrain als Kontinuitätsoption bewerten und zugleich abwägen, ob jetzt der richtige Zeitpunkt für eine Migration zu einem breiter unterstützten Ansatz ist
81. CodeScene
- 2017 war social code analysis bereits ein Blip; mit der zunehmenden Einführung von Coding-Agenten gibt es erneut Interesse an Tools wie CodeScene
- Ein verhaltensorientiertes Codeanalyse-Tool, das Metriken zur Codekomplexität mit der Versionshistorie kombiniert, um technische Schulden zu identifizieren
- Im Unterschied zur traditionellen statischen Analyse hebt es „Hotspots“ hervor und hilft Teams dadurch, Refactorings nach tatsächlicher Entwicklungsaktivität und Business-Impact zu priorisieren
- Bietet inzwischen auch Guidance für AI-freundliches Code-Design
- Teams stellen fest, dass Codequalität noch wichtiger wird, weil Coding-Agenten Änderungen viel schneller als menschliche Entwickler vornehmen können
- Die CodeHealth-Metrik von CodeScene liefert nützliche Guardrails, indem sie Bereiche identifiziert, die für ein sicheres Refactoring durch LLMs ohne Halluzinationsrisiko zu komplex sind
- Als Guardrail für die Einführung von Coding-Agenten empfehlenswert, da die CodeHealth-Metrik sichere Refactoring-Ziele hervorhebt und auf Bereiche hinweist, die vor dem Agenteneinsatz verbessert werden sollten
82. ConfIT
- Eine Bibliothek, die Integrations- und komponentenorientierte API-Tests deklarativ in JSON definiert, statt sie imperativ als Code zu schreiben
- Das Interesse an diesem Ansatz wächst, weil große Test-Suites oft Boilerplate rund um HTTP-Clients, Request-Konfiguration und Assertions ansammeln
- AI-unterstützte Entwicklung verstärkt diesen Trend, da strukturierte Testdefinitionen leichter zu generieren und zu pflegen sind als ausführlicher prozeduraler Code
- Basierend auf Kundenerfahrung und Evaluationen reduziert die deklarative Schicht Duplikate zwischen Komponenten- und Integrationstests, verbessert die Lesbarkeit und erleichtert es Teams, die Testintention im Lauf der Zeit weiterzuentwickeln
- ConfIT selbst hat jedoch nur begrenzte Community-Akzeptanz und ein kleines Ökosystem, weshalb eine breite Empfehlung trotz dieser Vorteile schwierig ist
- Für .NET-Teams, die spezifikationsgetriebene API-Tests erkunden, eine prüfenswerte Option — allerdings sollten langfristige Wartbarkeit, Ökosystem-Fit und operative Trade-offs validiert werden
83. Entire CLI
- Hängt sich in Git-Workflows ein und erfasst Sitzungen von AI-Coding-Agenten — Transkripte, Prompts, Tool-Aufrufe, berührte Dateien und Token-Nutzung — als durchsuchbare Metadaten, die in einem dedizierten Repository-Branch gespeichert werden
- Unterstützt Claude Code, Gemini CLI, OpenCode, Cursor, Factory AI Droid und GitHub Copilot CLI
- Da AI-Agenten zu den wichtigsten Beiträgern in Codebasen werden, stehen Teams vor einer wachsenden Lücke zwischen dem, was Git nachverfolgt, und dem, was während Coding-Sessions tatsächlich passiert
- Entire CLI erzeugt einen Audit-Trail der Agentenaktivität, indem es die komplette Session zusammen mit Commits aufzeichnet, ohne die Historie des Main-Branch zu verschmutzen
- Ein Checkpoint-System ermöglicht zudem praktische Wiederherstellung: Teams können bei Fehlverhalten von Agenten auf einen bekannten guten Zustand zurücksetzen und von jedem Checkpoint aus fortsetzen
- Das Tool ist noch sehr neu und das Ökosystem für die Nachverfolgbarkeit von Agentensitzungen bildet sich erst heraus, aber für Teams mit Compliance- oder Audit-Anforderungen rund um AI-generierten Code ist eine Git-native Session-Erfassung ein natürlicher Fit
84. Git AI
- Eine Open-Source-Git-Erweiterung zum Nachverfolgen von AI-generiertem Code, die jede von AI geschriebene Zeile mit dem erzeugenden Agenten, Modell und Prompt verknüpft
- Git AI nutzt Checkpoints und Hooks, um inkrementelle Codeänderungen zwischen Beginn und Ende eines Commits nachzuverfolgen
- Jeder Checkpoint enthält den Diff zwischen dem aktuellen Zustand und dem vorherigen Checkpoint und ist als von AI oder von Menschen geschrieben markiert
- Dieser Ansatz ist genauer als Ansätze, die sich nur darauf konzentrieren, Codezeilen zum Zeitpunkt ihrer Einfügung zu zählen
- Verwendet einen offenen Standard auf Basis von Git Notes zur Nachverfolgung AI-generierten Codes
- Obwohl das unterstützende Agenten-Ökosystem noch reift, ist es für Teams, die in agentischen Workflows langfristige Verantwortlichkeit und Wartbarkeit erhalten wollen, eine prüfenswerte Option
- Menschen und AI-Agenten können über den
/ask-Skill auf archivierte Agentensitzungen verweisen und so die ursprüngliche Absicht und Architekturentscheidungen hinter bestimmten Codeblöcken abfragen
85. Google Antigravity
- Ein eigenständiger VS Code-Fork, aufgebaut auf von Windsurf lizenzierter Technologie, der im November 2025 zusammen mit Gemini 3 als Public Preview veröffentlicht wurde
- Ordnet die IDE rund um Multi-Agent-Orchestrierung neu: Ein Agent Manager führt mehrere Agenten parallel über Aufgaben hinweg aus, ein eingebauter Chromium-Browser lässt Agenten direkt mit Live-UIs interagieren, und ein Skill-System speichert wiederverwendbare Agentenanweisungen im Repository
- Der Agent Manager fungiert stärker als „Mission Control“-Dashboard als als standardmäßige Chat-Sidebar und markiert einen grundlegenden Wandel der Entwicklerrolle — weg vom zeilenweisen Schreiben von Code hin zur Orchestrierung mehrerer autonomer Workstreams
- Bei Bedarf können Entwickler für human-in-the-loop-(HITL)-Kontrolle weiterhin in den Editor eingreifen
- Google Antigravity integriert sich über das Model Context Protocol mit Google Cloud und Firebase und unterstützt die Agentenentwicklung mit dem Agent Development Kit
- Befindet sich weiterhin in Public Preview, ohne GA-Termin, und Sicherheitslage sowie Enterprise-Readiness entwickeln sich noch weiter
- Das Multi-Agent-Ausführungsmodell und der autonome Browser-Zugriff signalisieren die Richtung für agentische IDEs
86. Google Mainframe Assessment Tool
- unterstützt Organisationen beim Reverse Engineering von Anwendungen, die auf Mainframes laufen, und bei der Analyse des gesamten Portfolios oder einzelner Systeme
- stützt sich im Kern auf deterministische Sprachparser, um Aufrufabläufe und Datenabhängigkeiten über die gesamte Codebasis hinweg zu erfassen und eine strukturelle Sicht darauf zu erzeugen, wie Anwendungen miteinander interagieren
- darauf aufbauend bieten GenAI-Funktionen Zusammenfassungen, Dokumentation, Testfallgenerierung und Modernisierungsvorschläge
- dieser Ansatz entspricht einem breiteren Muster des Verständnisses von Legacy-Codebasen mit GenAI, bei dem starke Einblicke in das System die Grundlage für einen effektiven Einsatz von AI bilden
- Google Mainframe Assessment Tool unterstützt noch nicht alle wichtigen Mainframe-Technologie-Stacks, entwickelt sich aber schnell weiter
- Teams haben festgestellt, dass es bei Kundenprojekten mit Fokus auf Mainframe-Anwendungserkennung und -modernisierung hilfreich ist
87. OpenCode
- entwickelt sich schnell zu einem der herausragendsten Open-Source-Coding-Agenten mit einer starken Terminal-First-Erfahrung
- eine zentrale Stärke ist die Modellflexibilität — Unterstützung für gehostete Frontier-Modelle, selbst gehostete Endpunkte und lokale Modelle
- macht OpenCode attraktiv für Kostenkontrolle, Anpassung und eingeschränkte Umgebungen einschließlich Air-Gap-Setups
- bedeutet, dass Nutzer bei Abonnements oder API-Nutzung ausdrücklich auf Lizenzen und Anbieterbedingungen achten müssen
- das Erweiterungsmodell von OpenCode ist ein weiterer wichtiger Teil seiner Attraktivität, mit Unterstützung sowohl für Plugins als auch für MCP-Integrationen für teambezogene Workflows, Tools und Guardrails
- viele Nutzer verwenden Oh My OpenCode, ein optionales, aber beliebtes Harness mit stärker vorgegebenem Ansatz, koordinierten Agenten-Teams und umfassenderen Orchestrierungsmustern sowie einer batteries-included Konfiguration
88. OpenSpec
- mit der Weiterentwicklung der Fähigkeiten von AI-Coding-Agenten stehen Entwickler zunehmend vor Herausforderungen bei Vorhersehbarkeit und Wartbarkeit, wenn Anforderungen und Kontext nur in flüchtigen Chat-Verläufen existieren
- um das zu adressieren, entstehen spec-driven-development(SDD)-Tools
- OpenSpec ist ein Open-Source-SDD-Framework, das eine leichtgewichtige Spezifikationsschicht einführt, die sicherstellt, dass menschliche Entwickler und AI-Agenten darauf abgestimmt sind, was gebaut werden soll, bevor Code generiert wird
- ein Unterscheidungsmerkmal ist der flüssige und minimale Workflow, oft auf drei Schritte reduziert — propose → apply → archive
- viele SDD-Frameworks (GitHub Spec Kit usw.) oder Agentic-Skills-Workflows (Superpowers usw.) eignen sich besser für Greenfield-Projekte als für Brownfield
- statt auf eine vollständige vorgelagerte Definition von Spezifikationen zu setzen, ist der Fokus auf spec deltas besonders gut und für bestehende Systeme gut geeignet
- im Unterschied zu schwergewichtigeren Alternativen, die strengere Workflows erzwingen (BMAD usw.) oder vendorspezifische IDE-Integrationen erfordern (Kiro usw.), ist es iterativ und tool-neutral
- ein entwicklerfreundliches Framework, das für Teams eine Bewertung wert ist, die Struktur und Vorhersehbarkeit in AI-unterstützte Entwicklung bringen wollen, ohne einen schweren Prozess einzuführen
- zugleich wird empfohlen, dass Teams mit stärker werdenden Modellen und Coding-Agenten native Fähigkeiten beobachten und erneut prüfen sowie die Notwendigkeit von SDD-Tools neu bewerten
89. PageIndex
- ein Tool zum Aufbau eines hierarchischen Indexes von Dokumenten für vektorlose, auf Reasoning basierende RAG-Pipelines statt der Abhängigkeit von traditioneller embedding-basierter Suche
- während das Zerlegen von Dokumenten in Vektoren zu Strukturverlust führen und die Sichtbarkeit darauf einschränken kann, warum Ergebnisse gefunden wurden, erstellt PageIndex einen Inhaltsverzeichnis-Index, den ein LLM schrittweise durchläuft, um relevante Inhalte zu finden
- ähnlich wie Menschen Überschriften scannen und dann in bestimmte Abschnitte hineinzoomen, erzeugt es eine explizite Reasoning-Spur, die erklärt, warum bestimmte Abschnitte ausgewählt wurden
- funktioniert gut bei Dokumenten, deren Bedeutung stark stärker von Struktur als von Semantik abhängt, z. B. Finanzberichte mit numerischen Daten, juristische Dokumente mit Querverweis-Klauseln oder komplexe klinische bzw. wissenschaftliche Dokumente
- bringt jedoch Trade-offs mit sich: Da LLM-Reasoning Teil des Suchprozesses ist, kann es insbesondere bei großen Dokumenten erhebliche Latenz und Kosten verursachen
90. Pencil
- ein Design-Canvas-Tool, das sich in IDEs und Coding-Agenten wie Cursor und Claude Code integriert
- im Gegensatz zu Figma, das derzeit nur Lesezugriff bietet, führt Pencil einen bidirektionalen lokalen MCP-Server aus und bietet damit sowohl Lese- als auch Schreibzugriff für die direkte Bearbeitung des Canvas
- wie Tools wie Figma Make und Builder.io bietet es auch Design-to-Code-Funktionen, jedoch mit stärker entwicklerzentriertem Ansatz — Designdateien werden in einem offenen JSON-Format namens
.penim Repository gespeichert, sodass Design-Assets gemeinsam mit Code versioniert werden können - hilft durch die Integration in entwicklervertraute Tools dabei, die Lücke beim Design-Development-Handover zu schließen
- für große und komplexe Design-Systeme bleibt Figma dennoch der kollaborative Standard über Rollen hinweg
- für Teams ohne dedizierte Designer oder Teams mit Entwicklern mit starken Design-Skills aber eine Überlegung wert
91. Pi
- ein in TypeScript geschriebener minimalistischer Open-Source-Terminal-Coding-Agent
- eine attraktive Option für Tüftler und Experimentierende statt eines Mainstream-Enterprise-Defaults
- Pi ist ein stärker anpassbares Barebones-Harness als vollwertige Agenten wie OpenCode
- leichter anzupassen als der Aufbau neuer Agenten mit agentischen Frameworks wie ADK, LangGraph oder Mastra
- trotz starker Dynamik und aktiver Releases ist das Projekt noch in einem frühen Stadium und wird hauptsächlich von den Maintainers getragen
- pi sollte als techniknaher Baustein für Engineers und nicht als Enterprise-Plattform mit vollständigen Guardrails und Support betrachtet werden
92. Qwen 3 TTS
- ein Open-Source-Text-to-Speech-Modell, das den Qualitätsabstand zu kommerziellen Produkten deutlich verringert und gleichzeitig mehr Entwicklerkontrolle bietet als viele kostenpflichtige APIs
- unterstützt mehrere Sprachen, ermöglicht Voice Cloning aus kurzen Samples (etwa 10–15 Sekunden) und erlaubt Fine-Tuning nach dem Training für domänen- oder charakterspezifische Stimmen
- eine attraktive Option für Teams, die markenspezifische Stimmen oder On-Prem-Kontrolle benötigen
- Qwen 3 TTS wurde allerdings erst vor Kurzem veröffentlicht; Teams sollten vor dem Einsatz in produktionskritischen Sprach-Workloads Stabilität, Sicherheitskontrollen, Eignung der Lizenz und operative Reife validieren
93. SGLang
- Ein hochperformantes Serving-Framework, das durch die gemeinsame Entwicklung von Frontend-Programmiersprache und Backend-Runtime den Rechen-Overhead bei LLM-Inferenz reduziert
- Führt RadixAttention ein, eine Speicherverwaltungstechnik, die KV-States (Key-Value) über Prompts hinweg aggressiv cached und wiederverwendet
- Dieser Ansatz liefert erhebliche Performance-Verbesserungen gegenüber Standard-Serving-Engines wie vLLM in Szenarien mit hoher Prefix-Overlap
- Für Teams, die komplexe autonome Agenten bauen, auf lange System-Prompts angewiesen sind oder Shared Examples für umfangreiches Few-Shot-Prompting nutzen, kann SGLang bei Latenz und Effizienz deutliche Vorteile bringen
94. ty
- Da Python insbesondere im Bereich AI und Data Science immer beliebter wird, wird ein starkes Typsystem zunehmend wertvoller
- Ty ist ein in Rust geschriebener extrem schneller Python-Type-Checker und Language Server
- Teil des Astral-Ökosystems, zu dem auch Tools wie uv und ruff gehören
- Liefert schnelles Feedback und integriert sich gut in gängige Editoren wie Visual Studio Code
- Der Einsatz von ty zusammen mit anderen Astral-Tools kann die Python-Entwicklung in großen Organisationen vereinfachen
- Da agentisches Coding immer verbreiteter wird, hilft ein deterministischer Type-Checker mit schnellen Feedback-Loops, Fehler früh zu erkennen und den Aufwand für Code Reviews bei einfachen Fehlern zu reduzieren
95. Warp
- Seit der letzten Aufnahme in den Radar hat sich Warp weit über die Beschreibung als „Terminal mit AI-Funktionen“ hinaus entwickelt
- Die Kernstärken — blockbasierte Befehlsausgabe, AI-gestützte Vorschläge und Notebook-Funktionen — bleiben erhalten, während es sich in Bereiche ausdehnt, die traditionell von IDEs besetzt waren
- Es kann nun Markdown rendern, Dateibäume anzeigen und Dateien direkt im Terminal öffnen und unterstützt vollständige agentische Entwicklungs-Workflows über mehrere Panels hinweg — in einem Panel ein Coding-Agent wie Claude Code, in einem anderen eine Shell und in einem dritten die Dateiansicht des Workspace
- Ein beobachteter praktischer Vorteil ist, dass Warp die hochvolumigen Textausgaben moderner Coding-Agenten besser verarbeitet als herkömmliche Terminals, bei denen Rendering-Geschwindigkeit und Lesbarkeit zum Flaschenhals werden können
- Es wurde auch ein eingebauter Coding-Assistent ergänzt, den das Team jedoch nicht umfassend evaluiert hat
- Warp hat kürzlich außerdem Oz veröffentlicht, eine Orchestrierungsplattform für Cloud-Agenten mit Integration ins Terminal, dieser Blip konzentriert sich jedoch auf das Terminal selbst
- Für Teams, die ein leichtgewichtiges, kombinierbares Terminal bevorzugen und eigene AI-Tools mitbringen wollen, ist Ghostty womöglich passender — im Gegensatz zu Warps Batteries-included-Philosophie ein bewusst minimalistischer Ansatz
- Das Tempo neuer Funktionen und Warps breitere Plattformambitionen machen einen Wechsel zu Trial verfrüht, bis das Produkt stabilisiert ist und mehr Praxiserfahrung mit den neuen Fähigkeiten vorliegt
96. WuppieFuzz
- Ein Open-Source-Fuzzer für REST-APIs, der OpenAPI-Definitionen nutzt, um gültige Requests zu erzeugen, diese zur Erkundung von Edge Cases mutiert und sich auf serverseitiges Coverage-Feedback stützt, um Inputs zu priorisieren, die neue Ausführungspfade erreichen
- Die meisten Teams verlassen sich noch immer auf beispielbasierte Integrations- und Contract-Tests und erkunden unerwartete Inputs, ungewöhnliche Request-Sequenzen und fehlerlastige Pfade kaum, obwohl APIs oft die zentrale Integrationsoberfläche moderner Systeme sind
- Basierend auf einer ersten Bewertung wirkt WuppieFuzz wie eine vielversprechende Ergänzung zu solchen Tests — es kann Issues aufdecken wie unbehandelte Exceptions, Lücken bei der Autorisierung, Lecks sensibler Daten, serverseitige Fehler und Logikfehler, die Script-Tests übersehen könnten
- Teams müssen jedoch weiterhin bewerten, wie es in CI passt, welchen Runtime-Overhead es mit sich bringt und wie nützlich die Ergebnisse in der Praxis tatsächlich sind
- Deshalb für Teams, die kritische oder extern exponierte REST-APIs entwickeln, eine lohnende Evaluierung
Caution
97. OpenClaw
- Ein Open-Source-Projekt in der vom Autor so bezeichneten Kategorie „hyper-personal AI assistant“
- Nutzer hosten ihre eigene Instanz, halten sie über Messaging-Kanäle wie WhatsApp oder iMessage dauerhaft verfügbar und lassen über verbundene Tools Aufgaben ausführen
- Mit dauerhaftem Gedächtnis für Gespräche, Vorlieben und Gewohnheiten entsteht eine persistente persönliche Erfahrung, die sich deutlich anders anfühlt als ein GenAI-Chat-Interface oder ein typischer Coding-Agent
- Das Modell ist offensichtlich attraktiv und hat bereits Nachahmer wie Claude Cowork inspiriert
- OpenClaw wurde in Caution eingeordnet, weil das Modell erhebliche Security-Trade-offs erfordert
- Je mehr Zugriff auf Kalender, E-Mails, Dateien und Kommunikation gewährt wird, desto nützlicher wird es — und desto stärker konzentrieren sich Berechtigungen genau in dem Muster, vor dem toxic flow analysis for AI warnt
- Dieses Risiko ist nicht einzigartig für OpenClaw, sondern gilt auch für andere Implementierungen desselben Musters, einschließlich etablierter Vendor-Produkte
- Für Teams, die OpenClaw in Betracht ziehen, wurden Hinweise und eine Sandbox-Ausführungsumgebung veröffentlicht; Alternativen wie NanoClaw oder ZeroClaw können den Blast Radius verringern
- Das Muster des hyper-personal assistant selbst strebt jedoch nach umfassenden Berechtigungen und bleibt mit hohem Risiko verbunden
[Languages and Frameworks]
Adopt
98. Apache Iceberg
- Ein offenes Tabellenformat für große analytische Datensätze, das definiert, wie Datendateien, Metadaten und Schemata in Speichersystemen wie S3 organisiert werden
- Hat sich in den vergangenen Jahren stark weiterentwickelt und sich als grundlegender Baustein technologieunabhängiger Lakehouse-Architekturen etabliert
- Unterstützt von allen großen Datenplattform-Anbietern, darunter AWS (Athena, EMR, Redshift), Snowflake, Databricks und Google BigQuery, und damit eine starke Option zur Vermeidung von Vendor Lock-in
- Was Apache Iceberg von anderen offenen Tabellenformaten unterscheidet, ist die Offenheit bei Funktionen und Governance, im Gegensatz zu Alternativen, deren Fähigkeiten von einem einzelnen Vendor eingeschränkt oder kontrolliert werden
- In Bezug auf Zuverlässigkeit bietet das Snapshot-basierte Design serialisierbare Isolation, sicheres paralleles Schreiben durch optimistische Nebenläufigkeit und einen Versionsverlauf einschließlich Rollbacks und liefert starke Korrektheitsgarantien ohne Performance-Engpässe
- Apache Spark ist die am weitesten verbreitete Engine, aber auch Trino, Flink und DuckDB werden gut unterstützt, wodurch es sich für ein breites Spektrum an Use Cases eignet — von Enterprise-Datenplattformen bis zu leichtgewichtiger lokaler Analyse
- Hat bei vielen Teams großes Vertrauen als stabiles und offenes Datenformat gewonnen und wird als Standardwahl für Organisationen empfohlen, die moderne Datenplattformen aufbauen
99. Declarative Automation Bundles
- Früher als Databricks Asset Bundles bekannt und inzwischen zu einem zentralen Werkzeug für die Einführung von Software-Engineering- und CI/CD-Praktiken im Databricks-Ökosystem weiterentwickelt
- Deutlich gereift, sodass Teams den Großteil der Plattformressourcen einschließlich Clustern, ETL-Pipelines, Jobs, Machine-Learning-Modellen und Dashboards als Code verwalten können
- Mit dem Befehl
databricks bundle plankönnen Teams Änderungen vorab ansehen und so wiederholbare Deployment-Praktiken auf Databricks-Artefakte anwenden, ähnlich wie bei der Verwaltung von Infrastruktur mit Tools wie Terraform - Indem traditionell veränderliche Assets wie Dashboards und ML-Pipelines als Code behandelt werden, lassen sie sich mit derselben Strenge wie klassische Microservices versionieren, testen und deployen
- Auf Basis von Erfahrungen in Produktionsumgebungen haben sich Declarative Automation Bundles als verlässlicher Ansatz für das Management von Daten- und ML-Workflows in Databricks etabliert
- Teams mit umfangreicher Arbeit im Databricks-Ökosystem wird empfohlen, die Einführung zur Standardisierung ihrer Infrastruktur-Management-Praktiken zu prüfen
100. React JS
- Seit 2016 die Standardwahl für die Entwicklung von JavaScript-UIs, aber mit dem stabilen Release des React Compiler als Teil von React 19 (im vergangenen Oktober) erneut einen Blick wert
- Übernimmt Memoisierung zur Build-Zeit, sodass manuelle
useMemo- unduseCallback-Aufrufe weitgehend überflüssig werden; Teams wird empfohlen, sie als Escape Hatch zu behalten, wenn eine präzise Kontrolle von Effect-Abhängigkeiten nötig ist - Bei Meta battle-tested und unterstützt von Expo SDK 54, Vite, Next.js; damit entfällt eine Kategorie von Performance-Boilerplate, die bei React in großem Maßstab lange als Kostenfaktor galt
- React 19 führt außerdem Actions und Hooks wie
useActionStateunduseOptimisticein und vereinfacht Formularverarbeitung und Datenmutationen ohne Abhängigkeit von externen Bibliotheken - 2025 wurde die React Foundation unter dem Dach der Linux Foundation gestartet — Amazon, Expo, Callstack, Microsoft, Software Mansion und Vercel sind neben Meta beteiligt — was die langfristige Stabilität der Bibliothek stärkt und Bedenken ausräumt, die zurückhaltende Teams bei einer Einführung historisch angeführt haben
101. React Native
- Als Standardwahl für plattformübergreifende mobile Entwicklung in Adopt verschoben
- Zuvor in Trial, aber der Rollout der New Architecture — konkret JSI und Fabric — hat langjährige Bedenken zu Bridge-Engpässen und Initialisierungsgeschwindigkeit behoben
- Bei komplexen UI-Übergängen und datenintensiven Workloads wurden erhebliche Performance-Gewinne beobachtet
- Durch die Abkehr von der asynchronen Bridge liefert React Native nun eine Reaktionsfähigkeit, die nativen Implementierungen nahekommt, bei gleichzeitigem Erhalt einer einheitlichen Codebasis
- Erfolgreich in mehreren Produktionsprojekten eingesetzt; Expo und das React-zentrierte Ökosystem sind ausgereift und stabil
- State Management erfordert weiterhin sorgfältige Planung, aber die Produktivitätsvorteile des fast refresh-Workflows und gemeinsam genutzter Skillsets überwiegen diese Kosten
- Für die meisten hybriden mobilen Anwendungsfälle eine zentrale Empfehlung für Teams, die Performance, Konsistenz und Geschwindigkeit suchen
102. Svelte
- Ein JavaScript-UI-Framework, das Komponenten zur Build-Zeit in optimiertes JavaScript kompiliert und weder auf eine große browserseitige Runtime noch auf ein Virtual DOM angewiesen ist
- Seit der letzten Erwähnung in Trial von mehr Teams erfolgreich in Produktion eingesetzt; SvelteKit ist zu einer robusteren Wahl für SSR und Full-Stack-Webanwendungen geworden, was das Vertrauen in den Wechsel zu Adopt erhöht
- Die ursprünglichen Gründe für die Wahl von Svelte gelten weiterhin — kleine Bundles, starke Runtime-Performance und ein einfacheres Komponentenmodell
- Neue Fähigkeiten in Svelte 5 wie runes und snippets machen Reaktivität und UI-Komposition expliziter und flexibler
- Bietet im Vergleich zu schwergewichtigeren Frontend-Frameworks eine sauberere Entwicklungserfahrung mit weniger Code
- Rückmeldungen aus Teams zeigen zunehmend, dass es eine verlässliche Alternative zu React oder Vue ist und keine Nischenoption
- Vertrautheit mit dem Ökosystem, Recruiting und Plattform-Fit müssen weiterhin bedacht werden, aber es wird als vernünftiger Standard für den Bau moderner Webanwendungen empfohlen, bei denen Performance und einfache Auslieferung wichtig sind
103. Typer
- Eine Python-Bibliothek zum Erstellen von CLIs aus Funktionen mit Standard-Typannotationen, die automatisch Hilfetexte und Shell-Autovervollständigung erzeugt und einen klaren Pfad von kleinen Skripten zu großen CLI-Anwendungen bietet
- Gewinnt an Relevanz, da Teams interne Tools, Automatisierung und AI-nahe Entwickler-Workflows in erstklassige CLIs überführen
- Typer lässt sich leicht in reale Projekte einführen; Teams schätzen, wie schnell sich damit klare und gut lesbare Befehle erstellen lassen
- Stärken — typannotierungsbasierte API, automatische Hilfe und Autovervollständigung sowie ein reibungsloser Weg von einfachen Skripten zu CLI-Anwendungen mit mehreren Befehlen
- Ist jedoch eine Python-spezifische Lösung und möglicherweise nicht die beste Wahl, wenn hochgradig angepasste CLI-Verhalten oder sprachübergreifende Konsistenz erforderlich sind
- Empfohlen für Teams, die CLIs für Auslieferungs-, Betriebs- und Developer-Experience-Workflows bauen
Trial
104. Agent Development Kit (ADK)
- Ein Google-Framework zum Aufbau und Betrieb von AI-Agenten, das auf Software Engineering ausgerichtete Abstraktionen für Orchestrierung, Tools, Evaluierung und Deployment bereitstellt
- Seit der Aufnahme in Assess sind Ökosystem und operative Fähigkeiten deutlich gereift, mit aktiver mehrsprachiger Entwicklung sowie stärkeren Funktionen für Observability und Runtime
- Vendor-native Agent-Frameworks sind inzwischen ein dicht besetztes Feld — konkurrierende Optionen wie Microsoft Agent Framework, Amazon Bedrock AgentCore, OpenAI Agents SDK, Claude Agent SDK und andere entwickeln sich weiter
- Open-Source-Alternativen wie LangGraph und CrewAI bleiben eine starke Wahl für Teams, die Framework-Portabilität und ein breiteres Ökosystem priorisieren
- Obwohl sich ADK teils noch im pre-GA-Status befindet und gelegentlich unausgereifte Stellen sowie Upgrade-Reibung zeigt, wird vor allem bei Projekten mit Investitionen in die Google-Plattform eine zunehmende Zahl erfolgreicher Einsätze beobachtet
105. DeepEval
- Open-Source-Python-basiertes Framework zur Bewertung der LLM-Performance
- Kann zur Bewertung von RAG-Systemen und -Anwendungen verwendet werden, die mit Frameworks wie LlamaIndex oder LangChain aufgebaut wurden, sowie auch für Modell-Baselines und Benchmarks
- Geht über einfache Metriken zum Wortabgleich hinaus und bietet mit Bewertungen von Genauigkeit, Relevanz und Konsistenz verlässlichere Evaluierungen für reale Szenarien
- Umfasst Fähigkeiten wie Halluzinationserkennung, Relevanzbewertung von Antworten und Hyperparameter-Optimierung; besonders nützlich ist die Möglichkeit für Teams, Metriken für benutzerdefinierte Anwendungsfälle selbst zu definieren
- Kürzlich wurde DeepEval um die Unterstützung für komplexe agentische Workflows und Multi-Turn-Dialogsysteme erweitert
- Über die Bewertung der finalen Ausgabe hinaus bietet es integrierte Metriken für tool correctness, step efficiency und task completion, einschließlich der Bewertung von Interaktionen mit MCP-Servern
- Neu eingeführt wurde außerdem conversation simulation, die Testfälle automatisch generiert, um groß angelegte Multi-Turn-Anwendungen einem Stresstest zu unterziehen
106. Docling
- Open-Source-Bibliothek für Python und TypeScript, die unstrukturierte Dokumente in saubere, maschinenlesbare Ausgaben umwandelt
- Nutzt einen computer-vision-basierten Ansatz zum Verständnis von Layout und Semantik und verarbeitet komplexe Eingaben wie PDFs, einschließlich gescannter Dokumente, in strukturierte Formate wie JSON und Markdown
- Gut geeignet für RAG-Pipelines und die Erzeugung von strukturierten Ausgaben aus LLMs, im Gegensatz zu Vision-First-Retrieval-Ansätzen wie ColPali
- Docling bietet eine Open-Source-Self-Hosting-Alternative zu proprietären, gemanagten Cloud-Services wie Azure Document Intelligence, Amazon Textract und Google Document AI und integriert sich gut mit Frameworks wie LangGraph
- Liefert gute Ergebnisse in Extraktions-Workloads im Produktionsmaßstab über digitale und gescannte PDFs hinweg, auch bei sehr großen Dateien mit Text, Tabellen und Bildern
- Bietet für nachgelagerte agentische RAG-Workflows eine starke Balance zwischen Qualität und Kosten
107. LangExtract
- Python-Bibliothek, die auf Basis benutzerdefinierter Anweisungen strukturierte Informationen aus unstrukturiertem Text extrahiert, einschließlich präziser Quellenverankerung, die jede extrahierte Entität mit ihrer Position im Ursprungsdokument verknüpft
- Verarbeitet domänenspezifisches Material wie klinische Notizen und Berichte
- Die zentrale Stärke ist die Nachverfolgbarkeit der Quelle, wodurch sichergestellt wird, dass jeder extrahierte Datenpunkt bis zu seiner Quelle zurückverfolgt werden kann
- Extrahierte Entitäten können in JSONL-Dateien exportiert werden, einem Standardformat für Daten aus Sprachmodellen, und über eine interaktive HTML-Oberfläche für kontextbezogene Überprüfung visualisiert werden
- Teams, die strukturierte Ausgaben aus LLMs für die Dokumentenverarbeitung in Betracht ziehen, sollten LangExtract zusammen mit schemaerzwingenden Ansätzen wie Pydantic AI evaluieren
- LangExtract ist besser für lange, unstrukturierte Quellmaterialien geeignet, während Pydantic AI bei Ausgabeformat-Beschränkungen für kürzere und besser vorhersehbare Eingaben besonders stark ist
108. LangGraph
- Seit dem vorherigen Radar wurde beobachtet, dass die LangGraph-Architektur, die alle Multi-Agenten-Systeme als zustandsbehaftete Graphen mit global gemeinsam genutztem Status behandelt, nicht immer die beste Wahl für den Aufbau agentischer Systeme ist
- Auch alternative Ansätze, wie sie in Frameworks wie Pydantic AI verwendet werden, funktionieren gut
- Statt mit starren Graphen und umfangreichem gemeinsamem Zustand zu beginnen, bevorzugt dieser Ansatz einfache Agentenkommunikation über Codeausführung und fügt bei Bedarf später Graphstrukturen hinzu
- In vielen Anwendungsfällen entstehen dadurch kompaktere und effektivere Systeme, da jeder Agent nur auf den benötigten Zustand zugreift, was Argumentation, Tests und Debugging erleichtert
- Infolgedessen Weggang aus Adopt; weiterhin ein leistungsfähiges Werkzeug, aber nicht länger als Standardwahl für den Aufbau aller agentischen Systeme angesehen
109. LiteLLM
- Begann als schmale Abstraktionsschicht über mehreren LLM-Anbietern und hat sich zu einem vollwertigen AI-Gateway entwickelt
- Geht über die Vereinfachung der API-Integration hinaus und adressiert allgemeine Querschnittsthemen von GenAI-Systemen — darunter Retries und Failover, providerübergreifendes Load-Balancing sowie Kostenverfolgung mit Budgetkontrolle
- Teams übernehmen LiteLLM zunehmend als vernünftigen Standard für AI-basierte Anwendungen
- Das Gateway bietet einen konsistenten Ort zur Lösung von Governance-Themen, einschließlich Request-Tracking, Zugriffskontrolle, API-Key-Management, Content-Filtering und Guardrails auf Edge-Ebene wie Datenanpassung und -Maskierung
- Teams, die jedoch auf differenzierende Funktionen einzelner Anbieter angewiesen sind, benötigen oft anbieterspezifische Parameter und führen damit die Kopplung wieder ein, die das Gateway eigentlich beseitigen soll
- Der Modus
drop_paramsverwirft nicht unterstützte Parameter stillschweigend, was zu Fähigkeitsverlust ohne Transparenz über Routing-Entscheidungen hinweg führen kann - Eine pragmatische Wahl für operative Kontrolle, aber die Nutzung anbieterspezifischer Fähigkeiten bedeutet, sowohl Gateway-Abhängigkeiten als auch an Anbieter gekoppelten Code beizubehalten
110. Modern.js
- React-Meta-Framework von ByteDance, im Trial einsortiert für Teams mit Micro-Frontend-Anforderungen auf Basis von Module Federation
- Der Auslöser ist pragmatisch —
nextjs-mfbewegt sich in Richtung End-of-Life, der Pages Router wird voraussichtlich nur kleinere Backport-Fixes erhalten, neue Entwicklung ist nicht geplant, und CI-Tests dürften in der zweiten Hälfte von 2026 entfernt werden - Wegen fehlender offizieller Module-Federation-Unterstützung in Next.js und der schrittweisen Einstellung von Community-Plugins empfiehlt das Module-Federation-Core-Team Modern.js als zentrales unterstütztes Framework für föderationsbasierte Architekturen
- Das Plugin
@module-federation/modern-js-v3liefert sofort automatisches Build-Wiring; Streaming SSR und die Bridge API können als separate Fähigkeiten genutzt werden - Es gibt jedoch Einschränkungen bei der Kopplung —
@module-federation/bridge-reactist noch nicht mit Node-Umgebungen kompatibel, daher ist die Nutzung der Bridge in SSR-Szenarien nicht möglich - Die ersten Erfahrungen sind positiv, und für Teams, die Module Federation bereits nutzen, ist der Migrationspfad gut definiert
- Das Ökosystem außerhalb von ByteDance reift jedoch noch, mit Bedarf an umfassenderer Dokumentation und engerer Zusammenarbeit mit Upstream-Projekten
- Derzeit ist die Investition für Module-Federation-Anwendungsfälle ohne besser unterstützte Alternative gerechtfertigt
Assess
111. Agent Lightning
- Ein Framework zur Optimierung und zum Training von Agenten, das automatische Prompt-Optimierung, überwachtes Fine-Tuning und agentisches Reinforcement Learning ermöglicht
- Die meisten Agenten-Frameworks konzentrieren sich auf den Aufbau von Agenten, nicht aber auf deren Verbesserung im Zeitverlauf
- Agent Lightning unterstützt Frameworks wie AutoGen und CrewAI und ermöglicht die kontinuierliche Verbesserung bestehender Agenten ohne Änderungen an der Basisimplementierung
- Dies wird durch einen Ansatz namens Training-Agent Disaggregation erreicht, der eine Schicht zwischen Training und Agenten-Framework einführt
- Zwei Kernkomponenten — der Lightning Server verwaltet den Trainingsprozess und stellt APIs für aktualisierte Modelle bereit, der Lightning Client fungiert als Laufzeitumgebung, die Traces sammelt und zur Unterstützung des Trainings an den Server sendet
- Teams mit etablierten Agenten-Deployments wird empfohlen, dies als Methode zur kontinuierlichen Verbesserung der Agentenleistung zu evaluieren
112. GitHub Spec Kit
- In den Diskussionen dieses Zyklus stach Spec-driven Development hervor, wobei sich zwei breite Lager abzeichneten — Teams, die sich mit minimaler Struktur auf die fortlaufenden Verbesserungsfähigkeiten von Coding-Agenten verlassen, und Teams, die definierte Workflows und detaillierte Spezifikationen bevorzugen
- Mehrere Teams experimentieren vor allem in Brownfield-Umgebungen mit der Umsetzung von Spec-driven Practices mithilfe von GitHub Spec Kit
- Das Kernkonzept von Spec Kit ist die constitution, ein grundlegendes Regelwerk zur Ausrichtung des Softwareentwicklungslebenszyklus
- Eine in der Praxis nützliche constitution erfasst typischerweise Projektumfang, Domänenkontext, Technologieversionen, Coding-Standards und Repository-Struktur (z. B. hexagonale Architektur, geschichtete Module) und hilft Agenten, innerhalb der beabsichtigten Architekturgrenzen zu arbeiten
- Dabei entstehen auch Herausforderungen wie instruction bloat — ein ständig wachsender Satz von Agentenanweisungen durch fortlaufend hinzugefügten Projektkontext — und schließlich context rot; ein Team begegnete dem, indem es wiederverwendbare Leitlinien als Skills extrahierte, um die Agentenanweisungen kompakt zu halten und detaillierten Kontext nur bei Bedarf zu laden
- In Brownfield-Systemen entsteht viel Nacharbeit durch unklare Absichten, verborgene Annahmen und das späte Entdecken von Einschränkungen; ein Team führte einen spec → plan → tasks → coding → review-Lebenszyklus ein, um solche Probleme früher sichtbar zu machen
- Mit der Zeit wurden wiederholbare Kontexte in Dateien wie
.github/prompts/speckit.<command>.prompt.mdverschoben, wodurch die Prompts kürzer und das Verhalten der Agenten konsistenter wurden - Es wurden unsaubere Stellen berichtet, etwa unnötige defensive Checks und übermäßig ausführliche Markdown-Ausgaben
- Einige Probleme ließen sich durch die Anpassung von Spec-Kit-Templates und Anweisungen lösen, etwa durch eine Begrenzung der Anzahl erzeugter Markdown-Dateien oder weniger ausführliche Konsolenausgaben
- Letztlich ziehen erfahrene Engineers mit starken Clean-Coding- und Architekturpraktiken den größten Nutzen aus Spec-driven Workflows
113. Mastra
- Ein Open-Source-, TypeScript-natives Framework zum Aufbau von KI-Anwendungen und Agenten
- Es bietet eine graphbasierte Workflow-Engine, einen integrierten Ansatz für verschiedene LLM-Anbieter, Human-in-the-loop-Pause und -Fortsetzung sowie RAG- und Memory-Primitiven
- Ebenfalls enthalten sind integrierte Tools zum Schreiben von MCP-Servern sowie für Evaluierung und Observability, unterstützt durch klare Entwicklerdokumentation
- Mastra bietet eine Alternative zu Python-lastigen Stacks und ermöglicht Teams, umfangreiche KI-Fähigkeiten direkt innerhalb bestehender Web-Ökosysteme wie Node.js oder Next.js aufzubauen
- Für Teams, die in das TypeScript-Ökosystem investiert sind und für die KI-Schicht nicht zu Python wechseln möchten, eine evaluierenswerte Option
114. Pipecat
- Ein Open-Source-Framework zum Aufbau von Echtzeit-Sprach- und multimodalen Agenten mit einem modularen Pipeline-Modell für STT, LLM, TTS und Transport-Orchestrierung
- Es weckt starkes Interesse, weil Teams das Gesprächsverhalten schnell iterieren und Anbieter mit relativ geringer Reibung wechseln können
- Im Vergleich zu LiveKit Agents bietet Pipecat mehr Flexibilität auf Framework-Ebene, aber einen weniger integrierten Pfad in die Produktion, besonders bei Self-Hosting-Deployments, Transportzuverlässigkeit und latenzarmer Turn-Verarbeitung im großen Maßstab
- Es bietet eine starke, engineeringnahe Grundlage, erfordert jedoch erhebliche Platform-Engineering-Arbeit, bevor man sich für geschäftskritische Produktions-Workloads darauf verlässt
115. Superpowers
- Mit der zunehmenden Nutzung von Coding-Agenten gibt es keinen einzigen vorgeschriebenen Workflow für alle Teams; stattdessen entwickeln Teams angepasste Workflows auf Basis ihres Kontexts und ihrer Einschränkungen weiter
- Superpowers ist einer dieser Workflows und aus kombinierbaren Skills aufgebaut
- Es kapselt Coding-Agenten als Skills in einem strukturierten Workflow und fördert Brainstorming vor dem Coden, detaillierte Planung vor der Implementierung, TDD mit erzwungenem Red-Green-Refactor-Zyklus, systematisches Debugging mit Fokus auf die Ursache und Code-Reviews nach der Implementierung
- Es wird als Plugin verteilt über den Claude Code plugin marketplace und den Cursor plugin marketplace
116. TanStack Start
- Ein Full-Stack-Framework für React und Solid, aufgebaut auf TanStack Router, vergleichbar mit Next.js, mit Unterstützung für SSR, Caching und viele der gleichen Funktionen
- TanStack Start bietet durchgängige Compile-Time-Safety über Serverfunktionen, Loader und Routing hinweg und reduziert so das Risiko von kaputten Links oder inkonsistenten Datenformen im Frontend
- Es bevorzugt explizite Konfiguration statt Konvention, und die Erfahrung liegt näher an der Arbeit mit plain React
- SSR-Fähigkeiten lassen sich je nach Bedarf schrittweise hinzufügen
- Im Vergleich zu Next.js mit seinen meinungsstärkeren Defaults, die zu unerwartetem Verhalten führen können, wenn man mit den internen Abläufen nicht vertraut ist, ist es expliziter und vorhersehbarer
- Das TanStack-Ökosystem ist zudem deutlich gereift und bietet einen leistungsfähigen Werkzeugsatz zum Aufbau moderner Webanwendungen
117. TOON (Token-Oriented Object Notation)
- Eine menschenlesbare Kodierung von JSON-Daten, die darauf ausgelegt ist, den Tokenverbrauch zu reduzieren, wenn strukturierte Daten an LLMs übergeben werden
- JSON kann in bestehenden Systemen beibehalten und nur an den Schnittstellen zur Interaktion mit dem Modell konvertiert werden
- Tokenkosten, Latenz und Einschränkungen des Kontextfensters werden in RAG-Pipelines, Agenten-Workflows und anderen KI-lastigen Anwendungen zu realen Designüberlegungen
- Rohes JSON verbraucht Tokens oft für wiederholte Schlüssel und strukturellen Overhead statt für nützliche Inhalte
- In ersten Evaluierungen erwies sich TOON als interessante Last-Mile-Optimierung für Prompt-Eingaben, besonders bei großen, regelmäßigen Datensätzen, bei denen ein schemaorientiertes Format effizienter und für Modelle leichter zu verarbeiten ist als JSON
- Es ist kein Ersatz für JSON in APIs, Datenbanken oder Modellausgaben und oft die falsche Wahl für tief verschachtelte oder uneinheitliche Strukturen, halbgleichförmige Arrays oder flache tabellarische Daten, bei denen CSV kompakter ist
- Für latenzkritische Pfade, auf denen kompaktes JSON gut funktioniert, kann es ebenfalls weniger geeignet sein
- Für Teams, die LLM-Anwendungen bauen, bei denen die Größe strukturierter Eingaben ein relevanter Kosten- oder Qualitätsfaktor ist, lohnt sich eine Evaluierung, inklusive Benchmarking gegen JSON oder CSV mit dem eigenen Daten- und Modell-Stack
118. Unsloth
- Open-Source-Framework, das sich darauf konzentriert, LLM-Feinabstimmung und Reinforcement Learning deutlich schneller und speichereffizienter zu machen
- Die Feinabstimmung von LLMs umfasst Milliarden von Matrixmultiplikationen und profitiert von GPU-Beschleunigung; Unsloth optimiert diese Operationen, indem es sie in hocheffiziente Custom Kernels für NVIDIA-GPUs umwandelt, wodurch Kosten und Speicherverbrauch drastisch sinken
- Ermöglicht die Feinabstimmung von Modellen auf Consumer-GPUs ab T4, statt auf teuren H100-Clustern
- Unterstützt LoRA, vollständige Feinabstimmung, Multi-GPU-Training und Feinabstimmung mit langem Kontext (bis zu 500K Token) für populäre Modelle wie Llama, Mistral, DeepSeek-R1, Qwen und Gemma
- Da domänenspezifische KI-Anwendungen zunehmend auf Feinabstimmung angewiesen sind, senkt Unsloth die Einstiegshürde erheblich
Noch keine Kommentare.