Alles, was bei Code w/ Claude angekündigt wurde

xguru · 2026-05-14T11:50:02+09:00

Anthropics Entwicklerkonferenz: Sie findet online und offline statt; die Offline-Events werden in San Francisco am 6.5., London am 19.5. und Tokio am 10.6. abgehalten. Von der Veranstaltung in San Francisco wurden Videos von 19 Sessions veröffentlicht. Claude entwickelt sich in Richtung längerer Arbeitsabläufe, Langzeitspeicher, Nutzung von mehr Tools und besserer Verifikation weiter. Die zentrale Veränderung besteht darin, dass iterative Ausführung, Tool-Auswahl, Verifikation, Memory und Kontextverwaltung, die Entwickler bisher selbst gebaut haben, in Claudes Produkte und Plattform integriert werden. Die Differenzierung von Produkten und Organisationen verschiebt sich weg von der Frage, wie man das Modell aufruft, hin dazu, welche Tools, Daten, Berechtigungen und welchen Kontext man dem Modell zugänglich macht. Mehr noch als das eigentliche Schreiben von Code werden Verifikation, Sicherheit, Berechtigungsverwaltung, Observability, Evaluierungsrahmen und organisatorischer Betrieb zu neuen Engpässen. Wichtige Bereiche in Zukunft sind maßgeschneiderte Tools, vertrauenswürdiges Memory, Evaluierung, Sicherheitsgrenzen, Context Engineering und Agent Experience. Session 1 - Keynote Der Fokus liegt auf Produktverbesserungen, damit Claude Code und die Claude Platform für Entwickler besser funktionieren. Die meisten Nutzer verwenden Claude nicht direkt über die Claude API oder das Terminal, sondern innerhalb von Produkten, die von Entwicklern gebaut wurden. Die API-Nutzung der Claude Platform ist im Jahresvergleich auf fast das 17-Fache gestiegen. Der durchschnittliche Entwickler von Claude Code führt Claude 20 Stunden pro Woche aus. Das 5-Stunden-Nutzungslimit von Claude Code wurde für Pro-, Max-, Team- und seat-based Enterprise-Pläne verdoppelt. Auch das Opus-API-Limit wurde deutlich angehoben. Mithilfe der Kapazität des Colossus One-Rechenzentrums von SpaceX sollen Einzelentwicklern und kleinen Teams mehr Rechenressourcen bereitgestellt werden. Opus 4.7 verbessert bei Amp, Rakuten und Intuit die Leistung von Coding Agents, die Qualität der Planung und die Lösungsrate bei realen Engineering-Aufgaben. Claude entwickelt sich künftig in Richtung besseres Urteilsvermögen, größerer Kontext und mehr Memory sowie Zusammenarbeit mehrerer Agents. Session 2 - What's new in Claude Code Die neuen Funktionen von Claude Code lassen sich in zwei Bereiche einteilen: bessere Developer Usability und mehr Autonomie. Remote Control ermöglicht es, eine im Terminal gestartete Session im Web oder auf dem Smartphone fortzusetzen. Die Full screen terminal UI nutzt virtuelles Scrollback und bietet flimmerfreies Rendering sowie anklickbare Ansichten für Tool-Aufrufe. Die GUI von Claude Code wurde so überarbeitet, dass mehrere Sessions per Pinning, Filterung, Gruppierung und Splitscreen verwaltet werden können. In Plan View, Diff View und Files View lassen sich Kommentare auf Zeilenebene hinterlassen, die Claude später gesammelt verarbeiten kann. Auto Mode klassifiziert, ob ein Tool-Aufruf destruktiv ist oder wie Prompt Injection aussieht, und führt ihn bei Sicherheit ohne Berechtigungsabfrage aus. Worktree ermöglicht es mehreren Claude-Sessions, parallel in jeweils isolierten Branches und Dateikopien zu arbeiten. Auto Memory verwaltet projektbezogene memory.md-Dateien und relevante Dateien, sodass Claude Build-Befehle, Debugging-Hinweise und Projektpräferenzen in späteren Sessions wiederverwenden kann. Routines und /loop automatisieren die Ausführung von Claude-Code-Sessions über Cron, GitHub-Webhooks oder API-Trigger. Session 3 - Memory and dreaming for self-learning agents Memory wird als Basiselement der nächsten Stufe nach MCP, Claude Code, Agent SDK und Skills behandelt. Das Memory von Claude Managed Agents ist wie ein Dateisystem organisiert, sodass Claude es direkt mit Bash und Grep ordnen und aktualisieren kann. Opus 4.7 trifft bessere Entscheidungen darüber, was gespeichert werden soll, wie Dateien aufgeteilt werden und wie die Memory-Struktur erhalten bleibt. Damit mehrere Agents denselben Memory-Speicher lesen und schreiben können, lassen sich schreibgeschütztes Organisations-Memory und Lese-/Schreib-Arbeits-Memory trennen. Damit auch bei gleichzeitigen Änderungen durch Hunderte von Agents keine Überschreibungen entstehen, wird eine inhaltsbasiert gehashte optimistische Parallelitätskontrolle verwendet. Änderungsverlauf, Autor, Session und Zeitpunkt werden festgehalten, damit Memory in Unternehmensumgebungen auditierbar verwaltet werden kann. Dreaming analysiert asynchron jüngste Agent-Sessions und Transcripts, um wiederholte Fehler, erfolgreiche Strategien, redundantes Memory und veraltetes Memory zu finden und aufzuräumen. Harvey setzte Dreaming auf einen Rechts-Benchmark an und erhöhte dabei die Abschlussrate einer juristischen Aufgabe um das 6-Fache. In einer SRE-Demo erkannte Dreaming ein 60-Sekunden-Retry-Muster, das mehrere Agents isoliert betrachtet übersehen hatten, und überführte es ins Memory. Ziel ist eine Struktur für kontinuierliches Lernen, bei der die Agent-Arbeit von heute die Agents von morgen automatisch verbessert. Session 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale Auf der Größenordnung von GitHub Copilot wird Prompt Caching zu einem zentralen Hebel, um Kosten und Latenz zu senken. Die angestrebte Cache-Trefferquote liegt bei 94–96 %; ein Wert von rund 70 % gilt als Hinweis auf Probleme bei Prompt-Zusammenstellung oder Caching-Design. Der vordere Teil von System-Prompt und Tool-Liste sollte möglichst statisch bleiben. Wenn UUIDs, Zeitpunkte oder dynamisches Tool-Loading im vorderen Teil stehen, bricht der Cache leicht. Auch in einem Harness, das zwischen mehreren Modellen wechselt, muss Cache-Freundlichkeit gewahrt bleiben, damit Opus-Aufrufe frühere Caches wiederverwenden können. GitHub rollt neue Modelle in der Reihenfolge Offline-Benchmark, interne Nutzung, A/B-Test, Online-Evaluierung (eval), Optimierung nach dem Release aus. Die Advisor-Strategie bedeutet, dass ein günstiges Ausführungsmodell den Großteil der Arbeit übernimmt und Opus nur dann als Berater aufgerufen wird, wenn wichtige Entscheidungen anstehen. Nicht das Modell allein, sondern die Betriebsebene aus Prompts, Tools, Cache, Modellauswahl, Evaluierung und Online-Feedback entscheidet über Qualität und Kosten. Session 5 - The expanding toolkit Hilfscode, den man im vergangenen Jahr noch selbst gebaut hat, ist jetzt in Modell und API enthalten. Beim Tool-Einsatz nimmt der Wert von manuellen Routern oder Retry-Decorators ab. Claude kann Tools selbst finden, fehlgeschlagene Tool-Aufrufe erkennen und beheben und sie anschließend erneut ausführen. In Tool-Anleitungen sollte man nicht nur Eingaben, sondern auch das Ausgabe-Schema festhalten. Wenn die Ausgabestruktur im Voraus bekannt ist, kann Claude Ergebnisse besser nutzen, ohne unnötige Hin-und-her-Aufrufe. Die Pre-/Post-Tool-Hooks von Claude Code lassen sich nutzen, um bestimmte Aufrufe zu blockieren oder Ergebnisse automatisch zu protokollieren und zu analysieren. Mit 1 Million Token Kontext, serverseitiger Kompression und Context Editing wird die Kontextverwaltung bei langen Aufgaben einfacher. Veraltete Screenshots, Suchergebnisse und Dateileseresultate können regelmäßig entfernt werden, während die daraus entstandenen Schlussfolgerungen erhalten bleiben. Opus 4.7 liefert bei Screenshots in Originalauflösung bis 1440p 1:1-Pixelkoordinaten zurück und reduziert so den Aufwand zur Koordinatenkorrektur bei der Bildschirmautomatisierung. Code zur Kompensation von Modellgrenzen ist kurzlebig; langlebig ist Code, der Tools, Daten, Authentifizierung und Domain-Kontext verbindet, die Claude selbst nicht sehen kann. Session 6 - How to get to production faster with Claude Managed Agents Claude Managed Agents bündeln die für langlaufende produktive Agenten nötigen Kontextverwaltung, Zugangsdatenverwaltung, Sicherheit, Zugriffskontrolle, menschliche Überprüfung und Observability in einer Plattform Die Grundkonfiguration besteht aus Agent-Konfiguration, Environment und Session Über Session Events lassen sich Benutzerereignisse, Agentenereignisse, Sitzungsereignisse und Abschnittsereignisse einsehen Die Console vereint Konfiguration, Environment, vollständigen Ausführungs-Trace, Engpässe und empfohlene Maßnahmen auf einem Bildschirm Outcomes ist eine Funktion, mit der Claude so lange iteriert, bis vorab definierte Abschlusskriterien und Bewertungsmaßstäbe erfüllt sind Auch die Koordination mehrerer Agenten, Memory und Dreaming werden gemeinsam als fortgeschrittene Funktionen behandelt In der Dashboard-Demo fand der Agent Parallelisierung, Fast Mode und Prompt-Optimierung und verkürzte die Rendering-Zeit von etwa 37 auf 10 Sekunden Produktive Agenten brauchen nicht nur eine Schleife für wiederholte Modellaufrufe, sondern auch Tracing, Engpassanalyse, Berechtigungen und Validierung Sitzung 7 - A conversation with Dario Amodei & Daniela Amodei Anthropic fehlt wegen eines schneller als erwarteten Wachstums bei Nutzung und Umsatz an Rechenressourcen Das Unternehmen will sich zusätzliche Rechenkapazität sichern, um Entwicklern und Nutzern mehr bereitzustellen Entwickler gelten als zentrale Nutzer von Claude und als die Gruppe, die zuerst zeigt, wie sich KI in der gesamten Wirtschaft verbreitet Die nächste Veränderung bei Claude Code verlagert sich von individueller Produktivität hin zu Produktivität von Teams und Organisationen Je schneller Code geschrieben wird, desto stärker werden Sicherheit, Validierung, Zuverlässigkeit und Wartbarkeit zu neuen Engpässen Weil sich die Modellfähigkeiten schnell verändern, werden Produkte plötzlich möglich, die noch vor wenigen Monaten unmöglich waren Der API-Markt bleibt weiterhin wichtig Claude entwickelt sich künftig über die Unterstützung einzelner Personen hinaus in Richtung Skalierung der Arbeit vieler Menschen und vieler Agenten in ganzen Organisationen Sitzung 8 - Live coding session with Boris Cherny and Jarred Sumner Buns Robobun reproduziert GitHub-Issues automatisch und erstellt PRs inklusive Tests Als Kriterium für das Einreichen eines PRs gilt, dass frühere Versionen fehlschlagen und der Fix-Branch besteht CLAUDE.md dient als Betriebsdokument für Agenten und enthält Build-Befehle, Testbefehle, Testpfade, frühere Fehlermuster, Ordnerstruktur und wie CI-Logs zu lesen sind Mit CodeRabbit, Claude Code Review und Robobun zusammen werden Stil, Einhaltung von CLAUDE.md und Prüfungen von Randfällen außerhalb des Diffs automatisiert Claude Code und Opus 4.7 eignen sich gut für Arbeiten, bei denen Ziel, Messmethode und Validierungsiteration klar definiert sind und sich die Leistung schrittweise steigern lässt Der Engpass verlagert sich vom Code schreiben hin zu Planung und Validierung Von Agenten erstellte PRs müssen nicht zwingend zusammengeführt werden, sondern können als überprüfbare Vorschläge behandelt werden Auch wenn Agenten-PRs zunehmen, sinken die Maßstäbe für menschliche Merges nicht, sondern können sogar steigen Sitzung 9 - Building with Claude Managed Agents and Asana AI teammates Asanas AI teammates zielen auf Agenten ab, die innerhalb von Unternehmen wie echte Kollegen arbeiten Die Agenten werden zu Akteuren, die Freigaben, Workflows und mehrstufige Aufgaben gemeinsam mit Menschen bearbeiten In vielen Unternehmen bleibt der Agenteneinsatz noch auf Einzelnutzer-Flows beschränkt, bei denen eine Person ein Ergebnis erhält und es an die nächste weitergibt Asana strebt kollaborative Arbeitsabläufe an, in denen mehrere Personen mit demselben Agenten interagieren und Wissen sowie Memory anwachsen Der Asana work graph verbindet Ziele, Portfolios, Projekte, Aufgaben, Freigaben und frühere Entscheidungen und dient als Agenten-Kontext Ein AI teammate tritt mit gemeinsamen Einstellungen, rollenbasierter Zugriffskontrolle und Auditierbarkeit wie ein menschlicher Kollege in Systeme ein Claude Managed Agents übernehmen mehrstufige Aufgaben wie das Erstellen von Kampagnen-Briefings und das Generieren von HTML-Landingpage-Mockups Asana konzentriert sich auf Mensch-Interface, Unternehmenskontext, Sicherheit und Auditierbarkeit, während Claude Managed Agents Validierungsiterationen, Grader, Outcomes und die Ausführung mehrerer Agenten übernehmen Mehr als 21 vorgefertigte AI teammates werden für Aufgaben in PMO, Marketing, IT, HR und F&E bereitgestellt Feedback bleibt im Memory des Agenten erhalten, damit der nächste Nutzer dieselben Fehler nicht erneut erlebt Sitzung 10 - Running an AI-native engineering org In einer AI-native Engineering-Organisation ist der Durchsatz beim Schreiben von Code nicht mehr der teuerste Engpass Validierung, Review, Sicherheit, Wartung und abteilungsübergreifende Koordination werden zu den neuen größeren Engpässen Statt eines 6-Monats-Roadmaps oder Design-Dokumenten vor jeder Arbeit passt zum Claude-Code-Team eher ein Ablauf, bei dem zum richtigen Zeitpunkt geplant und schnell prototypisiert wird Technische Debatten verlagern sich von langen Whiteboard-Diskussionen hin zur Erstellung mehrerer Implementierungs-PRs, um reale Auswirkungen und API-Formen zu vergleichen Weil Codegenerierung einfacher geworden ist, werden Tests, Automatisierung und frühere Validierung noch wichtiger Wichtiger als die Frage „Wer hat diesen Code geschrieben?“ ist die Unterscheidung zwischen Ursache von Regressionen, Bedarf an Expertenantworten und dem Zweck der Kontextbeschaffung Das Claude-Code-Team überlässt Claude Stil, Linting, PR-Feedback sowie einige Bugfixes und das Hinzufügen von Tests Rechtsprüfung, sicherheitssensibler Code, Vertrauensgrenzen und Produktgespür bleiben weiterhin Sache menschlicher Experten Bei Einstellungen zählen kreative Builder mit Produktgespür und tiefe Systemexpertise mehr als bloßer Durchsatz Als Erfolgskennzahlen können verkürzte Onboarding-Zeit, kürzere PR-Zyklen und mehr Commits mit Claude-Unterstützung dienen Sitzung 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey Gamma überführt Verbesserungen bei Tool-Calling und Agentenkoordination schnell ins Produkt und stärkt so agentenbasierte Editing-Workflows Gamma nutzt MCP-Connectoren nicht nur als Integrationsfunktion, sondern auch für Kundengewinnung und als Einstiegspunkt in Workflows Cognition reduziert einige eigene Planungs- und Memory-Systeme, weil Modelle besser beim Bearbeiten von Code, der Nutzung von Dateisystemen und langfristiger Ablaufplanung werden Harvey entwirft bei jedem Wendepunkt von Foundation Models, Reasoning-Modellen und Coding-Agenten die Produktarchitektur neu Harveys aktuelle Plattformfähigkeiten wären ohne eine agent-native Struktur nur schwer erreichbar gewesen AI-native Produkte müssen davon ausgehen, dass bestehende Architekturen innerhalb von 6 bis 12 Monaten veralten können Aufzeichnung, Observability, Replay und Evaluation werden zu unverzichtbaren Mechanismen, um auf schnelle Architekturveränderungen zu reagieren In sensiblen Bereichen wie dem Rechtswesen sind harte Datengrenzen zwischen öffentlichen Daten, nicht öffentlichen Daten, Memory und Agenten-Workflows nötig Wichtiger als eine Architektur, die auf spezifische Modellgrenzen zugeschnitten ist, wird eine Architektur, die den nächsten Fähigkeitssprung schnell aufnehmen kann Sitzung 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch Vercel sieht agentische Infrastruktur als zentrale strategische Richtung Die Cloud kann sich zu einer Infrastruktur weiterentwickeln, die sich selbst repariert, optimiert und ihre Konfiguration verändert AI Gateway wird wie ein CDN für Tokens behandelt Es wird zu einer Schicht, die mehrere Anbieter und Modelle verwaltet und Routing, Failover sowie Kostenkontrolle übernimmt Opus-Tokens machen anteilig an den Ausgaben deutlich mehr aus als anteilig an der Nutzung; wer hochintelligente Modelle in Produkte integriert, muss die Kostenstruktur daher klar im Blick haben Nach der Einführung von Opus 4.5 konnte V0 Grammatikprüfung, automatische Korrekturen und einige Verarbeitungsabläufe vereinfachen, die zuvor das ältere Modell ausgleichen mussten Sprünge bei den Modellfähigkeiten führen nicht nur zu neuen Funktionen, sondern auch dazu, dass bestehender Korrekturcode entfernt werden kann Nach dem erweiterten Einsatz von Opus in V0 haben sich die Produkt-Credit-Ausgaben verdoppelt Künftig könnten neben CLI- und UI-basierter Entwicklung auch asynchrone Agenten mit weniger menschlicher Aufsicht deutlich wichtiger werden Session 13 - The thinking lever Test-Time Compute ist die Dimension, auf der Claude beim Schlussfolgern mehr Tokens und Zeit einsetzt, um schwierige Probleme zu lösen Selbst bei Opus 4.7 unterscheidet sich die Qualität einer Verkehrssimulation je nach low, high oder max effort deutlich Je mehr Zeit und Tokens eingesetzt werden, desto realistischer werden Grafik, Verkehrsfluss und Fahrzeugbewegungen Die von Claude verwendeten Tokens lassen sich in Denk-Tokens, Tool-Call-Tokens und Text-Tokens einteilen Denk-Tokens dienen der internen Schlussfolgerung, Tool-Call-Tokens der Interaktion mit der Außenwelt und Text-Tokens der Kommunikation mit dem Nutzer effort ist ein Regler, der das Gleichgewicht zwischen Zeit, Kosten und Qualität ausdrückt Task Budgets ermöglichen es, Obergrenzen für Tokens, Zeit und Kosten festzulegen, die Claude für eine bestimmte Aufgabe verwenden darf Adaptive Thinking erlaubt es Claude, frei zu entscheiden, wann es nachdenken, Tools verwenden und dem Nutzer antworten muss Für Coding- und agentische Use Cases gilt extra high als guter Standardwert Für einfache Klassifizierung oder Extraktion in großem Volumen sind kleine Modelle vorteilhaft, während für Aufgaben mit hohem Intelligenzbedarf ein großes Modell mit niedrigem effort besser sein kann, wenn das Ergebnis schnell vorliegen soll Session 14 - How Datadog built a universal machine tool for Claude Code Rund 90 % der Datadog-Ingenieure nutzen AI-Coding-Tools für produktiven Code Davon verwenden mindestens zwei Drittel Claude Code Der Einsatzbereich von AI-Coding-Tools erweitert sich von einzelnen Funktionen, Tests und Glue Code hin zu Aufgaben auf Systemebene Der Engpass verlagert sich vom Schreiben des Codes zu Feedback-Schleifen und Produktionsvalidierung Im Helix-Experiment konnte Claude Code in wenigen Tagen einen Kafka-ähnlichen Streaming-Service bauen Um das in die Produktionsumgebung zu bringen, braucht es Shadowing, stufenweise Validierung und System-Mileage Tempor sorgt dafür, dass Agenten nicht spontan Tools bauen, sondern zuerst einen Blueprint mit Zuständen, Übergängen, Effekten und Invarianten erstellen Übergangstabellen, Policy-Dokumente, typisierte Effekte, Validatoren und Property-Tests machen von Agenten erzeugte Software prüfbar Damit Agenten Freiheit bekommen können, müssen die Invarianten und Validierungsverfahren produktiver Systeme maschinenlesbar gemacht werden Session 15 - Building with Claude on Google Cloud Als einfachster Weg zum Einrichten von Claude Code auf Google Cloud wird ein Application-Default-Credentials-basierter Setup-Assistent verwendet Der Setup-Assistent kann Projekt, Region und verfügbare Modelle erkennen und festlegen Wer Claude-Modelle auf Google Cloud nutzt, kann tokenbasierte Abrechnung, provisioned throughput, weniger Aufwand beim Rotieren von API keys, Projekt-Policies, Datenhaltung innerhalb des Projekts sowie regionale und globale Endpoints nutzen Die Demo zeigt, wie fünf Rollen — PM, UI/UX designer, software engineer, security engineer und data/growth marketer — gemeinsam eine Feedback-App von Anfang bis Ende erstellen Der PM gibt ein handgezeichnetes Wireframe in Claude Code ein und erstellt schnell einen Prototyp In der UI/UX-Phase sorgt der Plan-Modus dafür, dass Claude vor der Umsetzung zuerst einen Plan vorlegt Die Google Cloud developer knowledge API und ein MCP server verbinden Claude Code mit aktueller Dokumentation und Architekturleitfäden Google Cloud Skills helfen bei der Implementierung einzelner Bausteine wie dem Deployment einer Cloud-Run-API oder der Anbindung von Cloud Run an Firestore Mit sub-agent werden API, Ingestion-Pipeline und Dashboard parallel umgesetzt Ein security review prompt prüft auf OWASP-Probleme oder Service-Account-Berechtigungen, behebt gefundene Probleme und deployt anschließend auf Cloud Run Session 16 - Getting more out of the Claude Platform Prioritäten bei der Optimierung produktiver Agenten sind Prompt Caching, Context Engineering und die Advisor-Strategie Prompt Caching senkt die Kosten für Input-Tokens, verkürzt die Zeit bis zum ersten Token und reduziert die Belastung durch Nutzungslimits für gecachte Tokens Als Zielwert für die Cache-Trefferquote gelten Werte im Bereich von 90 % Die Stabilität des vorderen Prompt-Teils, die Position von Tool-Definitionen und die Stelle, an der dynamische Werte eingefügt werden, beeinflussen den Cache Ein Tool Search Tool lädt nur die jeweils benötigten Tool-Definitionen nach und spart so Kontext Wenn alle Tools von Anfang an eingebunden werden, steigt die Last sowohl für den Kontext als auch für den Cache Programmatic Tool Calling wählt aus vielen Tool-Ergebnissen nur die nötigen Teile aus und fügt sie in den Kontext ein, statt alles unverändert zu übernehmen Compaction reduziert ältere Dialoge und Tool-Ergebnisse, damit lange Aufgaben fortgesetzt werden können Bei der Advisor-Strategie übernehmen Sonnet oder Haiku den Großteil der Arbeit, und nur bei wichtigen Entscheidungen wird Opus als Berater hinzugezogen Entscheidend ist nicht, das Modell häufiger aufzurufen, sondern zu entwerfen, mit welchem Kontext, welchen Tools und welcher Cache-Struktur das Modell arbeitet Session 17 - Evaluating and improving Replit Agent at scale Nutzer von Replit Agent erwarten, dass allein mit natürlicher Sprache funktionsfähige Apps entstehen, ohne Frameworks oder Tests angeben zu müssen Anders als bei allgemeinen Coding-Benchmarks, die nur prüfen, ob ein Patch Tests besteht, lässt sich die Qualität von Replit Agent so nur schwer messen Die Bewertung muss darauf schauen, ob die App wie vom Nutzer gewünscht funktioniert Replit nutzt sowohl Offline-Evaluierung als auch Online-Evaluierung Die Offline-Evaluierung dient als Gate vor einem neuen Agent-Release, die Online-Evaluierung für schnelle Reaktionen nach dem realen Einsatz VibeBench ist ein offener Benchmark, bei dem 20 reale PRDs als Eingabe dienen, um aus einem leeren Repository Apps zu erstellen, die dann von einem automatischen Evaluator im Browser getestet werden Die meisten Modelle tun sich deutlich schwerer damit, ihren eigenen Code nachträglich weiter auszubauen Zwischen Funktionen sollten Test- und Validierungsschritte eingebaut werden, um zu vermeiden, immer weiter auf einem instabilen Fundament aufzubauen Telescope ist ein internes System, das produktive Ausführungsspuren semantisch bündelt, Long-Tail-Fehler findet, Probleme klassifiziert, den Agenten ein PR erstellen lässt und das Ergebnis mit VibeBench oder A/B-Tests validiert Evaluierung ist nicht bloß die letzte Checkliste vor dem Release, sondern die Engine, mit der Agenten täglich verbessert werden Session 18 – The capability curve Nutzer von Claude Code deployen schneller und mit größerem Vertrauen als im vergangenen Jahr Bei einer Publikumsabstimmung während der Präsentation gaben viele Teilnehmende an, mit Claude eine 10-fache, 5-fache oder 2-fache Geschwindigkeitssteigerung zu erleben Auf SWE-bench Verified erreichte Sonnet 3.7 etwa 62 %, Opus 4.7 87 % Opus 4.7 hat eine mehr als dreimal so hohe Wahrscheinlichkeit, schwierige PRs erfolgreich zu lösen, an denen Sonnet 3.7 scheiterte In einer Demo, bei der Claude.ai mit demselben Prompt nachgebaut wurde, erzeugten frühere Modelle eine allgemeine Chat-UI und Fehler, während Opus 4.7 Claude-Farben, API-Antworten, Chatverlauf, Inline-Grafiken und Dark Mode umsetzte Verbesserte Bereiche sind Planung, Fehlerbehebung und das Aufrechterhalten der Aufmerksamkeit bei langen Ausführungen Das neue Modell plant zuerst, geht bei Fehlschlägen zurück und hält auch in langen Kontexten System-Prompt und Ziele besser ein Um echte Verbesserungen zu sehen, müssen Evaluierungen erstellt werden, deren Verteilung näher am Produkt liegt Je besser Modelle werden, desto schneller sättigen bestehende Evaluierungen, daher müssen auch die Evaluierungen laufend schwieriger werden Wenn ein neues Frontier Model erscheint, sollte geprüft werden, ob sich bisherige Kalibrierungsverfahren und Prompts wieder reduzieren lassen Session 19 – Giving coding agents their own computers: How Cursor built cloud agents Cursor sieht den Engpass weniger in der Modellintelligenz als darin, dass Menschen dem Modell nicht genügend Werkzeuge, Kontext und große Ziele geben können So wie menschliche Entwickler onboarded werden, sollten auch Agenten einen Computer, eine Entwicklungsumgebung und Dokumentation erhalten Der Onboarding-Agent von Cursor durchsucht Repositories und ermittelt, wie die App gestartet wird, welche Services, Umgebungsvariablen und Berechtigungen benötigt werden AnyDev CLI ist ein Tool, das Agenten hilft, Services zu starten, auf Bereitschaft zu warten, den Status zu prüfen und sogar Testkonten zu erstellen oder Logins durchzuführen Je besser die Entwicklungsumgebung für Agenten wird, desto mehr Cloud Agents lassen Entwickler laufen und desto größere Aufgaben übertragen sie ihnen Das Grundprinzip von Autonomie ist, Agenten Augen, Werkzeuge und guten Kontext zu geben Agenten sollten wie Menschen den Zustand der App, Gespräche anderer Agenten und den Status von Services sehen können Cursor betrachtet computer use als den nächsten wichtigen Grundbaustein nach dem Coding Claude 4.7 ermöglicht es Agenten, eigenständig End-to-End-Demos aufzuzeichnen, um Funktionen zu verifizieren, sodass Menschen die Ergebnisse vor dem Code-Review schnell verstehen können Cursor behandelt die agent experience als eigenes Gestaltungsziel und lässt Agenten, wenn sie auf lästige, kaputte oder verwirrende Abläufe stoßen, ein work on the factory-Issue hinterlassen Das endgültige Ziel ist nicht, dass Menschen einen Prozess von A bis D manuell führen, sondern ein System zu bauen, das Probleme von A bis Z lösen kann

(claude.com)

9 Punkte von xguru 4 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen

Anthropics Entwicklerkonferenz: Sie findet online und offline statt; die Offline-Events werden in San Francisco am 6.5., London am 19.5. und Tokio am 10.6. abgehalten. Von der Veranstaltung in San Francisco wurden Videos von 19 Sessions veröffentlicht.
Claude entwickelt sich in Richtung längerer Arbeitsabläufe, Langzeitspeicher, Nutzung von mehr Tools und besserer Verifikation weiter.
Die zentrale Veränderung besteht darin, dass iterative Ausführung, Tool-Auswahl, Verifikation, Memory und Kontextverwaltung, die Entwickler bisher selbst gebaut haben, in Claudes Produkte und Plattform integriert werden.
Die Differenzierung von Produkten und Organisationen verschiebt sich weg von der Frage, wie man das Modell aufruft, hin dazu, welche Tools, Daten, Berechtigungen und welchen Kontext man dem Modell zugänglich macht.
Mehr noch als das eigentliche Schreiben von Code werden Verifikation, Sicherheit, Berechtigungsverwaltung, Observability, Evaluierungsrahmen und organisatorischer Betrieb zu neuen Engpässen.
Wichtige Bereiche in Zukunft sind maßgeschneiderte Tools, vertrauenswürdiges Memory, Evaluierung, Sicherheitsgrenzen, Context Engineering und Agent Experience.

Session 1 - Keynote

Der Fokus liegt auf Produktverbesserungen, damit Claude Code und die Claude Platform für Entwickler besser funktionieren.
Die meisten Nutzer verwenden Claude nicht direkt über die Claude API oder das Terminal, sondern innerhalb von Produkten, die von Entwicklern gebaut wurden.
Die API-Nutzung der Claude Platform ist im Jahresvergleich auf fast das 17-Fache gestiegen.
Der durchschnittliche Entwickler von Claude Code führt Claude 20 Stunden pro Woche aus.
Das 5-Stunden-Nutzungslimit von Claude Code wurde für Pro-, Max-, Team- und seat-based Enterprise-Pläne verdoppelt.
Auch das Opus-API-Limit wurde deutlich angehoben.
Mithilfe der Kapazität des Colossus One-Rechenzentrums von SpaceX sollen Einzelentwicklern und kleinen Teams mehr Rechenressourcen bereitgestellt werden.
Opus 4.7 verbessert bei Amp, Rakuten und Intuit die Leistung von Coding Agents, die Qualität der Planung und die Lösungsrate bei realen Engineering-Aufgaben.
Claude entwickelt sich künftig in Richtung besseres Urteilsvermögen, größerer Kontext und mehr Memory sowie Zusammenarbeit mehrerer Agents.

Session 2 - What's new in Claude Code

Die neuen Funktionen von Claude Code lassen sich in zwei Bereiche einteilen: bessere Developer Usability und mehr Autonomie.
Remote Control ermöglicht es, eine im Terminal gestartete Session im Web oder auf dem Smartphone fortzusetzen.
Die Full screen terminal UI nutzt virtuelles Scrollback und bietet flimmerfreies Rendering sowie anklickbare Ansichten für Tool-Aufrufe.
Die GUI von Claude Code wurde so überarbeitet, dass mehrere Sessions per Pinning, Filterung, Gruppierung und Splitscreen verwaltet werden können.
In Plan View, Diff View und Files View lassen sich Kommentare auf Zeilenebene hinterlassen, die Claude später gesammelt verarbeiten kann.
Auto Mode klassifiziert, ob ein Tool-Aufruf destruktiv ist oder wie Prompt Injection aussieht, und führt ihn bei Sicherheit ohne Berechtigungsabfrage aus.
Worktree ermöglicht es mehreren Claude-Sessions, parallel in jeweils isolierten Branches und Dateikopien zu arbeiten.
Auto Memory verwaltet projektbezogene memory.md-Dateien und relevante Dateien, sodass Claude Build-Befehle, Debugging-Hinweise und Projektpräferenzen in späteren Sessions wiederverwenden kann.
Routines und /loop automatisieren die Ausführung von Claude-Code-Sessions über Cron, GitHub-Webhooks oder API-Trigger.

Session 3 - Memory and dreaming for self-learning agents

Memory wird als Basiselement der nächsten Stufe nach MCP, Claude Code, Agent SDK und Skills behandelt.
Das Memory von Claude Managed Agents ist wie ein Dateisystem organisiert, sodass Claude es direkt mit Bash und Grep ordnen und aktualisieren kann.
Opus 4.7 trifft bessere Entscheidungen darüber, was gespeichert werden soll, wie Dateien aufgeteilt werden und wie die Memory-Struktur erhalten bleibt.
Damit mehrere Agents denselben Memory-Speicher lesen und schreiben können, lassen sich schreibgeschütztes Organisations-Memory und Lese-/Schreib-Arbeits-Memory trennen.
Damit auch bei gleichzeitigen Änderungen durch Hunderte von Agents keine Überschreibungen entstehen, wird eine inhaltsbasiert gehashte optimistische Parallelitätskontrolle verwendet.
Änderungsverlauf, Autor, Session und Zeitpunkt werden festgehalten, damit Memory in Unternehmensumgebungen auditierbar verwaltet werden kann.
Dreaming analysiert asynchron jüngste Agent-Sessions und Transcripts, um wiederholte Fehler, erfolgreiche Strategien, redundantes Memory und veraltetes Memory zu finden und aufzuräumen.
Harvey setzte Dreaming auf einen Rechts-Benchmark an und erhöhte dabei die Abschlussrate einer juristischen Aufgabe um das 6-Fache.
In einer SRE-Demo erkannte Dreaming ein 60-Sekunden-Retry-Muster, das mehrere Agents isoliert betrachtet übersehen hatten, und überführte es ins Memory.
Ziel ist eine Struktur für kontinuierliches Lernen, bei der die Agent-Arbeit von heute die Agents von morgen automatisch verbessert.

Session 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale

Auf der Größenordnung von GitHub Copilot wird Prompt Caching zu einem zentralen Hebel, um Kosten und Latenz zu senken.
Die angestrebte Cache-Trefferquote liegt bei 94–96 %; ein Wert von rund 70 % gilt als Hinweis auf Probleme bei Prompt-Zusammenstellung oder Caching-Design.
Der vordere Teil von System-Prompt und Tool-Liste sollte möglichst statisch bleiben.
Wenn UUIDs, Zeitpunkte oder dynamisches Tool-Loading im vorderen Teil stehen, bricht der Cache leicht.
Auch in einem Harness, das zwischen mehreren Modellen wechselt, muss Cache-Freundlichkeit gewahrt bleiben, damit Opus-Aufrufe frühere Caches wiederverwenden können.
GitHub rollt neue Modelle in der Reihenfolge Offline-Benchmark, interne Nutzung, A/B-Test, Online-Evaluierung (eval), Optimierung nach dem Release aus.
Die Advisor-Strategie bedeutet, dass ein günstiges Ausführungsmodell den Großteil der Arbeit übernimmt und Opus nur dann als Berater aufgerufen wird, wenn wichtige Entscheidungen anstehen.
Nicht das Modell allein, sondern die Betriebsebene aus Prompts, Tools, Cache, Modellauswahl, Evaluierung und Online-Feedback entscheidet über Qualität und Kosten.

Session 5 - The expanding toolkit

Hilfscode, den man im vergangenen Jahr noch selbst gebaut hat, ist jetzt in Modell und API enthalten.
Beim Tool-Einsatz nimmt der Wert von manuellen Routern oder Retry-Decorators ab.
Claude kann Tools selbst finden, fehlgeschlagene Tool-Aufrufe erkennen und beheben und sie anschließend erneut ausführen.
In Tool-Anleitungen sollte man nicht nur Eingaben, sondern auch das Ausgabe-Schema festhalten.
Wenn die Ausgabestruktur im Voraus bekannt ist, kann Claude Ergebnisse besser nutzen, ohne unnötige Hin-und-her-Aufrufe.
Die Pre-/Post-Tool-Hooks von Claude Code lassen sich nutzen, um bestimmte Aufrufe zu blockieren oder Ergebnisse automatisch zu protokollieren und zu analysieren.
Mit 1 Million Token Kontext, serverseitiger Kompression und Context Editing wird die Kontextverwaltung bei langen Aufgaben einfacher.
Veraltete Screenshots, Suchergebnisse und Dateileseresultate können regelmäßig entfernt werden, während die daraus entstandenen Schlussfolgerungen erhalten bleiben.
Opus 4.7 liefert bei Screenshots in Originalauflösung bis 1440p 1:1-Pixelkoordinaten zurück und reduziert so den Aufwand zur Koordinatenkorrektur bei der Bildschirmautomatisierung.
Code zur Kompensation von Modellgrenzen ist kurzlebig; langlebig ist Code, der Tools, Daten, Authentifizierung und Domain-Kontext verbindet, die Claude selbst nicht sehen kann.

Session 6 - How to get to production faster with Claude Managed Agents

Claude Managed Agents bündeln die für langlaufende produktive Agenten nötigen Kontextverwaltung, Zugangsdatenverwaltung, Sicherheit, Zugriffskontrolle, menschliche Überprüfung und Observability in einer Plattform
Die Grundkonfiguration besteht aus Agent-Konfiguration, Environment und Session
Über Session Events lassen sich Benutzerereignisse, Agentenereignisse, Sitzungsereignisse und Abschnittsereignisse einsehen
Die Console vereint Konfiguration, Environment, vollständigen Ausführungs-Trace, Engpässe und empfohlene Maßnahmen auf einem Bildschirm
Outcomes ist eine Funktion, mit der Claude so lange iteriert, bis vorab definierte Abschlusskriterien und Bewertungsmaßstäbe erfüllt sind
Auch die Koordination mehrerer Agenten, Memory und Dreaming werden gemeinsam als fortgeschrittene Funktionen behandelt
In der Dashboard-Demo fand der Agent Parallelisierung, Fast Mode und Prompt-Optimierung und verkürzte die Rendering-Zeit von etwa 37 auf 10 Sekunden
Produktive Agenten brauchen nicht nur eine Schleife für wiederholte Modellaufrufe, sondern auch Tracing, Engpassanalyse, Berechtigungen und Validierung

Sitzung 7 - A conversation with Dario Amodei & Daniela Amodei

Anthropic fehlt wegen eines schneller als erwarteten Wachstums bei Nutzung und Umsatz an Rechenressourcen
Das Unternehmen will sich zusätzliche Rechenkapazität sichern, um Entwicklern und Nutzern mehr bereitzustellen
Entwickler gelten als zentrale Nutzer von Claude und als die Gruppe, die zuerst zeigt, wie sich KI in der gesamten Wirtschaft verbreitet
Die nächste Veränderung bei Claude Code verlagert sich von individueller Produktivität hin zu Produktivität von Teams und Organisationen
Je schneller Code geschrieben wird, desto stärker werden Sicherheit, Validierung, Zuverlässigkeit und Wartbarkeit zu neuen Engpässen
Weil sich die Modellfähigkeiten schnell verändern, werden Produkte plötzlich möglich, die noch vor wenigen Monaten unmöglich waren
Der API-Markt bleibt weiterhin wichtig
Claude entwickelt sich künftig über die Unterstützung einzelner Personen hinaus in Richtung Skalierung der Arbeit vieler Menschen und vieler Agenten in ganzen Organisationen

Sitzung 8 - Live coding session with Boris Cherny and Jarred Sumner

Buns Robobun reproduziert GitHub-Issues automatisch und erstellt PRs inklusive Tests
Als Kriterium für das Einreichen eines PRs gilt, dass frühere Versionen fehlschlagen und der Fix-Branch besteht
CLAUDE.md dient als Betriebsdokument für Agenten und enthält Build-Befehle, Testbefehle, Testpfade, frühere Fehlermuster, Ordnerstruktur und wie CI-Logs zu lesen sind
Mit CodeRabbit, Claude Code Review und Robobun zusammen werden Stil, Einhaltung von CLAUDE.md und Prüfungen von Randfällen außerhalb des Diffs automatisiert
Claude Code und Opus 4.7 eignen sich gut für Arbeiten, bei denen Ziel, Messmethode und Validierungsiteration klar definiert sind und sich die Leistung schrittweise steigern lässt
Der Engpass verlagert sich vom Code schreiben hin zu Planung und Validierung
Von Agenten erstellte PRs müssen nicht zwingend zusammengeführt werden, sondern können als überprüfbare Vorschläge behandelt werden
Auch wenn Agenten-PRs zunehmen, sinken die Maßstäbe für menschliche Merges nicht, sondern können sogar steigen

Sitzung 9 - Building with Claude Managed Agents and Asana AI teammates

Asanas AI teammates zielen auf Agenten ab, die innerhalb von Unternehmen wie echte Kollegen arbeiten
Die Agenten werden zu Akteuren, die Freigaben, Workflows und mehrstufige Aufgaben gemeinsam mit Menschen bearbeiten
In vielen Unternehmen bleibt der Agenteneinsatz noch auf Einzelnutzer-Flows beschränkt, bei denen eine Person ein Ergebnis erhält und es an die nächste weitergibt
Asana strebt kollaborative Arbeitsabläufe an, in denen mehrere Personen mit demselben Agenten interagieren und Wissen sowie Memory anwachsen
Der Asana work graph verbindet Ziele, Portfolios, Projekte, Aufgaben, Freigaben und frühere Entscheidungen und dient als Agenten-Kontext
Ein AI teammate tritt mit gemeinsamen Einstellungen, rollenbasierter Zugriffskontrolle und Auditierbarkeit wie ein menschlicher Kollege in Systeme ein
Claude Managed Agents übernehmen mehrstufige Aufgaben wie das Erstellen von Kampagnen-Briefings und das Generieren von HTML-Landingpage-Mockups
Asana konzentriert sich auf Mensch-Interface, Unternehmenskontext, Sicherheit und Auditierbarkeit, während Claude Managed Agents Validierungsiterationen, Grader, Outcomes und die Ausführung mehrerer Agenten übernehmen
Mehr als 21 vorgefertigte AI teammates werden für Aufgaben in PMO, Marketing, IT, HR und F&E bereitgestellt
Feedback bleibt im Memory des Agenten erhalten, damit der nächste Nutzer dieselben Fehler nicht erneut erlebt

Sitzung 10 - Running an AI-native engineering org

In einer AI-native Engineering-Organisation ist der Durchsatz beim Schreiben von Code nicht mehr der teuerste Engpass
Validierung, Review, Sicherheit, Wartung und abteilungsübergreifende Koordination werden zu den neuen größeren Engpässen
Statt eines 6-Monats-Roadmaps oder Design-Dokumenten vor jeder Arbeit passt zum Claude-Code-Team eher ein Ablauf, bei dem zum richtigen Zeitpunkt geplant und schnell prototypisiert wird
Technische Debatten verlagern sich von langen Whiteboard-Diskussionen hin zur Erstellung mehrerer Implementierungs-PRs, um reale Auswirkungen und API-Formen zu vergleichen
Weil Codegenerierung einfacher geworden ist, werden Tests, Automatisierung und frühere Validierung noch wichtiger
Wichtiger als die Frage „Wer hat diesen Code geschrieben?“ ist die Unterscheidung zwischen Ursache von Regressionen, Bedarf an Expertenantworten und dem Zweck der Kontextbeschaffung
Das Claude-Code-Team überlässt Claude Stil, Linting, PR-Feedback sowie einige Bugfixes und das Hinzufügen von Tests
Rechtsprüfung, sicherheitssensibler Code, Vertrauensgrenzen und Produktgespür bleiben weiterhin Sache menschlicher Experten
Bei Einstellungen zählen kreative Builder mit Produktgespür und tiefe Systemexpertise mehr als bloßer Durchsatz
Als Erfolgskennzahlen können verkürzte Onboarding-Zeit, kürzere PR-Zyklen und mehr Commits mit Claude-Unterstützung dienen

Sitzung 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey

Gamma überführt Verbesserungen bei Tool-Calling und Agentenkoordination schnell ins Produkt und stärkt so agentenbasierte Editing-Workflows
Gamma nutzt MCP-Connectoren nicht nur als Integrationsfunktion, sondern auch für Kundengewinnung und als Einstiegspunkt in Workflows
Cognition reduziert einige eigene Planungs- und Memory-Systeme, weil Modelle besser beim Bearbeiten von Code, der Nutzung von Dateisystemen und langfristiger Ablaufplanung werden
Harvey entwirft bei jedem Wendepunkt von Foundation Models, Reasoning-Modellen und Coding-Agenten die Produktarchitektur neu
Harveys aktuelle Plattformfähigkeiten wären ohne eine agent-native Struktur nur schwer erreichbar gewesen
AI-native Produkte müssen davon ausgehen, dass bestehende Architekturen innerhalb von 6 bis 12 Monaten veralten können
Aufzeichnung, Observability, Replay und Evaluation werden zu unverzichtbaren Mechanismen, um auf schnelle Architekturveränderungen zu reagieren
In sensiblen Bereichen wie dem Rechtswesen sind harte Datengrenzen zwischen öffentlichen Daten, nicht öffentlichen Daten, Memory und Agenten-Workflows nötig
Wichtiger als eine Architektur, die auf spezifische Modellgrenzen zugeschnitten ist, wird eine Architektur, die den nächsten Fähigkeitssprung schnell aufnehmen kann

Sitzung 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch

Vercel sieht agentische Infrastruktur als zentrale strategische Richtung
Die Cloud kann sich zu einer Infrastruktur weiterentwickeln, die sich selbst repariert, optimiert und ihre Konfiguration verändert
AI Gateway wird wie ein CDN für Tokens behandelt
Es wird zu einer Schicht, die mehrere Anbieter und Modelle verwaltet und Routing, Failover sowie Kostenkontrolle übernimmt
Opus-Tokens machen anteilig an den Ausgaben deutlich mehr aus als anteilig an der Nutzung; wer hochintelligente Modelle in Produkte integriert, muss die Kostenstruktur daher klar im Blick haben
Nach der Einführung von Opus 4.5 konnte V0 Grammatikprüfung, automatische Korrekturen und einige Verarbeitungsabläufe vereinfachen, die zuvor das ältere Modell ausgleichen mussten
Sprünge bei den Modellfähigkeiten führen nicht nur zu neuen Funktionen, sondern auch dazu, dass bestehender Korrekturcode entfernt werden kann
Nach dem erweiterten Einsatz von Opus in V0 haben sich die Produkt-Credit-Ausgaben verdoppelt
Künftig könnten neben CLI- und UI-basierter Entwicklung auch asynchrone Agenten mit weniger menschlicher Aufsicht deutlich wichtiger werden

Session 13 - The thinking lever

Test-Time Compute ist die Dimension, auf der Claude beim Schlussfolgern mehr Tokens und Zeit einsetzt, um schwierige Probleme zu lösen
Selbst bei Opus 4.7 unterscheidet sich die Qualität einer Verkehrssimulation je nach low, high oder max effort deutlich
Je mehr Zeit und Tokens eingesetzt werden, desto realistischer werden Grafik, Verkehrsfluss und Fahrzeugbewegungen
Die von Claude verwendeten Tokens lassen sich in Denk-Tokens, Tool-Call-Tokens und Text-Tokens einteilen
Denk-Tokens dienen der internen Schlussfolgerung, Tool-Call-Tokens der Interaktion mit der Außenwelt und Text-Tokens der Kommunikation mit dem Nutzer
effort ist ein Regler, der das Gleichgewicht zwischen Zeit, Kosten und Qualität ausdrückt
Task Budgets ermöglichen es, Obergrenzen für Tokens, Zeit und Kosten festzulegen, die Claude für eine bestimmte Aufgabe verwenden darf
Adaptive Thinking erlaubt es Claude, frei zu entscheiden, wann es nachdenken, Tools verwenden und dem Nutzer antworten muss
Für Coding- und agentische Use Cases gilt extra high als guter Standardwert
Für einfache Klassifizierung oder Extraktion in großem Volumen sind kleine Modelle vorteilhaft, während für Aufgaben mit hohem Intelligenzbedarf ein großes Modell mit niedrigem effort besser sein kann, wenn das Ergebnis schnell vorliegen soll

Session 14 - How Datadog built a universal machine tool for Claude Code

Rund 90 % der Datadog-Ingenieure nutzen AI-Coding-Tools für produktiven Code
Davon verwenden mindestens zwei Drittel Claude Code
Der Einsatzbereich von AI-Coding-Tools erweitert sich von einzelnen Funktionen, Tests und Glue Code hin zu Aufgaben auf Systemebene
Der Engpass verlagert sich vom Schreiben des Codes zu Feedback-Schleifen und Produktionsvalidierung
Im Helix-Experiment konnte Claude Code in wenigen Tagen einen Kafka-ähnlichen Streaming-Service bauen
Um das in die Produktionsumgebung zu bringen, braucht es Shadowing, stufenweise Validierung und System-Mileage
Tempor sorgt dafür, dass Agenten nicht spontan Tools bauen, sondern zuerst einen Blueprint mit Zuständen, Übergängen, Effekten und Invarianten erstellen
Übergangstabellen, Policy-Dokumente, typisierte Effekte, Validatoren und Property-Tests machen von Agenten erzeugte Software prüfbar
Damit Agenten Freiheit bekommen können, müssen die Invarianten und Validierungsverfahren produktiver Systeme maschinenlesbar gemacht werden

Session 15 - Building with Claude on Google Cloud

Als einfachster Weg zum Einrichten von Claude Code auf Google Cloud wird ein Application-Default-Credentials-basierter Setup-Assistent verwendet
Der Setup-Assistent kann Projekt, Region und verfügbare Modelle erkennen und festlegen
Wer Claude-Modelle auf Google Cloud nutzt, kann tokenbasierte Abrechnung, provisioned throughput, weniger Aufwand beim Rotieren von API keys, Projekt-Policies, Datenhaltung innerhalb des Projekts sowie regionale und globale Endpoints nutzen
Die Demo zeigt, wie fünf Rollen — PM, UI/UX designer, software engineer, security engineer und data/growth marketer — gemeinsam eine Feedback-App von Anfang bis Ende erstellen
Der PM gibt ein handgezeichnetes Wireframe in Claude Code ein und erstellt schnell einen Prototyp
In der UI/UX-Phase sorgt der Plan-Modus dafür, dass Claude vor der Umsetzung zuerst einen Plan vorlegt
Die Google Cloud developer knowledge API und ein MCP server verbinden Claude Code mit aktueller Dokumentation und Architekturleitfäden
Google Cloud Skills helfen bei der Implementierung einzelner Bausteine wie dem Deployment einer Cloud-Run-API oder der Anbindung von Cloud Run an Firestore
Mit sub-agent werden API, Ingestion-Pipeline und Dashboard parallel umgesetzt
Ein security review prompt prüft auf OWASP-Probleme oder Service-Account-Berechtigungen, behebt gefundene Probleme und deployt anschließend auf Cloud Run

Session 16 - Getting more out of the Claude Platform

Prioritäten bei der Optimierung produktiver Agenten sind Prompt Caching, Context Engineering und die Advisor-Strategie
Prompt Caching senkt die Kosten für Input-Tokens, verkürzt die Zeit bis zum ersten Token und reduziert die Belastung durch Nutzungslimits für gecachte Tokens
Als Zielwert für die Cache-Trefferquote gelten Werte im Bereich von 90 %
Die Stabilität des vorderen Prompt-Teils, die Position von Tool-Definitionen und die Stelle, an der dynamische Werte eingefügt werden, beeinflussen den Cache
Ein Tool Search Tool lädt nur die jeweils benötigten Tool-Definitionen nach und spart so Kontext
Wenn alle Tools von Anfang an eingebunden werden, steigt die Last sowohl für den Kontext als auch für den Cache
Programmatic Tool Calling wählt aus vielen Tool-Ergebnissen nur die nötigen Teile aus und fügt sie in den Kontext ein, statt alles unverändert zu übernehmen
Compaction reduziert ältere Dialoge und Tool-Ergebnisse, damit lange Aufgaben fortgesetzt werden können
Bei der Advisor-Strategie übernehmen Sonnet oder Haiku den Großteil der Arbeit, und nur bei wichtigen Entscheidungen wird Opus als Berater hinzugezogen
Entscheidend ist nicht, das Modell häufiger aufzurufen, sondern zu entwerfen, mit welchem Kontext, welchen Tools und welcher Cache-Struktur das Modell arbeitet

Session 17 - Evaluating and improving Replit Agent at scale

Nutzer von Replit Agent erwarten, dass allein mit natürlicher Sprache funktionsfähige Apps entstehen, ohne Frameworks oder Tests angeben zu müssen
Anders als bei allgemeinen Coding-Benchmarks, die nur prüfen, ob ein Patch Tests besteht, lässt sich die Qualität von Replit Agent so nur schwer messen
Die Bewertung muss darauf schauen, ob die App wie vom Nutzer gewünscht funktioniert
Replit nutzt sowohl Offline-Evaluierung als auch Online-Evaluierung
Die Offline-Evaluierung dient als Gate vor einem neuen Agent-Release, die Online-Evaluierung für schnelle Reaktionen nach dem realen Einsatz
VibeBench ist ein offener Benchmark, bei dem 20 reale PRDs als Eingabe dienen, um aus einem leeren Repository Apps zu erstellen, die dann von einem automatischen Evaluator im Browser getestet werden
Die meisten Modelle tun sich deutlich schwerer damit, ihren eigenen Code nachträglich weiter auszubauen
Zwischen Funktionen sollten Test- und Validierungsschritte eingebaut werden, um zu vermeiden, immer weiter auf einem instabilen Fundament aufzubauen
Telescope ist ein internes System, das produktive Ausführungsspuren semantisch bündelt, Long-Tail-Fehler findet, Probleme klassifiziert, den Agenten ein PR erstellen lässt und das Ergebnis mit VibeBench oder A/B-Tests validiert
Evaluierung ist nicht bloß die letzte Checkliste vor dem Release, sondern die Engine, mit der Agenten täglich verbessert werden

Session 18 – The capability curve

Nutzer von Claude Code deployen schneller und mit größerem Vertrauen als im vergangenen Jahr
Bei einer Publikumsabstimmung während der Präsentation gaben viele Teilnehmende an, mit Claude eine 10-fache, 5-fache oder 2-fache Geschwindigkeitssteigerung zu erleben
Auf SWE-bench Verified erreichte Sonnet 3.7 etwa 62 %, Opus 4.7 87 %
Opus 4.7 hat eine mehr als dreimal so hohe Wahrscheinlichkeit, schwierige PRs erfolgreich zu lösen, an denen Sonnet 3.7 scheiterte
In einer Demo, bei der Claude.ai mit demselben Prompt nachgebaut wurde, erzeugten frühere Modelle eine allgemeine Chat-UI und Fehler, während Opus 4.7 Claude-Farben, API-Antworten, Chatverlauf, Inline-Grafiken und Dark Mode umsetzte
Verbesserte Bereiche sind Planung, Fehlerbehebung und das Aufrechterhalten der Aufmerksamkeit bei langen Ausführungen
Das neue Modell plant zuerst, geht bei Fehlschlägen zurück und hält auch in langen Kontexten System-Prompt und Ziele besser ein
Um echte Verbesserungen zu sehen, müssen Evaluierungen erstellt werden, deren Verteilung näher am Produkt liegt
Je besser Modelle werden, desto schneller sättigen bestehende Evaluierungen, daher müssen auch die Evaluierungen laufend schwieriger werden
Wenn ein neues Frontier Model erscheint, sollte geprüft werden, ob sich bisherige Kalibrierungsverfahren und Prompts wieder reduzieren lassen

Session 19 – Giving coding agents their own computers: How Cursor built cloud agents

Cursor sieht den Engpass weniger in der Modellintelligenz als darin, dass Menschen dem Modell nicht genügend Werkzeuge, Kontext und große Ziele geben können
So wie menschliche Entwickler onboarded werden, sollten auch Agenten einen Computer, eine Entwicklungsumgebung und Dokumentation erhalten
Der Onboarding-Agent von Cursor durchsucht Repositories und ermittelt, wie die App gestartet wird, welche Services, Umgebungsvariablen und Berechtigungen benötigt werden
AnyDev CLI ist ein Tool, das Agenten hilft, Services zu starten, auf Bereitschaft zu warten, den Status zu prüfen und sogar Testkonten zu erstellen oder Logins durchzuführen
Je besser die Entwicklungsumgebung für Agenten wird, desto mehr Cloud Agents lassen Entwickler laufen und desto größere Aufgaben übertragen sie ihnen
Das Grundprinzip von Autonomie ist, Agenten Augen, Werkzeuge und guten Kontext zu geben
Agenten sollten wie Menschen den Zustand der App, Gespräche anderer Agenten und den Status von Services sehen können
Cursor betrachtet computer use als den nächsten wichtigen Grundbaustein nach dem Coding
Claude 4.7 ermöglicht es Agenten, eigenständig End-to-End-Demos aufzuzeichnen, um Funktionen zu verifizieren, sodass Menschen die Ergebnisse vor dem Code-Review schnell verstehen können
Cursor behandelt die agent experience als eigenes Gestaltungsziel und lässt Agenten, wenn sie auf lästige, kaputte oder verwirrende Abläufe stoßen, ein work on the factory-Issue hinterlassen
Das endgültige Ziel ist nicht, dass Menschen einen Prozess von A bis D manuell führen, sondern ein System zu bauen, das Probleme von A bis Z lösen kann