- Anthropics Entwicklerkonferenz: Sie findet online und offline statt; die Offline-Events werden in San Francisco am 6.5., London am 19.5. und Tokio am 10.6. abgehalten. Von der Veranstaltung in San Francisco wurden Videos von 19 Sessions veröffentlicht.
- Claude entwickelt sich in Richtung längerer Arbeitsabläufe, Langzeitspeicher, Nutzung von mehr Tools und besserer Verifikation weiter.
- Die zentrale Veränderung besteht darin, dass iterative Ausführung, Tool-Auswahl, Verifikation, Memory und Kontextverwaltung, die Entwickler bisher selbst gebaut haben, in Claudes Produkte und Plattform integriert werden.
- Die Differenzierung von Produkten und Organisationen verschiebt sich weg von der Frage, wie man das Modell aufruft, hin dazu, welche Tools, Daten, Berechtigungen und welchen Kontext man dem Modell zugänglich macht.
- Mehr noch als das eigentliche Schreiben von Code werden Verifikation, Sicherheit, Berechtigungsverwaltung, Observability, Evaluierungsrahmen und organisatorischer Betrieb zu neuen Engpässen.
- Wichtige Bereiche in Zukunft sind maßgeschneiderte Tools, vertrauenswürdiges Memory, Evaluierung, Sicherheitsgrenzen, Context Engineering und Agent Experience.
- Der Fokus liegt auf Produktverbesserungen, damit Claude Code und die Claude Platform für Entwickler besser funktionieren.
- Die meisten Nutzer verwenden Claude nicht direkt über die Claude API oder das Terminal, sondern innerhalb von Produkten, die von Entwicklern gebaut wurden.
- Die API-Nutzung der Claude Platform ist im Jahresvergleich auf fast das 17-Fache gestiegen.
- Der durchschnittliche Entwickler von Claude Code führt Claude 20 Stunden pro Woche aus.
- Das 5-Stunden-Nutzungslimit von Claude Code wurde für Pro-, Max-, Team- und seat-based Enterprise-Pläne verdoppelt.
- Auch das Opus-API-Limit wurde deutlich angehoben.
- Mithilfe der Kapazität des Colossus One-Rechenzentrums von SpaceX sollen Einzelentwicklern und kleinen Teams mehr Rechenressourcen bereitgestellt werden.
- Opus 4.7 verbessert bei Amp, Rakuten und Intuit die Leistung von Coding Agents, die Qualität der Planung und die Lösungsrate bei realen Engineering-Aufgaben.
- Claude entwickelt sich künftig in Richtung besseres Urteilsvermögen, größerer Kontext und mehr Memory sowie Zusammenarbeit mehrerer Agents.
- Die neuen Funktionen von Claude Code lassen sich in zwei Bereiche einteilen: bessere Developer Usability und mehr Autonomie.
- Remote Control ermöglicht es, eine im Terminal gestartete Session im Web oder auf dem Smartphone fortzusetzen.
- Die Full screen terminal UI nutzt virtuelles Scrollback und bietet flimmerfreies Rendering sowie anklickbare Ansichten für Tool-Aufrufe.
- Die GUI von Claude Code wurde so überarbeitet, dass mehrere Sessions per Pinning, Filterung, Gruppierung und Splitscreen verwaltet werden können.
- In Plan View, Diff View und Files View lassen sich Kommentare auf Zeilenebene hinterlassen, die Claude später gesammelt verarbeiten kann.
- Auto Mode klassifiziert, ob ein Tool-Aufruf destruktiv ist oder wie Prompt Injection aussieht, und führt ihn bei Sicherheit ohne Berechtigungsabfrage aus.
- Worktree ermöglicht es mehreren Claude-Sessions, parallel in jeweils isolierten Branches und Dateikopien zu arbeiten.
- Auto Memory verwaltet projektbezogene
memory.md-Dateien und relevante Dateien, sodass Claude Build-Befehle, Debugging-Hinweise und Projektpräferenzen in späteren Sessions wiederverwenden kann.
- Routines und
/loop automatisieren die Ausführung von Claude-Code-Sessions über Cron, GitHub-Webhooks oder API-Trigger.
- Memory wird als Basiselement der nächsten Stufe nach MCP, Claude Code, Agent SDK und Skills behandelt.
- Das Memory von Claude Managed Agents ist wie ein Dateisystem organisiert, sodass Claude es direkt mit Bash und Grep ordnen und aktualisieren kann.
- Opus 4.7 trifft bessere Entscheidungen darüber, was gespeichert werden soll, wie Dateien aufgeteilt werden und wie die Memory-Struktur erhalten bleibt.
- Damit mehrere Agents denselben Memory-Speicher lesen und schreiben können, lassen sich schreibgeschütztes Organisations-Memory und Lese-/Schreib-Arbeits-Memory trennen.
- Damit auch bei gleichzeitigen Änderungen durch Hunderte von Agents keine Überschreibungen entstehen, wird eine inhaltsbasiert gehashte optimistische Parallelitätskontrolle verwendet.
- Änderungsverlauf, Autor, Session und Zeitpunkt werden festgehalten, damit Memory in Unternehmensumgebungen auditierbar verwaltet werden kann.
- Dreaming analysiert asynchron jüngste Agent-Sessions und Transcripts, um wiederholte Fehler, erfolgreiche Strategien, redundantes Memory und veraltetes Memory zu finden und aufzuräumen.
- Harvey setzte Dreaming auf einen Rechts-Benchmark an und erhöhte dabei die Abschlussrate einer juristischen Aufgabe um das 6-Fache.
- In einer SRE-Demo erkannte Dreaming ein 60-Sekunden-Retry-Muster, das mehrere Agents isoliert betrachtet übersehen hatten, und überführte es ins Memory.
- Ziel ist eine Struktur für kontinuierliches Lernen, bei der die Agent-Arbeit von heute die Agents von morgen automatisch verbessert.
- Auf der Größenordnung von GitHub Copilot wird Prompt Caching zu einem zentralen Hebel, um Kosten und Latenz zu senken.
- Die angestrebte Cache-Trefferquote liegt bei 94–96 %; ein Wert von rund 70 % gilt als Hinweis auf Probleme bei Prompt-Zusammenstellung oder Caching-Design.
- Der vordere Teil von System-Prompt und Tool-Liste sollte möglichst statisch bleiben.
- Wenn UUIDs, Zeitpunkte oder dynamisches Tool-Loading im vorderen Teil stehen, bricht der Cache leicht.
- Auch in einem Harness, das zwischen mehreren Modellen wechselt, muss Cache-Freundlichkeit gewahrt bleiben, damit Opus-Aufrufe frühere Caches wiederverwenden können.
- GitHub rollt neue Modelle in der Reihenfolge Offline-Benchmark, interne Nutzung, A/B-Test, Online-Evaluierung (eval), Optimierung nach dem Release aus.
- Die Advisor-Strategie bedeutet, dass ein günstiges Ausführungsmodell den Großteil der Arbeit übernimmt und Opus nur dann als Berater aufgerufen wird, wenn wichtige Entscheidungen anstehen.
- Nicht das Modell allein, sondern die Betriebsebene aus Prompts, Tools, Cache, Modellauswahl, Evaluierung und Online-Feedback entscheidet über Qualität und Kosten.
- Hilfscode, den man im vergangenen Jahr noch selbst gebaut hat, ist jetzt in Modell und API enthalten.
- Beim Tool-Einsatz nimmt der Wert von manuellen Routern oder Retry-Decorators ab.
- Claude kann Tools selbst finden, fehlgeschlagene Tool-Aufrufe erkennen und beheben und sie anschließend erneut ausführen.
- In Tool-Anleitungen sollte man nicht nur Eingaben, sondern auch das Ausgabe-Schema festhalten.
- Wenn die Ausgabestruktur im Voraus bekannt ist, kann Claude Ergebnisse besser nutzen, ohne unnötige Hin-und-her-Aufrufe.
- Die Pre-/Post-Tool-Hooks von Claude Code lassen sich nutzen, um bestimmte Aufrufe zu blockieren oder Ergebnisse automatisch zu protokollieren und zu analysieren.
- Mit 1 Million Token Kontext, serverseitiger Kompression und Context Editing wird die Kontextverwaltung bei langen Aufgaben einfacher.
- Veraltete Screenshots, Suchergebnisse und Dateileseresultate können regelmäßig entfernt werden, während die daraus entstandenen Schlussfolgerungen erhalten bleiben.
- Opus 4.7 liefert bei Screenshots in Originalauflösung bis 1440p 1:1-Pixelkoordinaten zurück und reduziert so den Aufwand zur Koordinatenkorrektur bei der Bildschirmautomatisierung.
- Code zur Kompensation von Modellgrenzen ist kurzlebig; langlebig ist Code, der Tools, Daten, Authentifizierung und Domain-Kontext verbindet, die Claude selbst nicht sehen kann.
- Claude Managed Agents bündeln die für langlaufende produktive Agenten nötigen Kontextverwaltung, Zugangsdatenverwaltung, Sicherheit, Zugriffskontrolle, menschliche Überprüfung und Observability in einer Plattform
- Die Grundkonfiguration besteht aus Agent-Konfiguration, Environment und Session
- Über Session Events lassen sich Benutzerereignisse, Agentenereignisse, Sitzungsereignisse und Abschnittsereignisse einsehen
- Die Console vereint Konfiguration, Environment, vollständigen Ausführungs-Trace, Engpässe und empfohlene Maßnahmen auf einem Bildschirm
- Outcomes ist eine Funktion, mit der Claude so lange iteriert, bis vorab definierte Abschlusskriterien und Bewertungsmaßstäbe erfüllt sind
- Auch die Koordination mehrerer Agenten, Memory und Dreaming werden gemeinsam als fortgeschrittene Funktionen behandelt
- In der Dashboard-Demo fand der Agent Parallelisierung, Fast Mode und Prompt-Optimierung und verkürzte die Rendering-Zeit von etwa 37 auf 10 Sekunden
- Produktive Agenten brauchen nicht nur eine Schleife für wiederholte Modellaufrufe, sondern auch Tracing, Engpassanalyse, Berechtigungen und Validierung
- Anthropic fehlt wegen eines schneller als erwarteten Wachstums bei Nutzung und Umsatz an Rechenressourcen
- Das Unternehmen will sich zusätzliche Rechenkapazität sichern, um Entwicklern und Nutzern mehr bereitzustellen
- Entwickler gelten als zentrale Nutzer von Claude und als die Gruppe, die zuerst zeigt, wie sich KI in der gesamten Wirtschaft verbreitet
- Die nächste Veränderung bei Claude Code verlagert sich von individueller Produktivität hin zu Produktivität von Teams und Organisationen
- Je schneller Code geschrieben wird, desto stärker werden Sicherheit, Validierung, Zuverlässigkeit und Wartbarkeit zu neuen Engpässen
- Weil sich die Modellfähigkeiten schnell verändern, werden Produkte plötzlich möglich, die noch vor wenigen Monaten unmöglich waren
- Der API-Markt bleibt weiterhin wichtig
- Claude entwickelt sich künftig über die Unterstützung einzelner Personen hinaus in Richtung Skalierung der Arbeit vieler Menschen und vieler Agenten in ganzen Organisationen
- Buns Robobun reproduziert GitHub-Issues automatisch und erstellt PRs inklusive Tests
- Als Kriterium für das Einreichen eines PRs gilt, dass frühere Versionen fehlschlagen und der Fix-Branch besteht
CLAUDE.md dient als Betriebsdokument für Agenten und enthält Build-Befehle, Testbefehle, Testpfade, frühere Fehlermuster, Ordnerstruktur und wie CI-Logs zu lesen sind
- Mit CodeRabbit, Claude Code Review und Robobun zusammen werden Stil, Einhaltung von
CLAUDE.md und Prüfungen von Randfällen außerhalb des Diffs automatisiert
- Claude Code und Opus 4.7 eignen sich gut für Arbeiten, bei denen Ziel, Messmethode und Validierungsiteration klar definiert sind und sich die Leistung schrittweise steigern lässt
- Der Engpass verlagert sich vom Code schreiben hin zu Planung und Validierung
- Von Agenten erstellte PRs müssen nicht zwingend zusammengeführt werden, sondern können als überprüfbare Vorschläge behandelt werden
- Auch wenn Agenten-PRs zunehmen, sinken die Maßstäbe für menschliche Merges nicht, sondern können sogar steigen
- Asanas AI teammates zielen auf Agenten ab, die innerhalb von Unternehmen wie echte Kollegen arbeiten
- Die Agenten werden zu Akteuren, die Freigaben, Workflows und mehrstufige Aufgaben gemeinsam mit Menschen bearbeiten
- In vielen Unternehmen bleibt der Agenteneinsatz noch auf Einzelnutzer-Flows beschränkt, bei denen eine Person ein Ergebnis erhält und es an die nächste weitergibt
- Asana strebt kollaborative Arbeitsabläufe an, in denen mehrere Personen mit demselben Agenten interagieren und Wissen sowie Memory anwachsen
- Der Asana work graph verbindet Ziele, Portfolios, Projekte, Aufgaben, Freigaben und frühere Entscheidungen und dient als Agenten-Kontext
- Ein AI teammate tritt mit gemeinsamen Einstellungen, rollenbasierter Zugriffskontrolle und Auditierbarkeit wie ein menschlicher Kollege in Systeme ein
- Claude Managed Agents übernehmen mehrstufige Aufgaben wie das Erstellen von Kampagnen-Briefings und das Generieren von HTML-Landingpage-Mockups
- Asana konzentriert sich auf Mensch-Interface, Unternehmenskontext, Sicherheit und Auditierbarkeit, während Claude Managed Agents Validierungsiterationen, Grader, Outcomes und die Ausführung mehrerer Agenten übernehmen
- Mehr als 21 vorgefertigte AI teammates werden für Aufgaben in PMO, Marketing, IT, HR und F&E bereitgestellt
- Feedback bleibt im Memory des Agenten erhalten, damit der nächste Nutzer dieselben Fehler nicht erneut erlebt
- In einer AI-native Engineering-Organisation ist der Durchsatz beim Schreiben von Code nicht mehr der teuerste Engpass
- Validierung, Review, Sicherheit, Wartung und abteilungsübergreifende Koordination werden zu den neuen größeren Engpässen
- Statt eines 6-Monats-Roadmaps oder Design-Dokumenten vor jeder Arbeit passt zum Claude-Code-Team eher ein Ablauf, bei dem zum richtigen Zeitpunkt geplant und schnell prototypisiert wird
- Technische Debatten verlagern sich von langen Whiteboard-Diskussionen hin zur Erstellung mehrerer Implementierungs-PRs, um reale Auswirkungen und API-Formen zu vergleichen
- Weil Codegenerierung einfacher geworden ist, werden Tests, Automatisierung und frühere Validierung noch wichtiger
- Wichtiger als die Frage „Wer hat diesen Code geschrieben?“ ist die Unterscheidung zwischen Ursache von Regressionen, Bedarf an Expertenantworten und dem Zweck der Kontextbeschaffung
- Das Claude-Code-Team überlässt Claude Stil, Linting, PR-Feedback sowie einige Bugfixes und das Hinzufügen von Tests
- Rechtsprüfung, sicherheitssensibler Code, Vertrauensgrenzen und Produktgespür bleiben weiterhin Sache menschlicher Experten
- Bei Einstellungen zählen kreative Builder mit Produktgespür und tiefe Systemexpertise mehr als bloßer Durchsatz
- Als Erfolgskennzahlen können verkürzte Onboarding-Zeit, kürzere PR-Zyklen und mehr Commits mit Claude-Unterstützung dienen
- Gamma überführt Verbesserungen bei Tool-Calling und Agentenkoordination schnell ins Produkt und stärkt so agentenbasierte Editing-Workflows
- Gamma nutzt MCP-Connectoren nicht nur als Integrationsfunktion, sondern auch für Kundengewinnung und als Einstiegspunkt in Workflows
- Cognition reduziert einige eigene Planungs- und Memory-Systeme, weil Modelle besser beim Bearbeiten von Code, der Nutzung von Dateisystemen und langfristiger Ablaufplanung werden
- Harvey entwirft bei jedem Wendepunkt von Foundation Models, Reasoning-Modellen und Coding-Agenten die Produktarchitektur neu
- Harveys aktuelle Plattformfähigkeiten wären ohne eine agent-native Struktur nur schwer erreichbar gewesen
- AI-native Produkte müssen davon ausgehen, dass bestehende Architekturen innerhalb von 6 bis 12 Monaten veralten können
- Aufzeichnung, Observability, Replay und Evaluation werden zu unverzichtbaren Mechanismen, um auf schnelle Architekturveränderungen zu reagieren
- In sensiblen Bereichen wie dem Rechtswesen sind harte Datengrenzen zwischen öffentlichen Daten, nicht öffentlichen Daten, Memory und Agenten-Workflows nötig
- Wichtiger als eine Architektur, die auf spezifische Modellgrenzen zugeschnitten ist, wird eine Architektur, die den nächsten Fähigkeitssprung schnell aufnehmen kann
- Vercel sieht agentische Infrastruktur als zentrale strategische Richtung
- Die Cloud kann sich zu einer Infrastruktur weiterentwickeln, die sich selbst repariert, optimiert und ihre Konfiguration verändert
- AI Gateway wird wie ein CDN für Tokens behandelt
- Es wird zu einer Schicht, die mehrere Anbieter und Modelle verwaltet und Routing, Failover sowie Kostenkontrolle übernimmt
- Opus-Tokens machen anteilig an den Ausgaben deutlich mehr aus als anteilig an der Nutzung; wer hochintelligente Modelle in Produkte integriert, muss die Kostenstruktur daher klar im Blick haben
- Nach der Einführung von Opus 4.5 konnte V0 Grammatikprüfung, automatische Korrekturen und einige Verarbeitungsabläufe vereinfachen, die zuvor das ältere Modell ausgleichen mussten
- Sprünge bei den Modellfähigkeiten führen nicht nur zu neuen Funktionen, sondern auch dazu, dass bestehender Korrekturcode entfernt werden kann
- Nach dem erweiterten Einsatz von Opus in V0 haben sich die Produkt-Credit-Ausgaben verdoppelt
- Künftig könnten neben CLI- und UI-basierter Entwicklung auch asynchrone Agenten mit weniger menschlicher Aufsicht deutlich wichtiger werden
- Test-Time Compute ist die Dimension, auf der Claude beim Schlussfolgern mehr Tokens und Zeit einsetzt, um schwierige Probleme zu lösen
- Selbst bei Opus 4.7 unterscheidet sich die Qualität einer Verkehrssimulation je nach low, high oder max effort deutlich
- Je mehr Zeit und Tokens eingesetzt werden, desto realistischer werden Grafik, Verkehrsfluss und Fahrzeugbewegungen
- Die von Claude verwendeten Tokens lassen sich in Denk-Tokens, Tool-Call-Tokens und Text-Tokens einteilen
- Denk-Tokens dienen der internen Schlussfolgerung, Tool-Call-Tokens der Interaktion mit der Außenwelt und Text-Tokens der Kommunikation mit dem Nutzer
- effort ist ein Regler, der das Gleichgewicht zwischen Zeit, Kosten und Qualität ausdrückt
- Task Budgets ermöglichen es, Obergrenzen für Tokens, Zeit und Kosten festzulegen, die Claude für eine bestimmte Aufgabe verwenden darf
- Adaptive Thinking erlaubt es Claude, frei zu entscheiden, wann es nachdenken, Tools verwenden und dem Nutzer antworten muss
- Für Coding- und agentische Use Cases gilt extra high als guter Standardwert
- Für einfache Klassifizierung oder Extraktion in großem Volumen sind kleine Modelle vorteilhaft, während für Aufgaben mit hohem Intelligenzbedarf ein großes Modell mit niedrigem effort besser sein kann, wenn das Ergebnis schnell vorliegen soll
- Rund 90 % der Datadog-Ingenieure nutzen AI-Coding-Tools für produktiven Code
- Davon verwenden mindestens zwei Drittel Claude Code
- Der Einsatzbereich von AI-Coding-Tools erweitert sich von einzelnen Funktionen, Tests und Glue Code hin zu Aufgaben auf Systemebene
- Der Engpass verlagert sich vom Schreiben des Codes zu Feedback-Schleifen und Produktionsvalidierung
- Im Helix-Experiment konnte Claude Code in wenigen Tagen einen Kafka-ähnlichen Streaming-Service bauen
- Um das in die Produktionsumgebung zu bringen, braucht es Shadowing, stufenweise Validierung und System-Mileage
- Tempor sorgt dafür, dass Agenten nicht spontan Tools bauen, sondern zuerst einen Blueprint mit Zuständen, Übergängen, Effekten und Invarianten erstellen
- Übergangstabellen, Policy-Dokumente, typisierte Effekte, Validatoren und Property-Tests machen von Agenten erzeugte Software prüfbar
- Damit Agenten Freiheit bekommen können, müssen die Invarianten und Validierungsverfahren produktiver Systeme maschinenlesbar gemacht werden
- Als einfachster Weg zum Einrichten von Claude Code auf Google Cloud wird ein Application-Default-Credentials-basierter Setup-Assistent verwendet
- Der Setup-Assistent kann Projekt, Region und verfügbare Modelle erkennen und festlegen
- Wer Claude-Modelle auf Google Cloud nutzt, kann tokenbasierte Abrechnung, provisioned throughput, weniger Aufwand beim Rotieren von API keys, Projekt-Policies, Datenhaltung innerhalb des Projekts sowie regionale und globale Endpoints nutzen
- Die Demo zeigt, wie fünf Rollen — PM, UI/UX designer, software engineer, security engineer und data/growth marketer — gemeinsam eine Feedback-App von Anfang bis Ende erstellen
- Der PM gibt ein handgezeichnetes Wireframe in Claude Code ein und erstellt schnell einen Prototyp
- In der UI/UX-Phase sorgt der Plan-Modus dafür, dass Claude vor der Umsetzung zuerst einen Plan vorlegt
- Die Google Cloud developer knowledge API und ein MCP server verbinden Claude Code mit aktueller Dokumentation und Architekturleitfäden
- Google Cloud Skills helfen bei der Implementierung einzelner Bausteine wie dem Deployment einer Cloud-Run-API oder der Anbindung von Cloud Run an Firestore
- Mit sub-agent werden API, Ingestion-Pipeline und Dashboard parallel umgesetzt
- Ein security review prompt prüft auf OWASP-Probleme oder Service-Account-Berechtigungen, behebt gefundene Probleme und deployt anschließend auf Cloud Run
- Prioritäten bei der Optimierung produktiver Agenten sind Prompt Caching, Context Engineering und die Advisor-Strategie
- Prompt Caching senkt die Kosten für Input-Tokens, verkürzt die Zeit bis zum ersten Token und reduziert die Belastung durch Nutzungslimits für gecachte Tokens
- Als Zielwert für die Cache-Trefferquote gelten Werte im Bereich von 90 %
- Die Stabilität des vorderen Prompt-Teils, die Position von Tool-Definitionen und die Stelle, an der dynamische Werte eingefügt werden, beeinflussen den Cache
- Ein Tool Search Tool lädt nur die jeweils benötigten Tool-Definitionen nach und spart so Kontext
- Wenn alle Tools von Anfang an eingebunden werden, steigt die Last sowohl für den Kontext als auch für den Cache
- Programmatic Tool Calling wählt aus vielen Tool-Ergebnissen nur die nötigen Teile aus und fügt sie in den Kontext ein, statt alles unverändert zu übernehmen
- Compaction reduziert ältere Dialoge und Tool-Ergebnisse, damit lange Aufgaben fortgesetzt werden können
- Bei der Advisor-Strategie übernehmen Sonnet oder Haiku den Großteil der Arbeit, und nur bei wichtigen Entscheidungen wird Opus als Berater hinzugezogen
- Entscheidend ist nicht, das Modell häufiger aufzurufen, sondern zu entwerfen, mit welchem Kontext, welchen Tools und welcher Cache-Struktur das Modell arbeitet
- Nutzer von Replit Agent erwarten, dass allein mit natürlicher Sprache funktionsfähige Apps entstehen, ohne Frameworks oder Tests angeben zu müssen
- Anders als bei allgemeinen Coding-Benchmarks, die nur prüfen, ob ein Patch Tests besteht, lässt sich die Qualität von Replit Agent so nur schwer messen
- Die Bewertung muss darauf schauen, ob die App wie vom Nutzer gewünscht funktioniert
- Replit nutzt sowohl Offline-Evaluierung als auch Online-Evaluierung
- Die Offline-Evaluierung dient als Gate vor einem neuen Agent-Release, die Online-Evaluierung für schnelle Reaktionen nach dem realen Einsatz
- VibeBench ist ein offener Benchmark, bei dem 20 reale PRDs als Eingabe dienen, um aus einem leeren Repository Apps zu erstellen, die dann von einem automatischen Evaluator im Browser getestet werden
- Die meisten Modelle tun sich deutlich schwerer damit, ihren eigenen Code nachträglich weiter auszubauen
- Zwischen Funktionen sollten Test- und Validierungsschritte eingebaut werden, um zu vermeiden, immer weiter auf einem instabilen Fundament aufzubauen
- Telescope ist ein internes System, das produktive Ausführungsspuren semantisch bündelt, Long-Tail-Fehler findet, Probleme klassifiziert, den Agenten ein PR erstellen lässt und das Ergebnis mit VibeBench oder A/B-Tests validiert
- Evaluierung ist nicht bloß die letzte Checkliste vor dem Release, sondern die Engine, mit der Agenten täglich verbessert werden
- Nutzer von Claude Code deployen schneller und mit größerem Vertrauen als im vergangenen Jahr
- Bei einer Publikumsabstimmung während der Präsentation gaben viele Teilnehmende an, mit Claude eine 10-fache, 5-fache oder 2-fache Geschwindigkeitssteigerung zu erleben
- Auf SWE-bench Verified erreichte Sonnet 3.7 etwa 62 %, Opus 4.7 87 %
- Opus 4.7 hat eine mehr als dreimal so hohe Wahrscheinlichkeit, schwierige PRs erfolgreich zu lösen, an denen Sonnet 3.7 scheiterte
- In einer Demo, bei der Claude.ai mit demselben Prompt nachgebaut wurde, erzeugten frühere Modelle eine allgemeine Chat-UI und Fehler, während Opus 4.7 Claude-Farben, API-Antworten, Chatverlauf, Inline-Grafiken und Dark Mode umsetzte
- Verbesserte Bereiche sind Planung, Fehlerbehebung und das Aufrechterhalten der Aufmerksamkeit bei langen Ausführungen
- Das neue Modell plant zuerst, geht bei Fehlschlägen zurück und hält auch in langen Kontexten System-Prompt und Ziele besser ein
- Um echte Verbesserungen zu sehen, müssen Evaluierungen erstellt werden, deren Verteilung näher am Produkt liegt
- Je besser Modelle werden, desto schneller sättigen bestehende Evaluierungen, daher müssen auch die Evaluierungen laufend schwieriger werden
- Wenn ein neues Frontier Model erscheint, sollte geprüft werden, ob sich bisherige Kalibrierungsverfahren und Prompts wieder reduzieren lassen
- Cursor sieht den Engpass weniger in der Modellintelligenz als darin, dass Menschen dem Modell nicht genügend Werkzeuge, Kontext und große Ziele geben können
- So wie menschliche Entwickler onboarded werden, sollten auch Agenten einen Computer, eine Entwicklungsumgebung und Dokumentation erhalten
- Der Onboarding-Agent von Cursor durchsucht Repositories und ermittelt, wie die App gestartet wird, welche Services, Umgebungsvariablen und Berechtigungen benötigt werden
- AnyDev CLI ist ein Tool, das Agenten hilft, Services zu starten, auf Bereitschaft zu warten, den Status zu prüfen und sogar Testkonten zu erstellen oder Logins durchzuführen
- Je besser die Entwicklungsumgebung für Agenten wird, desto mehr Cloud Agents lassen Entwickler laufen und desto größere Aufgaben übertragen sie ihnen
- Das Grundprinzip von Autonomie ist, Agenten Augen, Werkzeuge und guten Kontext zu geben
- Agenten sollten wie Menschen den Zustand der App, Gespräche anderer Agenten und den Status von Services sehen können
- Cursor betrachtet computer use als den nächsten wichtigen Grundbaustein nach dem Coding
- Claude 4.7 ermöglicht es Agenten, eigenständig End-to-End-Demos aufzuzeichnen, um Funktionen zu verifizieren, sodass Menschen die Ergebnisse vor dem Code-Review schnell verstehen können
- Cursor behandelt die agent experience als eigenes Gestaltungsziel und lässt Agenten, wenn sie auf lästige, kaputte oder verwirrende Abläufe stoßen, ein
work on the factory-Issue hinterlassen
- Das endgültige Ziel ist nicht, dass Menschen einen Prozess von A bis D manuell führen, sondern ein System zu bauen, das Probleme von A bis Z lösen kann
Noch keine Kommentare.