Die nächste Evolutionsstufe des Agents SDK

OpenAI hat das Agents SDK umfassend aktualisiert und stellt damit eine standardisierte Infrastruktur bereit, in der Agenten Dateiprüfung, Befehlsausführung, Codebearbeitung und langlaufende Aufgaben in einer kontrollierten Sandbox-Umgebung ausführen können
Das neue Harness integriert konfigurierbaren Speicher, sandboxbewusste Orchestrierung, Codex-artige Dateisystem-Tools sowie zentrale Primitive moderner Agentensysteme wie MCP, skills, AGENTS.md, shell und apply patch
Mit nativer Unterstützung für Sandbox-Ausführung werden verschiedene Sandbox-Anbieter wie Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop und Vercel direkt unterstützt; alternativ kann eine eigene Sandbox angebunden werden
Durch die Trennung von Harness und Compute werden Abwehr gegen Prompt Injection, ausfallsichere Ausführung auf Snapshot-Basis und Parallelisierung über mehrere Container hinweg ermöglicht, was Sicherheit und Skalierbarkeit verbessert
Die Funktionen sind über die API mit standardisierter Abrechnung für Token- und Tool-Nutzung allgemein verfügbar (GA); Unterstützung für TypeScript sowie Code-Modus- und Subagent-Funktionen sollen später folgen

Grenzen bestehender Agentensysteme

Um nützliche Agenten zu entwickeln, brauchen Entwickler nicht nur die besten Modelle, sondern auch Systeme, die Dateiprüfung, Befehlsausführung, Code-Erstellung und das Aufrechterhalten mehrstufiger Aufgaben unterstützen
Trade-offs bisheriger Ansätze
- Modellunabhängige Frameworks sind flexibel, nutzen die Fähigkeiten von Frontier-Modellen aber nicht vollständig aus
- SDKs von Modellanbietern sind näher am Modell, bieten jedoch oft nur begrenzte Transparenz in Bezug auf das Harness
- Verwaltete Agent-APIs vereinfachen die Bereitstellung, schränken aber ein, wo Agenten ausgeführt werden und wie sie auf sensible Daten zugreifen

Mit diesem Release bietet das Harness des Agents SDK deutlich stärkere Funktionen für Agenten, die mit Dokumenten, Dateien und Systemen arbeiten
Neu integrierte zentrale Primitive
- Tool-Nutzung über MCP
- Progressive Disclosure über skills
- Benutzerdefinierte Anweisungen über AGENTS.md
- Code-Ausführung über das Tool shell
- Dateibearbeitung über das Tool apply patch
Da das Harness im Lauf der Zeit weitere agentische Muster und Primitive integrieren soll, können sich Entwickler auf domänenspezifische Logik statt auf Updates der Kerninfrastruktur konzentrieren
Das Harness verbessert Stabilität und Leistung, indem es die Ausführung an die Arbeitsweise anpasst, in der Frontier-Modelle ihre beste Leistung entfalten, besonders bei langlaufenden Aufgaben oder komplexen Abläufen, die die Koordination vieler Tools und Systeme erfordern
Es ist so konzipiert, dass es die spezifischen Anforderungen jedes Produkts unterstützt, sodass sich Tool-Nutzung, Speicher und Sandbox-Umgebungen flexibel an den bestehenden Stack der Entwickler anpassen lassen

Das aktualisierte Agents SDK unterstützt Sandbox-Ausführung nativ, sodass Agenten in einer kontrollierten Computerumgebung mit den für ihre Aufgaben nötigen Dateien, Tools und Abhängigkeiten laufen können
Viele nützliche Agenten benötigen einen Workspace, in dem sie Dateien lesen und schreiben, Abhängigkeiten installieren, Code ausführen und Tools sicher verwenden können; die native Sandbox-Unterstützung stellt dies standardmäßig bereit, ohne zusätzliche Konfiguration
Es kann eine eigene Sandbox eingebracht oder die integrierte Unterstützung für Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop und Vercel genutzt werden
Um Umgebungen zwischen mehreren Anbietern portierbar zu machen, wurde eine Manifest-Abstraktion eingeführt
- Lokale Datei-Mounts und Ausgabeverzeichnisse können definiert werden
- Der Import von Daten aus Speicheranbietern wie AWS S3, Google Cloud Storage, Azure Blob Storage und Cloudflare R2 wird unterstützt
Entwicklern wird damit eine konsistente Methode zur Konfiguration von Umgebungen vom lokalen Prototyp bis zur Produktionsbereitstellung geboten
Dem Modell wird ein vorhersehbarer Workspace für Eingabeorte, Ausgabeorte und die Organisation von Arbeit bei langlaufenden Aufgaben bereitgestellt

Agentensysteme sollten unter der Annahme von Prompt Injection und Versuchen des Datenabflusses entworfen werden; die Trennung von Harness und Compute hilft dabei, Zugangsdaten von der Umgebung zu isolieren, in der vom Modell erzeugter Code ausgeführt wird
Unterstützung für durable execution
- Wenn der Agentenzustand externalisiert ist, führt der Verlust eines Sandbox-Containers nicht zum Verlust der Ausführung
- Durch integriertes Snapshotting und Rehydration kann der Zustand vom letzten Checkpoint in einem neuen Container wiederhergestellt und die Ausführung fortgesetzt werden, wenn die ursprüngliche Umgebung ausfällt oder abläuft
Verbesserte Skalierbarkeit
- Eine Agent-Ausführung kann eine oder mehrere Sandboxes verwenden
- Sandboxes werden nur bei Bedarf aufgerufen; Subagenten können in isolierte Umgebungen geroutet werden
- Parallelisierung über mehrere Container unterstützt eine schnellere Ausführung

Laut Rachael Burns, Staff Engineer & AI Tech Lead bei Oscar Health, ließ sich mit dem aktualisierten Agents SDK die Automatisierung von Workflows für klinische Aufzeichnungen auf Produktionsniveau umsetzen, was mit dem bisherigen Ansatz nicht zuverlässig genug möglich war
Der entscheidende Unterschied liegt nicht in einfacher Metadatenextraktion, sondern darin, jede encounter boundary in langen und komplexen Aufzeichnungen präzise zu verstehen
Dadurch kann der Kontext jedes Patientenbesuchs schneller erfasst werden, was zur Verbesserung von Patientenversorgung und -erfahrung beiträgt

Die neuen Funktionen des Agents SDK sind über die API für alle Kunden allgemein verfügbar (GA)
Es gelten die standardmäßigen API-Preise mit Abrechnung auf Basis von Token- und Tool-Nutzung

OpenAI will das Agents SDK kontinuierlich weiterentwickeln, damit leistungsfähigere Agenten mit weniger kundenspezifischer Infrastruktur in Produktion gebracht werden können, ohne die Flexibilität und Kontrolle der Entwickler einzuschränken
Das neue Harness und die Sandbox-Funktionen erscheinen zuerst für Python; TypeScript-Unterstützung ist für ein späteres Release geplant
An den Funktionen code mode und subagents wird gearbeitet; sie sollen sowohl für Python als auch für TypeScript kommen
Zudem soll die Unterstützung für weitere Sandbox-Anbieter, Integrationen und Verbindungen zu bereits genutzten Tools und Systemen ausgebaut werden, um die Integration im Agenten-Ökosystem zu stärken