GPT-5 für Entwickler freigegeben

(openai.com)

1 Punkte von GN⁺ 2025-08-08 | Noch keine Kommentare. | Auf WhatsApp teilen

Die GPT-5 API wurde offiziell veröffentlicht und bietet Entwicklern ein neues Leistungsniveau für Coding- und Agentenaufgaben.
In zentralen Benchmarks wie SWE-bench Verified und Aider polyglot wurden State-of-the-Art-Leistungen (SOTA) erzielt, und in mehreren Kundenbeispielen wie Cursor, Windsurf, Vercel wurde die Überlegenheit bestätigt.
Bei komplexen realen Aufgaben wie langlaufenden Agentenaufgaben, ausgefeilter Tool-Integration und der Verarbeitung langer Kontexte zeigte sich besondere Stärke.
Mit fein granularen Parametern wie verbosity, reasoning_effort und eigenen Tools ist eine Entwicklerspezifische Feinkontrolle möglich.
Mit gpt-5, gpt-5-mini, gpt-5-nano stehen verschiedene Kosten-/Leistungs-Optionen zur Verfügung, und die Modelle wurden in Microsoft sowie in diversen Entwicklerwerkzeugen integriert.

Veröffentlichung von GPT-5 und Bedeutung

OpenAI hat GPT-5 auf der API-Plattform veröffentlicht und betont, dass es das leistungsstärkste bisher veröffentlichte Modell für Coding und Agentenarbeit sei.
Es erzielte im Bereich der wichtigsten Coding-Benchmarks SOTA (State of the Art) und wurde in Zusammenarbeit mit tatsächlichen Startup- und Enterprise-Testern trainiert.
Es zeigt sich als starker Partner in realen Entwicklungsaufgaben wie Codegenerierung, Bugfixing, Codebearbeitung und komplexen Codebase-Abfragen.
Die Fähigkeit, detaillierte Anweisungen präzise zu befolgen, und die verbesserte Erklärung von Aktionen sowie Planungen vor und nach Tool-Aufrufen wurde gesteigert.
Auch die Frontend-Entwicklung ist stark: in internen Tests wurde ein Vorteil von 70 % gegenüber bisherigen Modellen gemessen.

Cursor, Windsurf, Vercel, Manus, Notion, Inditex bewerteten GPT-5s Intelligenz, einfache Steuerbarkeit, den Umgang mit Tool-Fehlern und die Codequalität sehr hoch.
In realen Ausrollungsszenarien zeigte es bei komplexen Hintergrundaufgaben, langlaufenden Agentenrollen und ausgefeilter Tool-Integration deutlich bessere Stabilität und Effizienz als frühere Modelle.

SWE-bench Verified (Patching echter Software-Issues): 74,9 % Leistung versus o3 mit 22 % weniger Tokens und 45 % weniger Tool-Aufrufen als Effizienzsteigerung.
Aider polyglot (Code-Editing-Benchmark): 88 % erreicht, was etwa ein Drittel der Fehlerrate von o3 bedeutet.
Bei der Analyse komplexer Codebasen können große LLMs auf die jeweilige Anfrage der Nutzer zugeschnitten werden, sodass Entwickler und Forscher sie leichter nutzen können.
Bei der Frontend-Code-Generierung erzielte GPT-5 in Tests einen Vorteil von 70 % sowohl bei ästhetischer Qualität als auch bei Genauigkeit.

Im τ2-bench telecom (Tool-Calling-Benchmark) wurde mit 96,7 % der aktuelle SOTA-Wert erreicht.
Hohe Aufgabenabdeckung bei der Ausführung von dutzenden Tool-Aufrufen, sequentiell oder parallel.
Beste Werte bei der Umsetzungsvorgaben-Bewertung in COLLIE, Scale MultiChallenge.
In OpenAI-MRCR und BrowseComp Long Context bei Long-Context-Q&A werden o3 und GPT-4.1 übertroffen.
Bis zu 400.000 Token Kontextlänge werden unterstützt, geeignet für die Analyse großer Dokumente und längerer Gespräche.

In den Bewertungen LongFact und FactScore wurden gegenüber o3 über 80 % weniger Faktfehler erreicht.
Das Modell erkennt und meldet eigene Grenzen und stärkt die Genauigkeit, insbesondere im Gesundheitsbereich.
Bei der realen Nutzung wird in sicherheitskritischen Bereichen weiterhin eine Verifikation durch Entwickler empfohlen.

reasoning_effort: Mit den Werten minimal, low, medium, high kann das Verhältnis aus Antwortgeschwindigkeit und Schlussfolgerungsqualität gesteuert werden.
- minimal: schnelle Reaktion, high: qualitativ hochwertige logische Schlussfolgerung
verbosity: Mit low, medium, high kann die Ausgabelänge geregelt werden.
- Explizite Anweisungen haben bei Bedarf Vorrang vor den Parametern.
Custom Tools: Neben JSON wird auch Klartext (Plaintext) unterstützt; die Eingabeformate lassen sich mit regulären Ausdrücken oder einer Context-Free Grammar einschränken.
Das Risiko von JSON-Escape-Problemen in großen Codefragmenten oder Berichten wird reduziert und die Integration von Entwicklertools wird einfacher.

gpt-5: $1.25 pro 1 Million Input-Token, $10 pro 1 Million Output-Token
gpt-5-mini: $0.25 pro 1 Million Input-Token, $2 pro 1 Million Output-Token
gpt-5-nano: $0.05 pro 1 Million Input-Token, $0.40 pro 1 Million Output-Token
Alle Modelle unterstützen reasoning_effort, verbosity, Custom Tools, parallele Tool-Aufrufe, Web-/Datei-/Bild-Tools und Streaming.
gpt-5-chat-latest wird als Nicht-Reasoning-Modell für ChatGPT zum gleichen Preis veröffentlicht.

Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry und weitere Microsoft-Plattformen integrieren GPT-5.
Cursor, Windsurf, GitHub Copilot, Codex CLI nutzen es als Kern-Engine für Entwickler-Agentensysteme.
In Alpha-Tests und in internen Evaluierungen verschiedener Code- und Automatisierungsprodukte im Produktivbetrieb setzte GPT-5 neue Maßstäbe gegenüber früheren Modellen.

Die Rückgabe von Halluzinationen wurde deutlich reduziert; das Modell beschreibt Arbeitsprozess und Grenzen offener und ehrlicher.
Implementierungs- und Evaluierungsdetails sowie Sicherheitsmaßnahmen werden transparent in der System Card und im internen Research-Blog bereitgestellt.
Es ist ein hochgradiger automatisierter Coding-Partner und spezialisiert auf komplexe agentische Workflow-Automatisierung.

GPT-5 ist das derzeit stärkste auf Coding und agentische Arbeit zugeschnittene LLM und ein innovativer Partner, der für reale Entwicklungsumgebungen und Arbeitsautomatisierung optimiert ist.
Mit der fortentwickelten API-/Tool-Landschaft, den unterschiedlichen Modellgrößen und Preisstufen sowie starken Benchmarks eröffnet GPT-5 für Entwickler und Organisationen eine neue Ära der Produktivität.