GPT-5 für Entwickler freigegeben
(openai.com)- Die GPT-5 API wurde offiziell veröffentlicht und bietet Entwicklern ein neues Leistungsniveau für Coding- und Agentenaufgaben.
- In zentralen Benchmarks wie SWE-bench Verified und Aider polyglot wurden State-of-the-Art-Leistungen (SOTA) erzielt, und in mehreren Kundenbeispielen wie Cursor, Windsurf, Vercel wurde die Überlegenheit bestätigt.
- Bei komplexen realen Aufgaben wie langlaufenden Agentenaufgaben, ausgefeilter Tool-Integration und der Verarbeitung langer Kontexte zeigte sich besondere Stärke.
- Mit fein granularen Parametern wie
verbosity,reasoning_effortund eigenen Tools ist eine Entwicklerspezifische Feinkontrolle möglich. - Mit gpt-5, gpt-5-mini, gpt-5-nano stehen verschiedene Kosten-/Leistungs-Optionen zur Verfügung, und die Modelle wurden in Microsoft sowie in diversen Entwicklerwerkzeugen integriert.
Veröffentlichung von GPT-5 und Bedeutung
- OpenAI hat GPT-5 auf der API-Plattform veröffentlicht und betont, dass es das leistungsstärkste bisher veröffentlichte Modell für Coding und Agentenarbeit sei.
- Es erzielte im Bereich der wichtigsten Coding-Benchmarks SOTA (State of the Art) und wurde in Zusammenarbeit mit tatsächlichen Startup- und Enterprise-Testern trainiert.
- Es zeigt sich als starker Partner in realen Entwicklungsaufgaben wie Codegenerierung, Bugfixing, Codebearbeitung und komplexen Codebase-Abfragen.
- Die Fähigkeit, detaillierte Anweisungen präzise zu befolgen, und die verbesserte Erklärung von Aktionen sowie Planungen vor und nach Tool-Aufrufen wurde gesteigert.
- Auch die Frontend-Entwicklung ist stark: in internen Tests wurde ein Vorteil von 70 % gegenüber bisherigen Modellen gemessen.
Hauptkunden und Praxisfälle
- Cursor, Windsurf, Vercel, Manus, Notion, Inditex bewerteten GPT-5s Intelligenz, einfache Steuerbarkeit, den Umgang mit Tool-Fehlern und die Codequalität sehr hoch.
- In realen Ausrollungsszenarien zeigte es bei komplexen Hintergrundaufgaben, langlaufenden Agentenrollen und ausgefeilter Tool-Integration deutlich bessere Stabilität und Effizienz als frühere Modelle.
Benchmarks und Leistungskennzahlen
- SWE-bench Verified (Patching echter Software-Issues): 74,9 % Leistung versus o3 mit 22 % weniger Tokens und 45 % weniger Tool-Aufrufen als Effizienzsteigerung.
- Aider polyglot (Code-Editing-Benchmark): 88 % erreicht, was etwa ein Drittel der Fehlerrate von o3 bedeutet.
- Bei der Analyse komplexer Codebasen können große LLMs auf die jeweilige Anfrage der Nutzer zugeschnitten werden, sodass Entwickler und Forscher sie leichter nutzen können.
- Bei der Frontend-Code-Generierung erzielte GPT-5 in Tests einen Vorteil von 70 % sowohl bei ästhetischer Qualität als auch bei Genauigkeit.
Agentische Arbeit und langfristiger Kontext
- Im τ2-bench telecom (Tool-Calling-Benchmark) wurde mit 96,7 % der aktuelle SOTA-Wert erreicht.
- Hohe Aufgabenabdeckung bei der Ausführung von dutzenden Tool-Aufrufen, sequentiell oder parallel.
- Beste Werte bei der Umsetzungsvorgaben-Bewertung in COLLIE, Scale MultiChallenge.
- In OpenAI-MRCR und BrowseComp Long Context bei Long-Context-Q&A werden o3 und GPT-4.1 übertroffen.
- Bis zu 400.000 Token Kontextlänge werden unterstützt, geeignet für die Analyse großer Dokumente und längerer Gespräche.
Zuverlässigkeit und Sicherheit
- In den Bewertungen LongFact und FactScore wurden gegenüber o3 über 80 % weniger Faktfehler erreicht.
- Das Modell erkennt und meldet eigene Grenzen und stärkt die Genauigkeit, insbesondere im Gesundheitsbereich.
- Bei der realen Nutzung wird in sicherheitskritischen Bereichen weiterhin eine Verifikation durch Entwickler empfohlen.
Entwicklersteuerung und neue API-Funktionen
reasoning_effort: Mit den Wertenminimal,low,medium,highkann das Verhältnis aus Antwortgeschwindigkeit und Schlussfolgerungsqualität gesteuert werden.minimal: schnelle Reaktion,high: qualitativ hochwertige logische Schlussfolgerung
verbosity: Mitlow,medium,highkann die Ausgabelänge geregelt werden.- Explizite Anweisungen haben bei Bedarf Vorrang vor den Parametern.
- Custom Tools: Neben JSON wird auch Klartext (Plaintext) unterstützt; die Eingabeformate lassen sich mit regulären Ausdrücken oder einer Context-Free Grammar einschränken.
- Das Risiko von JSON-Escape-Problemen in großen Codefragmenten oder Berichten wird reduziert und die Integration von Entwicklertools wird einfacher.
Verschiedene API-Modelle und Preisgestaltung
- gpt-5: $1.25 pro 1 Million Input-Token, $10 pro 1 Million Output-Token
- gpt-5-mini: $0.25 pro 1 Million Input-Token, $2 pro 1 Million Output-Token
- gpt-5-nano: $0.05 pro 1 Million Input-Token, $0.40 pro 1 Million Output-Token
- Alle Modelle unterstützen reasoning_effort, verbosity, Custom Tools, parallele Tool-Aufrufe, Web-/Datei-/Bild-Tools und Streaming.
- gpt-5-chat-latest wird als Nicht-Reasoning-Modell für ChatGPT zum gleichen Preis veröffentlicht.
Integration und Skalierbarkeit
- Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry und weitere Microsoft-Plattformen integrieren GPT-5.
- Cursor, Windsurf, GitHub Copilot, Codex CLI nutzen es als Kern-Engine für Entwickler-Agentensysteme.
- In Alpha-Tests und in internen Evaluierungen verschiedener Code- und Automatisierungsprodukte im Produktivbetrieb setzte GPT-5 neue Maßstäbe gegenüber früheren Modellen.
Sicherheit, Zuverlässigkeit und Zusatzmaterialien
- Die Rückgabe von Halluzinationen wurde deutlich reduziert; das Modell beschreibt Arbeitsprozess und Grenzen offener und ehrlicher.
- Implementierungs- und Evaluierungsdetails sowie Sicherheitsmaßnahmen werden transparent in der System Card und im internen Research-Blog bereitgestellt.
- Es ist ein hochgradiger automatisierter Coding-Partner und spezialisiert auf komplexe agentische Workflow-Automatisierung.
Fazit
- GPT-5 ist das derzeit stärkste auf Coding und agentische Arbeit zugeschnittene LLM und ein innovativer Partner, der für reale Entwicklungsumgebungen und Arbeitsautomatisierung optimiert ist.
- Mit der fortentwickelten API-/Tool-Landschaft, den unterschiedlichen Modellgrößen und Preisstufen sowie starken Benchmarks eröffnet GPT-5 für Entwickler und Organisationen eine neue Ära der Produktivität.
1 Kommentare
Hacker News Kommentar
gpt-5-mini, und bisher ist das wirklich beeindruckend. Mit der Optionreasoning_effort="minimal"habe ich in Bereichen, in denen vorher alle anderen Modelle Halluzinationen erzeugt haben, als Einzige keine falschen Antworten gesehen. Einen Screenshot dazu habe ich hier gepostet; formelle Evaluierungen folgen noch.git worktreemeiner Meinung nach Pflicht: Ressourcen, Dokumentation, Blogairline-Benchmark lag es unter o3, daher kann man noch keine endgültigen Schlüsse ziehen.airline-Benchmark war es aber schwächer als o3 — klingt so, als würden in der Ankündigung vor allem die für OpenAI günstigen Kennzahlen hervorgehoben.telecomliegen. Bei den Benchmarksretailundairlinebewertet die automatische Auswertung sehr streng nur eine einzige Lösung als korrekt, sodass mehrere gute Ansätze trotz Qualität keine Punkte erhalten.telecombewertet stattdessen anhand des Ergebniszustands und akzeptiert mehrere Lösungen, wodurch ein offensichtliches Problem des automatisierten Scorings abgefedert wird und das eigentliche Leistungssignal eines Modells klarer hervortritt. Deshalb ist der Fokus auftelecomsinnvoll. Dazu gibt es auch das tau2-bench-Paper. Außerdem gibt es in solchen Evaluierungen keine Teilpunkte; ein kleiner Fehler kann die Gesamtwertung stark drücken, deshalb kann die echte Leistung auch ober- oder unterhalb der Benchmark-Note liegen.airlineschlechter abschneidet, macht diese Frage für mich keine Fangfrage.llguidanceunterscheiden, die in der OpenAI-API zur Implementierung von JSON-Schema-Constraints genutzt wird. Referenzcode{in JSON werden nur die syntaktisch gültigen Tokens als Auswahl angeboten.