GPT-5 vorgestellt
(openai.com)- GPT-5 bietet in allen Bereichen – darunter Coding, Mathematik, Schreiben, Gesundheit und visuelle Erkennung – eine Leistung, die bisherige Modelle übertrifft, und stellt ein integriertes System bereit, das schnelle Antworten und tiefes Reasoning situationsgerecht kombiniert
- „GPT-5 Thinking“ wendet bei komplexen Problemen längeres Reasoning an, um die Genauigkeit zu erhöhen; Nutzer des Pro-Tarifs können mit dem erweiterten GPT-5 Pro Leistung auf höchstem Niveau nutzen
- Im praktischen Einsatz wurde die Quote von Halluzinationen (Erzeugung falscher Fakten) deutlich gesenkt, außerdem wurden Fähigkeiten beim multimodalen Verständnis, bei der Befolgung von Anweisungen und bei komplexen, werkzeuggestützten Aufgaben verbessert
- Die Unterstützung für Entwickler wurde etwa bei der Erstellung von Frontend-UIs und beim Debugging großer Codebasen ausgebaut; im Gesundheitsbereich erzielt das Modell den Höchstwert auf HealthBench und übernimmt die Rolle eines aktiven Gesundheitspartners
- Im Bereich Sicherheit wurde ein Training für „safe completion“ eingeführt, das unnötige Verweigerungen reduziert, und für Bio- und Chemie-Themen gibt es ein hochentwickeltes System mit mehreren Verteidigungsebenen
GPT-5 Überblick
Integriertes System
- Innerhalb eines Systems sind ein smartes, effizientes Modell, ein tief schlussfolgerndes Modell (GPT-5 Thinking) sowie ein Echtzeit-Router enthalten, der je nach Situation, Komplexität, Werkzeugbedarf und Nutzerabsicht auswählt
- Wird das Nutzungslimit überschritten, bearbeiten die „mini“-Versionen der jeweiligen Modelle die verbleibenden Anfragen
- Künftig sollen diese Funktionen in einem einzigen Modell zusammengeführt werden
Verbesserte Leistung und Nutzbarkeit
- In Benchmarks insgesamt deutlich bessere Leistung als GPT-4o
- Weniger Halluzinationen, bessere Befolgung von Anweisungen, minimierte einschmeichelnde Antworten (Sykophanz)
- Verbesserungen in drei Kernbereichen
- Coding: Ausgebaut bei komplexer Frontend-Erzeugung, Debugging großer Repositories und der Generierung von UI/UX mit ästhetischem Gespür
- Schreiben: Kann strukturelle Mehrdeutigkeit verarbeiten und Formulierungen mit literarischer Tiefe und Rhythmus erzeugen; stärkere Unterstützung beim Schreiben und Bearbeiten alltäglicher Dokumente
- Gesundheit: Bestwert auf HealthBench, liefert sichere und präzise Antworten abgestimmt auf Situation, Wissensstand und Region
Bewertungsergebnisse
- Mathematik 94.6% (AIME 2025), Coding SWE-bench Verified 74.9%, Multimodal MMMU 84.2%, Gesundheit HealthBench Hard 46.2% und damit SOTA erreicht
- Bei GPQA erzielt GPT-5 Pro mit 88.4% den Bestwert
- Fähigkeiten bei multimodalen Aufgaben, Tool-Nutzung und mehrstufiger Aufgabenbearbeitung wurden deutlich verbessert
Effizientes Reasoning
- Bei gleicher Leistung 50~80% weniger Tokenverbrauch
- Bei komplexen und sehr schwierigen Aufgaben senkt GPT-5 Thinking Fehler- und Halluzinationsrate im Vergleich zu o3 deutlich
Stärkere Zuverlässigkeit und Faktentreue
- In offenen Faktizitätstests sechsmal geringere Halluzinationsrate
- Erklärt Grenzen klar, wenn Aufgaben unmöglich sind oder Informationen fehlen
- Sykophanz-Quote von 14.5% auf unter 6% gesenkt
Verbesserte Sicherheit
- Durch Training mit „safe completion“ werden auch bei potenziell riskanten Anfragen sichere und hilfreiche Antworten bereitgestellt
- Für Hochrisikoszenarien in Biologie und Chemie wird ein mehrschichtiges Abwehrsystem eingesetzt
GPT-5 Pro
- Ein Modell mit erweitertem Reasoning für Aufgaben mit höchstem Schwierigkeitsgrad
- In Expertenbewertungen gegenüber GPT-5 Thinking zu 67.8% bevorzugt, wesentliche Fehler um 22% reduziert
- Höchstleistung in Gesundheit, Wissenschaft, Mathematik und Coding
Nutzung und Zugriff
- GPT-5 wird als Standardmodell in ChatGPT eingesetzt und ersetzt frühere Modelle (GPT-4o, o3 usw.)
- Mit der Eingabe „think hard about this“ kann der Reasoning-Modus erzwungen werden
- Schrittweise Bereitstellung für Plus, Pro, Team und Free, Enterprise und Edu folgen eine Woche später
- Kostenlose Nutzer werden bei Überschreitung des Limits auf GPT-5 mini umgestellt
Wichtige Punkte zu GPT-5 für Entwickler
Leistung und Merkmale
-
Coding-Leistung:
- SWE-bench Verified 74.9% (o3: 69.1%), 22% weniger Tokenverbrauch, 45% weniger Tool-Aufrufe
- Aider polyglot 88%, Fehlerquote bei Code-Änderungen auf ein Drittel reduziert
- Bei der Erzeugung von Frontend-Code gegenüber o3 zu 70% bevorzugt
-
Agentenaufgaben:
- τ 2-bench telecom 96.7%, höhere Stabilität bei mehreren Tool-Aufrufen und parallelen Aufrufen
- Kann Preamble-Nachrichten ausgeben, die Fortschritt und Plan für den Nutzer sichtbar machen
-
Langer Kontext:
- OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
- Verarbeitet bis zu 400.000 Token Kontext
Neue API-Funktionen
reasoning_effort: steuert die Reasoning-Zeit im Bereichminimal~highverbosity: setzt die Standardlänge der Antwort vonlow~high- Custom Tools: können statt JSON mit Plaintext aufgerufen werden, mit Unterstützung für Regex-/Grammatik-Beschränkungen
- Integrierte Standard-Tools wie parallele Tool-Aufrufe, Websuche, Dateisuche und Bilderzeugung
- Kostenreduzierende Funktionen wie Prompt Caching und Batch API werden unterstützt
Stabilität und Zuverlässigkeit
- In den Benchmarks LongFact und FactScore ist die Halluzinationsrate gegenüber o3 um ~80% gesunken
- Besseres Bewusstsein für eigene Grenzen und stärker im Umgang mit unerwarteten Situationen
- Geeignet für Hochrisiko- und präzisionskritische Aufgaben (Code, Daten, Entscheidungsfindung)
Availability & pricing
Verfügbare Größen und Endpunkte
- Verfügbare Größen:
gpt-5,gpt-5-mini,gpt-5-nano - Unterstützte Schnittstellen: Responses API, Chat Completions API und als Standard in Codex CLI
- Modelleigenschaft: Die GPT‑5-Familie in der API sind Reasoning-Modelle, während das Non‑Reasoning-Modell von ChatGPT unter einer separaten ID bereitgestellt wird
Preistabelle und Abrechnungseinheiten
gpt-5: Eingabe $1.25/Million Token, Ausgabe $10/Million Tokengpt-5-mini: Eingabe $0.25/Million, Ausgabe $2/Milliongpt-5-nano: Eingabe $0.05/Million, Ausgabe $0.40/Milliongpt-5-chat-latest(ohne Reasoning): Eingabe $1.25/Million, Ausgabe $10/Million und damit identisch zugpt-5
Zusammenfassung der unterstützten Funktionen
- Reasoning-Steuerung: Mit
reasoning_effortaufminimal,low,mediumoderhighlässt sich der Trade-off zwischen Geschwindigkeit und Genauigkeit steuern - Antwortlänge: Über
verbositylässt sich die Grundtendenz auf kurz/standard/lang setzen - Tooling: Custom Tools unterstützen Plaintext-Argumente und können mit Regex-/CFG-Beschränkungen versehen werden
- Ausführungsfunktionen: Unterstützt parallele Tool-Aufrufe, integrierte Tools (Web Search, File Search, Image Generation usw.), Streaming und Structured Outputs
- Kostenoptimierung: Prompt Caching und Batch API senken Token- und Latenzkosten
- Bereitstellungskanäle: GPT‑5 wird in Microsoft 365 Copilot, Copilot, GitHub Copilot und Azure AI Foundry eingesetzt
Einfaches Kostenbeispiel
- Bei
gpt-5ergeben 50k Eingabe- + 5k Ausgabe-Token Gesamtkosten von ≈ $0.1125- Rechenweg: Eingabe 0.05M × $1.25 = $0.0625, Ausgabe 0.005M × $10 = $0.05, Summe $0.1125
- Für dieselbe Aufgabe mit
gpt-5-miniergeben sich Gesamtkosten von ≈ $0.0175- 0.05M Eingabe × $0.25 = $0.0125, 0.005M Ausgabe × $2 = $0.01, korrekt wäre insgesamt $0.0225; unter Berücksichtigung des Ausgabepreises ist der Unterschied bei eingabelastigen Workloads noch größer
- Für Pipelines mit viel generativer Ausgabe in großem Umfang lohnt sich eher ein Modell mit niedrigerem Ausgabepreis
Hinweise zur Auswahl
- Wenn Genauigkeit oberste Priorität hat und ein Backend-Agent komplexe Tool-Ketten benötigt, ist
gpt-5eine Überlegung wert - Für alltägliches Code-Editing, leichtgewichtige Agenten und große Batch-Verarbeitung bietet
gpt-5-miniein gutes Gleichgewicht aus Kosten und Qualität - Für ultraniedrige Latenz und ultraniedrige Kosten bei Vorverarbeitung, Regelprüfung und einfachen Zusammenfassungen eignet sich
gpt-5-nano
Hinweis
- Wenn Sie das standardmäßige Non‑Reasoning-Modell von ChatGPT unverändert verwenden möchten, wählen Sie in der API
gpt-5-chat-latest - Für die Antwortlänge gilt: Explizite Anweisungen haben Vorrang; auch unabhängig von
verbosityfolgt das Modell konkreten Längenvorgaben wie etwa „Essay in 5 Absätzen“
Noch keine Kommentare.