14 Punkte von GN⁺ 2025-08-08 | Noch keine Kommentare. | Auf WhatsApp teilen
  • GPT-5 bietet in allen Bereichen – darunter Coding, Mathematik, Schreiben, Gesundheit und visuelle Erkennung – eine Leistung, die bisherige Modelle übertrifft, und stellt ein integriertes System bereit, das schnelle Antworten und tiefes Reasoning situationsgerecht kombiniert
  • „GPT-5 Thinking“ wendet bei komplexen Problemen längeres Reasoning an, um die Genauigkeit zu erhöhen; Nutzer des Pro-Tarifs können mit dem erweiterten GPT-5 Pro Leistung auf höchstem Niveau nutzen
  • Im praktischen Einsatz wurde die Quote von Halluzinationen (Erzeugung falscher Fakten) deutlich gesenkt, außerdem wurden Fähigkeiten beim multimodalen Verständnis, bei der Befolgung von Anweisungen und bei komplexen, werkzeuggestützten Aufgaben verbessert
  • Die Unterstützung für Entwickler wurde etwa bei der Erstellung von Frontend-UIs und beim Debugging großer Codebasen ausgebaut; im Gesundheitsbereich erzielt das Modell den Höchstwert auf HealthBench und übernimmt die Rolle eines aktiven Gesundheitspartners
  • Im Bereich Sicherheit wurde ein Training für „safe completion“ eingeführt, das unnötige Verweigerungen reduziert, und für Bio- und Chemie-Themen gibt es ein hochentwickeltes System mit mehreren Verteidigungsebenen

GPT-5 Überblick

Integriertes System

  • Innerhalb eines Systems sind ein smartes, effizientes Modell, ein tief schlussfolgerndes Modell (GPT-5 Thinking) sowie ein Echtzeit-Router enthalten, der je nach Situation, Komplexität, Werkzeugbedarf und Nutzerabsicht auswählt
  • Wird das Nutzungslimit überschritten, bearbeiten die „mini“-Versionen der jeweiligen Modelle die verbleibenden Anfragen
  • Künftig sollen diese Funktionen in einem einzigen Modell zusammengeführt werden

Verbesserte Leistung und Nutzbarkeit

  • In Benchmarks insgesamt deutlich bessere Leistung als GPT-4o
  • Weniger Halluzinationen, bessere Befolgung von Anweisungen, minimierte einschmeichelnde Antworten (Sykophanz)
  • Verbesserungen in drei Kernbereichen
    • Coding: Ausgebaut bei komplexer Frontend-Erzeugung, Debugging großer Repositories und der Generierung von UI/UX mit ästhetischem Gespür
    • Schreiben: Kann strukturelle Mehrdeutigkeit verarbeiten und Formulierungen mit literarischer Tiefe und Rhythmus erzeugen; stärkere Unterstützung beim Schreiben und Bearbeiten alltäglicher Dokumente
    • Gesundheit: Bestwert auf HealthBench, liefert sichere und präzise Antworten abgestimmt auf Situation, Wissensstand und Region

Bewertungsergebnisse

  • Mathematik 94.6% (AIME 2025), Coding SWE-bench Verified 74.9%, Multimodal MMMU 84.2%, Gesundheit HealthBench Hard 46.2% und damit SOTA erreicht
  • Bei GPQA erzielt GPT-5 Pro mit 88.4% den Bestwert
  • Fähigkeiten bei multimodalen Aufgaben, Tool-Nutzung und mehrstufiger Aufgabenbearbeitung wurden deutlich verbessert

Effizientes Reasoning

  • Bei gleicher Leistung 50~80% weniger Tokenverbrauch
  • Bei komplexen und sehr schwierigen Aufgaben senkt GPT-5 Thinking Fehler- und Halluzinationsrate im Vergleich zu o3 deutlich

Stärkere Zuverlässigkeit und Faktentreue

  • In offenen Faktizitätstests sechsmal geringere Halluzinationsrate
  • Erklärt Grenzen klar, wenn Aufgaben unmöglich sind oder Informationen fehlen
  • Sykophanz-Quote von 14.5% auf unter 6% gesenkt

Verbesserte Sicherheit

  • Durch Training mit „safe completion“ werden auch bei potenziell riskanten Anfragen sichere und hilfreiche Antworten bereitgestellt
  • Für Hochrisikoszenarien in Biologie und Chemie wird ein mehrschichtiges Abwehrsystem eingesetzt

GPT-5 Pro

  • Ein Modell mit erweitertem Reasoning für Aufgaben mit höchstem Schwierigkeitsgrad
  • In Expertenbewertungen gegenüber GPT-5 Thinking zu 67.8% bevorzugt, wesentliche Fehler um 22% reduziert
  • Höchstleistung in Gesundheit, Wissenschaft, Mathematik und Coding

Nutzung und Zugriff

  • GPT-5 wird als Standardmodell in ChatGPT eingesetzt und ersetzt frühere Modelle (GPT-4o, o3 usw.)
  • Mit der Eingabe „think hard about this“ kann der Reasoning-Modus erzwungen werden
  • Schrittweise Bereitstellung für Plus, Pro, Team und Free, Enterprise und Edu folgen eine Woche später
  • Kostenlose Nutzer werden bei Überschreitung des Limits auf GPT-5 mini umgestellt

Wichtige Punkte zu GPT-5 für Entwickler

Leistung und Merkmale

  • Coding-Leistung:

    • SWE-bench Verified 74.9% (o3: 69.1%), 22% weniger Tokenverbrauch, 45% weniger Tool-Aufrufe
    • Aider polyglot 88%, Fehlerquote bei Code-Änderungen auf ein Drittel reduziert
    • Bei der Erzeugung von Frontend-Code gegenüber o3 zu 70% bevorzugt
  • Agentenaufgaben:

    • τ 2-bench telecom 96.7%, höhere Stabilität bei mehreren Tool-Aufrufen und parallelen Aufrufen
    • Kann Preamble-Nachrichten ausgeben, die Fortschritt und Plan für den Nutzer sichtbar machen
  • Langer Kontext:

    • OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
    • Verarbeitet bis zu 400.000 Token Kontext

Neue API-Funktionen

  • reasoning_effort: steuert die Reasoning-Zeit im Bereich minimal~high
  • verbosity: setzt die Standardlänge der Antwort von low~high
  • Custom Tools: können statt JSON mit Plaintext aufgerufen werden, mit Unterstützung für Regex-/Grammatik-Beschränkungen
  • Integrierte Standard-Tools wie parallele Tool-Aufrufe, Websuche, Dateisuche und Bilderzeugung
  • Kostenreduzierende Funktionen wie Prompt Caching und Batch API werden unterstützt

Stabilität und Zuverlässigkeit

  • In den Benchmarks LongFact und FactScore ist die Halluzinationsrate gegenüber o3 um ~80% gesunken
  • Besseres Bewusstsein für eigene Grenzen und stärker im Umgang mit unerwarteten Situationen
  • Geeignet für Hochrisiko- und präzisionskritische Aufgaben (Code, Daten, Entscheidungsfindung)

Availability & pricing

Verfügbare Größen und Endpunkte

  • Verfügbare Größen: gpt-5, gpt-5-mini, gpt-5-nano
  • Unterstützte Schnittstellen: Responses API, Chat Completions API und als Standard in Codex CLI
  • Modelleigenschaft: Die GPT‑5-Familie in der API sind Reasoning-Modelle, während das Non‑Reasoning-Modell von ChatGPT unter einer separaten ID bereitgestellt wird

Preistabelle und Abrechnungseinheiten

  • gpt-5: Eingabe $1.25/Million Token, Ausgabe $10/Million Token
  • gpt-5-mini: Eingabe $0.25/Million, Ausgabe $2/Million
  • gpt-5-nano: Eingabe $0.05/Million, Ausgabe $0.40/Million
  • gpt-5-chat-latest (ohne Reasoning): Eingabe $1.25/Million, Ausgabe $10/Million und damit identisch zu gpt-5

Zusammenfassung der unterstützten Funktionen

  • Reasoning-Steuerung: Mit reasoning_effort auf minimal, low, medium oder high lässt sich der Trade-off zwischen Geschwindigkeit und Genauigkeit steuern
  • Antwortlänge: Über verbosity lässt sich die Grundtendenz auf kurz/standard/lang setzen
  • Tooling: Custom Tools unterstützen Plaintext-Argumente und können mit Regex-/CFG-Beschränkungen versehen werden
  • Ausführungsfunktionen: Unterstützt parallele Tool-Aufrufe, integrierte Tools (Web Search, File Search, Image Generation usw.), Streaming und Structured Outputs
  • Kostenoptimierung: Prompt Caching und Batch API senken Token- und Latenzkosten
  • Bereitstellungskanäle: GPT‑5 wird in Microsoft 365 Copilot, Copilot, GitHub Copilot und Azure AI Foundry eingesetzt

Einfaches Kostenbeispiel

  • Bei gpt-5 ergeben 50k Eingabe- + 5k Ausgabe-Token Gesamtkosten von ≈ $0.1125
    • Rechenweg: Eingabe 0.05M × $1.25 = $0.0625, Ausgabe 0.005M × $10 = $0.05, Summe $0.1125
  • Für dieselbe Aufgabe mit gpt-5-mini ergeben sich Gesamtkosten von ≈ $0.0175
    • 0.05M Eingabe × $0.25 = $0.0125, 0.005M Ausgabe × $2 = $0.01, korrekt wäre insgesamt $0.0225; unter Berücksichtigung des Ausgabepreises ist der Unterschied bei eingabelastigen Workloads noch größer
  • Für Pipelines mit viel generativer Ausgabe in großem Umfang lohnt sich eher ein Modell mit niedrigerem Ausgabepreis

Hinweise zur Auswahl

  • Wenn Genauigkeit oberste Priorität hat und ein Backend-Agent komplexe Tool-Ketten benötigt, ist gpt-5 eine Überlegung wert
  • Für alltägliches Code-Editing, leichtgewichtige Agenten und große Batch-Verarbeitung bietet gpt-5-mini ein gutes Gleichgewicht aus Kosten und Qualität
  • Für ultraniedrige Latenz und ultraniedrige Kosten bei Vorverarbeitung, Regelprüfung und einfachen Zusammenfassungen eignet sich gpt-5-nano

Hinweis

  • Wenn Sie das standardmäßige Non‑Reasoning-Modell von ChatGPT unverändert verwenden möchten, wählen Sie in der API gpt-5-chat-latest
  • Für die Antwortlänge gilt: Explizite Anweisungen haben Vorrang; auch unabhängig von verbosity folgt das Modell konkreten Längenvorgaben wie etwa „Essay in 5 Absätzen“

Noch keine Kommentare.

Noch keine Kommentare.