- Drei Modelle vorgestellt: GPT-4.1, GPT-4.1 mini und GPT-4.1 nano
- Bietet insgesamt verbesserte Leistung gegenüber GPT-4o, insbesondere bei Coding, Befolgen von Anweisungen und Verständnis langer Kontexte
- Alle drei Modelle unterstützen ein Kontextfenster von bis zu 1 Million Token und eignen sich damit für große Codebasen und die Analyse komplexer Dokumente
- Liefert starke Leistung bei geringerer Latenz und niedrigeren Kosten
- Wichtige Leistungsverbesserungen
- Coding-Fähigkeiten: 54,6 % auf SWE-bench Verified, eine Verbesserung um +21,4 Prozentpunkte gegenüber GPT-4o
- Befolgen von Anweisungen: MultiChallenge-Wert von 38,3 %, +10,5 Prozentpunkte gegenüber GPT-4o
- Multimodales Verständnis langer Kontexte: 72,0 % auf Video-MME (long, no subtitles), +6,7 Prozentpunkte gegenüber GPT-4o
- Merkmale der GPT-4.1-Modellfamilie
- GPT-4.1 mini: bessere Ergebnisse bei Intelligenz-Benchmarks als GPT-4o, halbierte Latenz, 83 % geringere Kosten
- GPT-4.1 nano: niedrigste Kosten und geringste Latenz bei weiterhin hoher Leistung
- GPT-4.5 Preview wird am 14. Juli 2025 eingestellt, ein Wechsel zur GPT-4.1-Serie wird empfohlen
- Vision (Bildverständnis und Multimodalität)
- GPT-4.1 mini übertrifft GPT-4o bei bildbasierten Benchmarks
- Hohe Genauigkeit bei MMMU, MathVista, CharXiv und weiteren
- Video-MME (Fragen zu 30–60-minütigen Videos ohne Untertitel): 72,0 % Genauigkeit
- Preisgestaltung
- Alle Modelle sind veröffentlicht und verfügbar
- GPT-4.1 ist im Durchschnitt 26 % günstiger als GPT-4o
- GPT-4.1 nano ist das günstigste Modell
- 75 % Rabatt bei Cache-Inputs, keine Zusatzkosten für lange Kontexte
- Preise pro Modell
- GPT-4.1: Eingabe $2.00 pro 1 Million Token, Ausgabe $8.00, durchschnittliche Kosten ca. $1.84
- GPT-4.1 mini: Eingabe $0.40, Ausgabe $1.60, durchschnittlich $0.42
- GPT-4.1 nano: Eingabe $0.10, Ausgabe $0.40, durchschnittlich $0.12
- Der Rabatt für Prompt-Caching wurde von 50 % auf bis zu 75 % erhöht
- Für Anfragen mit langem Kontext fallen keine Zusatzgebühren an, maßgeblich ist nur der Token-Verbrauch
1 Kommentare
Hacker-News-Kommentare
Ein ChatGPT-Nutzer äußert Verwirrung darüber, aus einer Vielzahl von Modellen wählen zu müssen
Vergleich von SWE-bench Verified, Aider Polyglot, Kosten, Output-Token pro Sekunde und Wissens-Cutoff nach Monat/Jahr
OAI hat einen Prompt-Guide für GPT 4.1 veröffentlicht
Laut OpenAIs Ankündigung liefert GPT-4.1 in 55 % der Fälle bessere Vorschläge als Claude Sonnet 3.7 in einem Duell zur Generierung von Code-Reviews
In einem aktuellen Ted Talk sagte Sam, Modelle kämen und gingen, aber man wolle die beste Plattform werden
Geteilte Erfahrungen mit GPT-4.1 in einer komplexen Codebasis
Es wird die Notwendigkeit von Benchmarks für die Leistung von Modellen mit sehr hoher maximaler Token-Zahl angesprochen
Große KI-Forschungslabore führen gleichzeitig mehrere Marktkriege
Ergebnis der Zusammenfassung eines Hacker-News-Threads mit 164 Kommentaren durch GPT-4.1