OpenAI stellt GPT-4.1 vor

(openai.com)

3 Punkte von GN⁺ 2025-04-15 | 1 Kommentare | Auf WhatsApp teilen

Drei Modelle vorgestellt: GPT-4.1, GPT-4.1 mini und GPT-4.1 nano
Bietet insgesamt verbesserte Leistung gegenüber GPT-4o, insbesondere bei Coding, Befolgen von Anweisungen und Verständnis langer Kontexte
Alle drei Modelle unterstützen ein Kontextfenster von bis zu 1 Million Token und eignen sich damit für große Codebasen und die Analyse komplexer Dokumente
Liefert starke Leistung bei geringerer Latenz und niedrigeren Kosten
Wichtige Leistungsverbesserungen
- Coding-Fähigkeiten: 54,6 % auf SWE-bench Verified, eine Verbesserung um +21,4 Prozentpunkte gegenüber GPT-4o
- Befolgen von Anweisungen: MultiChallenge-Wert von 38,3 %, +10,5 Prozentpunkte gegenüber GPT-4o
- Multimodales Verständnis langer Kontexte: 72,0 % auf Video-MME (long, no subtitles), +6,7 Prozentpunkte gegenüber GPT-4o
Merkmale der GPT-4.1-Modellfamilie
- GPT-4.1 mini: bessere Ergebnisse bei Intelligenz-Benchmarks als GPT-4o, halbierte Latenz, 83 % geringere Kosten
- GPT-4.1 nano: niedrigste Kosten und geringste Latenz bei weiterhin hoher Leistung
GPT-4.5 Preview wird am 14. Juli 2025 eingestellt, ein Wechsel zur GPT-4.1-Serie wird empfohlen
Vision (Bildverständnis und Multimodalität)
- GPT-4.1 mini übertrifft GPT-4o bei bildbasierten Benchmarks
- Hohe Genauigkeit bei MMMU, MathVista, CharXiv und weiteren
- Video-MME (Fragen zu 30–60-minütigen Videos ohne Untertitel): 72,0 % Genauigkeit
Preisgestaltung
- Alle Modelle sind veröffentlicht und verfügbar
- GPT-4.1 ist im Durchschnitt 26 % günstiger als GPT-4o
- GPT-4.1 nano ist das günstigste Modell
- 75 % Rabatt bei Cache-Inputs, keine Zusatzkosten für lange Kontexte
Preise pro Modell
- GPT-4.1: Eingabe $2.00 pro 1 Million Token, Ausgabe $8.00, durchschnittliche Kosten ca. $1.84
- GPT-4.1 mini: Eingabe $0.40, Ausgabe $1.60, durchschnittlich $0.42
- GPT-4.1 nano: Eingabe $0.10, Ausgabe $0.40, durchschnittlich $0.12
- Der Rabatt für Prompt-Caching wurde von 50 % auf bis zu 75 % erhöht
- Für Anfragen mit langem Kontext fallen keine Zusatzgebühren an, maßgeblich ist nur der Token-Verbrauch

1 Kommentare

GN⁺ 2025-04-15

Hacker-News-Kommentare

Ein ChatGPT-Nutzer äußert Verwirrung darüber, aus einer Vielzahl von Modellen wählen zu müssen
- 4o kann Websuche, Canvas-Nutzung, serverseitige Python-Auswertung und Bildgenerierung, hat aber keine Chain-of-Thought
- o3-mini kann Websuche, CoT und Canvas, aber keine Bilder generieren
- o1 kann CoT, aber weder Canvas noch Websuche oder Bildgenerierung
- Deep Research ist leistungsstark, kann aber nur 10-mal pro Monat genutzt werden und wird daher fast nie verwendet
- 4.5 ist stark beim kreativen Schreiben, hat aber Anfragebeschränkungen, und es ist unklar, ob andere Funktionen unterstützt werden
- Warum 4o "with scheduled tasks" ein Modell und kein Tool ist, wird infrage gestellt
Vergleich von SWE-bench Verified, Aider Polyglot, Kosten, Output-Token pro Sekunde und Wissens-Cutoff nach Monat/Jahr
- Vergleich von Leistung und Kosten von Claude, Gemini, GPT-4.1, DeepSeek R1 und Grok 3 Beta
- Ein direkter Vergleich ist schwierig, da unterschiedliche Testumgebungen und Denkstufen einbezogen sein können
OAI hat einen Prompt-Guide für GPT 4.1 veröffentlicht
- Dem Modell Persistenz zu verleihen, hilft bei der Leistungssteigerung
- Empfohlen wird die Verwendung von XML statt JSON oder arxiv 2406.13121 (GDM-Format)
- Prompts sollten oben und unten platziert werden
Laut OpenAIs Ankündigung liefert GPT-4.1 in 55 % der Fälle bessere Vorschläge als Claude Sonnet 3.7 in einem Duell zur Generierung von Code-Reviews
- GPT-4.1 ist bei Präzision und Vollständigkeit überlegen
In einem aktuellen Ted Talk sagte Sam, Modelle kämen und gingen, aber man wolle die beste Plattform werden
- Das wirkt wie ein großer Wandel
Geteilte Erfahrungen mit GPT-4.1 in einer komplexen Codebasis
- Es fühlt sich wie OpenAIs erstes Agentenmodell an
- Es braucht weiterhin Verbesserungen, und Tool-Calls schlagen häufig fehl
- Im Vergleich zu Claude ist es schwächer darin, mit Komplexität umzugehen
- Solange die Anfrage nicht zu komplex ist, hält es sich gut an die Vorgaben
Es wird die Notwendigkeit von Benchmarks für die Leistung von Modellen mit sehr hoher maximaler Token-Zahl angesprochen
- Beim Gemini-Modell wurde nach 200k ein Qualitätsabfall beobachtet
- Es wird infrage gestellt, ob eine Erhöhung des maximalen Token-Limits tatsächlich nützlich ist
Große KI-Forschungslabore führen gleichzeitig mehrere Marktkriege
- Sie konkurrieren an vielen Fronten, darunter Consumer-Wachstum, Enterprise-Workloads, Cutting-Edge-Forschung, das Einlösen von Versprechen beim Reasoning und die Reaktion auf die Bedrohung durch DeepSeek
Ergebnis der Zusammenfassung eines Hacker-News-Threads mit 164 Kommentaren durch GPT-4.1
- Es wird als gut im Befolgen von Anweisungen bewertet
- Angegeben werden die gesamten Token-Kosten und ein Vergleich mit anderen Modellen

OpenAI stellt GPT-4.1 vor

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare