3 Punkte von GN⁺ 2025-04-15 | 1 Kommentare | Auf WhatsApp teilen
  • Drei Modelle vorgestellt: GPT-4.1, GPT-4.1 mini und GPT-4.1 nano
  • Bietet insgesamt verbesserte Leistung gegenüber GPT-4o, insbesondere bei Coding, Befolgen von Anweisungen und Verständnis langer Kontexte
  • Alle drei Modelle unterstützen ein Kontextfenster von bis zu 1 Million Token und eignen sich damit für große Codebasen und die Analyse komplexer Dokumente
  • Liefert starke Leistung bei geringerer Latenz und niedrigeren Kosten
  • Wichtige Leistungsverbesserungen
    • Coding-Fähigkeiten: 54,6 % auf SWE-bench Verified, eine Verbesserung um +21,4 Prozentpunkte gegenüber GPT-4o
    • Befolgen von Anweisungen: MultiChallenge-Wert von 38,3 %, +10,5 Prozentpunkte gegenüber GPT-4o
    • Multimodales Verständnis langer Kontexte: 72,0 % auf Video-MME (long, no subtitles), +6,7 Prozentpunkte gegenüber GPT-4o
  • Merkmale der GPT-4.1-Modellfamilie
    • GPT-4.1 mini: bessere Ergebnisse bei Intelligenz-Benchmarks als GPT-4o, halbierte Latenz, 83 % geringere Kosten
    • GPT-4.1 nano: niedrigste Kosten und geringste Latenz bei weiterhin hoher Leistung
  • GPT-4.5 Preview wird am 14. Juli 2025 eingestellt, ein Wechsel zur GPT-4.1-Serie wird empfohlen
  • Vision (Bildverständnis und Multimodalität)
    • GPT-4.1 mini übertrifft GPT-4o bei bildbasierten Benchmarks
    • Hohe Genauigkeit bei MMMU, MathVista, CharXiv und weiteren
    • Video-MME (Fragen zu 30–60-minütigen Videos ohne Untertitel): 72,0 % Genauigkeit
  • Preisgestaltung
    • Alle Modelle sind veröffentlicht und verfügbar
    • GPT-4.1 ist im Durchschnitt 26 % günstiger als GPT-4o
    • GPT-4.1 nano ist das günstigste Modell
    • 75 % Rabatt bei Cache-Inputs, keine Zusatzkosten für lange Kontexte
  • Preise pro Modell
    • GPT-4.1: Eingabe $2.00 pro 1 Million Token, Ausgabe $8.00, durchschnittliche Kosten ca. $1.84
    • GPT-4.1 mini: Eingabe $0.40, Ausgabe $1.60, durchschnittlich $0.42
    • GPT-4.1 nano: Eingabe $0.10, Ausgabe $0.40, durchschnittlich $0.12
    • Der Rabatt für Prompt-Caching wurde von 50 % auf bis zu 75 % erhöht
    • Für Anfragen mit langem Kontext fallen keine Zusatzgebühren an, maßgeblich ist nur der Token-Verbrauch

1 Kommentare

 
GN⁺ 2025-04-15
Hacker-News-Kommentare
  • Ein ChatGPT-Nutzer äußert Verwirrung darüber, aus einer Vielzahl von Modellen wählen zu müssen

    • 4o kann Websuche, Canvas-Nutzung, serverseitige Python-Auswertung und Bildgenerierung, hat aber keine Chain-of-Thought
    • o3-mini kann Websuche, CoT und Canvas, aber keine Bilder generieren
    • o1 kann CoT, aber weder Canvas noch Websuche oder Bildgenerierung
    • Deep Research ist leistungsstark, kann aber nur 10-mal pro Monat genutzt werden und wird daher fast nie verwendet
    • 4.5 ist stark beim kreativen Schreiben, hat aber Anfragebeschränkungen, und es ist unklar, ob andere Funktionen unterstützt werden
    • Warum 4o "with scheduled tasks" ein Modell und kein Tool ist, wird infrage gestellt
  • Vergleich von SWE-bench Verified, Aider Polyglot, Kosten, Output-Token pro Sekunde und Wissens-Cutoff nach Monat/Jahr

    • Vergleich von Leistung und Kosten von Claude, Gemini, GPT-4.1, DeepSeek R1 und Grok 3 Beta
    • Ein direkter Vergleich ist schwierig, da unterschiedliche Testumgebungen und Denkstufen einbezogen sein können
  • OAI hat einen Prompt-Guide für GPT 4.1 veröffentlicht

    • Dem Modell Persistenz zu verleihen, hilft bei der Leistungssteigerung
    • Empfohlen wird die Verwendung von XML statt JSON oder arxiv 2406.13121 (GDM-Format)
    • Prompts sollten oben und unten platziert werden
  • Laut OpenAIs Ankündigung liefert GPT-4.1 in 55 % der Fälle bessere Vorschläge als Claude Sonnet 3.7 in einem Duell zur Generierung von Code-Reviews

    • GPT-4.1 ist bei Präzision und Vollständigkeit überlegen
  • In einem aktuellen Ted Talk sagte Sam, Modelle kämen und gingen, aber man wolle die beste Plattform werden

    • Das wirkt wie ein großer Wandel
  • Geteilte Erfahrungen mit GPT-4.1 in einer komplexen Codebasis

    • Es fühlt sich wie OpenAIs erstes Agentenmodell an
    • Es braucht weiterhin Verbesserungen, und Tool-Calls schlagen häufig fehl
    • Im Vergleich zu Claude ist es schwächer darin, mit Komplexität umzugehen
    • Solange die Anfrage nicht zu komplex ist, hält es sich gut an die Vorgaben
  • Es wird die Notwendigkeit von Benchmarks für die Leistung von Modellen mit sehr hoher maximaler Token-Zahl angesprochen

    • Beim Gemini-Modell wurde nach 200k ein Qualitätsabfall beobachtet
    • Es wird infrage gestellt, ob eine Erhöhung des maximalen Token-Limits tatsächlich nützlich ist
  • Große KI-Forschungslabore führen gleichzeitig mehrere Marktkriege

    • Sie konkurrieren an vielen Fronten, darunter Consumer-Wachstum, Enterprise-Workloads, Cutting-Edge-Forschung, das Einlösen von Versprechen beim Reasoning und die Reaktion auf die Bedrohung durch DeepSeek
  • Ergebnis der Zusammenfassung eines Hacker-News-Threads mit 164 Kommentaren durch GPT-4.1

    • Es wird als gut im Befolgen von Anweisungen bewertet
    • Angegeben werden die gesamten Token-Kosten und ein Vergleich mit anderen Modellen