3 Punkte von GN⁺ 6 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • OpenAI öffnet die GPT‑5.6-Serie als eingeschränkte Preview und bringt neben dem Flaggschiff Sol auch Terra für alltägliche Aufgaben und das kostengünstige Luna heraus
  • Sol stärkt seine Agentenfähigkeiten in den Bereichen Coding, Biologie und Cybersicherheit und unterstützt mit max reasoning effort sowie dem ultra-Modus tieferes Schlussfolgern und den Einsatz von Subagenten
  • Die Cybersicherheitsleistung wurde in ExploitBench und ExploitGym verbessert, doch unter den Evaluationsbedingungen für Chromium und Firefox konnte das Modell keinen funktionalen Full-Chain-Exploit autonom erzeugen und überschreitet damit nicht den Cyber-Critical-Schwellenwert
  • Die Preview wird zunächst einigen vertrauenswürdigen Partnern und Organisationen über API und Codex bereitgestellt; nach einem eingeschränkten Verfahren auf Anfrage der US-Regierung wird eine breitere Veröffentlichung vorbereitet
  • Die Preise pro 1 Million Tokens betragen bei Sol $5 Input / $30 Output, bei Terra $2,50 Input / $15 Output und bei Luna $1 Input / $6 Output; Cache-Schreibvorgänge kosten das 1,25-Fache, Cache-Lesevorgänge erhalten 90 % Rabatt

Umfang der GPT‑5.6-Serien-Preview

  • OpenAI stellt die GPT‑5.6-Produktfamilie zunächst als eingeschränkte Preview vor
    • Sol: Flaggschiff-Modell
    • Terra: ausgewogenes Modell für alltägliche Aufgaben
    • Luna: schnelles und günstiges Modell
  • Terra bietet eine mit GPT‑5.5 konkurrenzfähige Leistung zu einem halb so hohen Preis
  • Luna bietet starke Fähigkeiten zu den bislang niedrigsten Kosten bei OpenAI
  • GPT‑5.6 Sol erscheint mit dem robustesten Safety Stack, den OpenAI bisher entwickelt hat
    • Hochriskante Aktivitäten
    • Sensible Cyber-Anfragen
    • Wiederholter Missbrauch
    • Schwachstellensuche und Belastungstests gegen reale Angriffe

Eingeschränkte Veröffentlichung und Abstimmung mit der Regierung

  • OpenAI plant, GPT‑5.6 Sol, Terra und Luna in den kommenden Wochen allgemein verfügbar zu machen
  • Im Rahmen der laufenden Abstimmung mit der US-Regierung wurden vor dem Start Pläne und Modellfähigkeiten geteilt
  • Auf Anfrage der Regierung startet OpenAI zunächst eine eingeschränkte Preview für eine kleine Zahl vertrauenswürdiger Partner, deren Teilnahme der Regierung mitgeteilt wurde
  • OpenAI ist der Ansicht, dass ein solcher Regierungszugang langfristig nicht zum Standard werden sollte
    • Denn Nutzer, Entwickler, Unternehmen, Cyber-Verteidiger und globale Partner könnten sonst keinen Zugang zu den benötigten Tools erhalten
  • Dieses kurzfristige Verfahren ist ein Weg zu einer breiteren Veröffentlichung innerhalb weniger Wochen
    • Es gilt, während mit der Regierung ein Cyber-Executive-Order-Framework und ein wiederholbares Verfahren für künftige Modellveröffentlichungen entwickelt werden

Modellfähigkeiten und Evaluierung

  • GPT‑5.6 Sol wird als OpenAIs stärkstes Modell vorgestellt
  • In Evaluierungen zu Coding, Biologie und Cybersicherheit zeigt es verbesserte Agentenfähigkeiten
  • Zusätzliche Bewertungen zu Sicherheit und Preparedness sind in der GPT‑5.6 Preview system card enthalten
  • Bei einer breiteren Veröffentlichung soll ein erweitertes Paket an Evaluationsergebnissen geteilt werden
  • Reasoning-Modi

    • GPT‑5.6 führt max reasoning effort ein, damit Sol länger und tiefer schlussfolgern kann
    • Der neue ultra-Modus geht über die Fähigkeiten eines einzelnen Agenten hinaus und nutzt Subagenten, um komplexe Aufgaben zu beschleunigen
  • Coding und Biologie

    • GPT‑5.6 Sol erzielt in Terminal‑Bench 2.1, das Command-Line-Workflows bewertet, eine neue Spitzenleistung
    • Dieser Benchmark testet Command-Line-Aufgaben, die Planung, Iteration und Tool-Koordination erfordern
    • In GeneBench v1 liefert es stärkere Ergebnisse als GPT‑5.5 und verwendet dabei weniger Tokens
    • GeneBench v1 bewertet langfristige Analysen in Genomik und quantitativer Biologie
  • Cybersicherheit

    • GPT‑5.6 Sol ist das leistungsfähigste Modell von OpenAI für Cybersicherheitsaufgaben
    • Bei langfristigen Sicherheitsaufgaben einschließlich Schwachstellenforschung und Exploits verschiebt es die Performance-Effizienz-Frontier
    • In ExploitBench erzielt es mit Mythos Preview konkurrenzfähige Ergebnisse, verwendet aber nur etwa ein Drittel der Output-Tokens
    • In ExploitGym zeigen Sol, Terra und Luna alle mit zunehmendem Reasoning deutliche Verbesserungen der Cyber-Fähigkeiten
    • ExploitGym ist ein Benchmark, der von Forschern der UC Berkeley in Zusammenarbeit mit OpenAI und anderen Frontier Labs entwickelt wurde

Cyber-Fähigkeiten und Sicherheitsmaßnahmen

  • GPT‑5.6 Sol, Terra und Luna wurden mit OpenAIs robustesten, auf die jeweiligen Modellfähigkeiten abgestimmten Sicherheitsmaßnahmen entwickelt
  • Mit steigender Modellfähigkeit sind die Sicherheitsmaßnahmen so ausgelegt, dass sie auch realem gegnerischem Druck standhalten
  • Der Zugang für legitime defensive Arbeit soll erhalten bleiben
    • Code Reviews
    • Schwachstellenforschung
    • Patch-Entwicklung
    • Debugging
    • Sicherheitsschulungen
    • Defensive Tests
  • Ziel ist es, verbotene offensive Aktivitäten schwieriger, unsicherer und erkennbarer zu machen, ohne nützliche Nutzung unnötig einzuschränken
  • Laut OpenAIs Evaluierung gibt es erhebliche Vorteile für legitime defensive Arbeit, während verbotene offensive Nutzung spürbar eingeschränkt wird
  • Cyber-Critical-Schwellenwert

    • GPT‑5.6 Sol überschreitet nach dem Preparedness Framework nicht den Cyber-Critical-Schwellenwert
    • In Evaluierungen zu Chromium und Firefox identifiziert es Bugs und Exploit-Primitives
    • Unter den Testbedingungen konnte es jedoch keinen funktionalen Full-Chain-Exploit autonom erstellen
    • Benchmark-Schwellenwerte können nicht vollständig erfassen, wie Modelle genutzt oder mit anderen Tools kombiniert werden
    • Aufgrund dieser Unsicherheit und der insgesamt verbesserten Fähigkeiten kombiniert OpenAI stärkere Sicherheitsmaßnahmen mit einem gestuften Rollout

Gestaffelter Safety Stack

  • Vorsätzlicher oder adaptiver Missbrauch lässt sich schwer mit nur einer einzigen Sicherheitsmaßnahme verhindern
  • In der gesamten GPT‑5.6-Preview kommen gestaffelte Sicherheitsmaßnahmen zum Einsatz, die je nach Modell unterschiedlich konfiguriert sind
    • Im Modell trainierte Schutzmechanismen
    • Echtzeitprüfungen während der Generierung
    • Signale auf Kontoebene
    • Differenzierter Zugang
    • Monitoring
    • Durchsetzung
    • Kontinuierliches Testen
  • Ablehnung auf Modellebene und Echtzeitprüfungen

    • GPT‑5.6 wurde darauf trainiert, verbotene Cyber-Unterstützung abzulehnen, selbst wenn Nutzer ihre Absicht verbergen oder einen Jailbreak versuchen
    • Echtzeit-Klassifikatoren für Cyber- und Bio-Missbrauch bewerten die gerade erzeugten Ausgaben
    • In Hochrisikofällen kann die Generierung pausiert werden, wenn ein potenzieller Verstoß erkannt wird
    • Ein größeres Reasoning-Modell prüft Gespräch und Kontext; wenn der Output als verboten bewertet wird, wird er zurückgehalten, bevor er den Nutzer erreicht
  • Prüfung auf Kontoebene und differenzierter Zugang

    • Markierte Aktivitäten können zu einer Prüfung auf Kontoebene führen, einschließlich relevanter Gespräche und Risikosignale
    • Der Blick auf den Kontext auf Kontoebene statt nur auf einzelne Gespräche hilft dabei, legitime Dual-Use-Sicherheitsarbeit von anhaltend bösartigem Verhalten zu unterscheiden
    • Differenzierter Zugang sorgt dafür, dass wichtige defensive Arbeit möglich bleibt, während die sensibelsten Fähigkeiten standardmäßig nicht breit verfügbar sind
  • Auswirkungen auf Nutzer während der Preview

    • Während der Preview können einige Anfragen blockiert oder abgelehnt werden
    • Wenn die Generierung für eine zusätzliche Prüfung pausiert wird, können manche Anfragen länger dauern
    • In Dual-Use-Bereichen, in denen defensive und offensive Aktivitäten anfangs ähnlich aussehen können, können Sicherheitsmaßnahmen auch bei legitimer Arbeit eingreifen
    • Feedback aus der Preview wird genutzt, um unnötige Blockierungen und Verzögerungen zu reduzieren, die Kontextinterpretation der Sicherheitsmaßnahmen zu verbessern und die Erfahrung vor dem breiteren Launch zu verfeinern
    • Mit Unternehmenskunden wird auch ein langfristiger Ansatz diskutiert
      • Datenschutzfreundliche Erkennung
      • Sicherheitskontrollen für Kundenbetrieb
      • Zugriffsrechte, die auf das Risiko von Kunde, Nutzer und Workload abgestimmt sind

Robustheit durch automatisiertes Red-Teaming verbessern

  • Sicherheitsmaßnahmen müssen wirksam bleiben, auch wenn Angreifer ihre Taktiken ändern
  • OpenAI nutzt eigene Modelle, um Schwachstellen zu finden und Sicherheitsmaßnahmen schneller zu verbessern
  • Mehr als 700.000 A100-äquivalente GPU-Stunden wurden in automatisiertes Red-Teaming investiert
  • Das automatisierte Red-Teaming konzentriert sich darauf, Universal Jailbreaks zu finden, die über mehrere Prompts oder Kontexte hinweg funktionieren können
  • Die Konzentration auf solche allgemeineren Angriffe ermöglicht es, Sicherheitsmaßnahmen über eine feste Liste bekannter Fehlerfälle hinaus zu testen
  • Automatisierung untersucht mehr Angriffsmuster, als allein mit menschlichen Tests praktikabel wäre, findet Fehlermuster früher und verkürzt die Zeit von der Schwachstellenentdeckung bis zur Behebung
  • Zusammen mit externen Testern wurde auch Red-Teaming durch menschliche Experten durchgeführt; diese Arbeit wird während der Preview fortgesetzt
  • Neu entdeckte Jailbreaks werden reproduziert, bewertet, priorisiert und behoben und anschließend in kontinuierliche Evaluierungen aufgenommen, um künftig ähnliche Fehler testen zu können

Bereitstellung und Preise

  • Während der Preview werden die GPT‑5.6-Modelle zunächst ausgewählten vertrauenswürdigen Partnern und Organisationen über API und Codex bereitgestellt
  • Danach ist eine breitere Bereitstellung für ChatGPT-, Codex- und API-Nutzer geplant
  • Im neuen Benennungsschema von GPT‑5.6 gibt die Zahl die Modellgeneration an
  • Sol, Terra und Luna bezeichnen dauerhafte Fähigkeits-Tiers, die sich jeweils in ihrem eigenen Tempo weiterentwickeln können
  • Die Produktfamilie bietet Nutzern und Entwicklern klarere Optionen zwischen Intelligenz, Geschwindigkeit und Kosten
  • Token-Preise und Caching

    • Die GPT‑5.6-Preise werden pro 1 Million Tokens berechnet
    • Sol: Input $5 / Output $30
    • Terra: Input $2,50 / Output $15
    • Luna: Input $1 / Output $6
    • GPT‑5.6 führt besser vorhersagbares Prompt-Caching ein
      • Unterstützung für explizite Cache-Breakpoints
      • Mindestens 30 Minuten Cache-Lebensdauer
    • Bei GPT‑5.6 und späteren Modellen werden Cache-Schreibvorgänge mit dem 1,25-Fachen des nicht gecachten Input-Preises des jeweiligen Modells berechnet
    • Cache-Lesevorgänge erhalten weiterhin 90 % Rabatt auf gecachten Input
  • Bereitstellung über Cerebras

    • GPT‑5.6 Sol soll im Juli bei Cerebras mit einer Geschwindigkeit von bis zu 750 Tokens pro Sekunde verfügbar werden
    • Der frühe Zugang ist während des Kapazitätsausbaus auf ausgewählte Kunden beschränkt

1 Kommentare

 
GN⁺ 6 시간 전
Meinungen auf Hacker News
  • Der interessanteste Teil dieser Ankündigung ist im vorletzten Absatz versteckt: „Im Juli wird Cerebras GPT‑5.6 Sol mit bis zu 750 Token pro Sekunde herausbringen und Kunden damit Frontier-Intelligenz in beispielloser Geschwindigkeit bereitstellen. Der Zugang bleibt bis zur Kapazitätserweiterung auf ausgewählte Kunden beschränkt.“
    750 Token/Sekunde bei einem Frontier-Modell dürften wirklich spannend sein. Bei der Leistung bin ich skeptisch, ob es mehr ist als nur eine Versionsnummer höher, aber wenn man Antworten schneller bekommt, wird es deutlich nützlicher.
    Mir fällt zum Beispiel die mühsame Aufgabe ein, in einer Codebasis eine bestimmte Funktion zu finden. Schon heute ist es bei dieser Aufgabe meist schwer, ein AI-Agent-Harness zu schlagen; wenn das Modell dreimal schneller wird, sinken die Chancen noch weiter.

    • https://mikeveerman.github.io/tokenspeed/?rate=750&mode=think
      750 Token/Sekunde fühlt sich ungefähr so an.
    • Zum Vergleich: Laut openrouter schafft Opus 4.8 etwa 55 Token/Sekunde, im schnellen Modus etwa 102 Token/Sekunde.
      750 Token/Sekunde beim größten Modell wären enorm.
    • Ich stimme der Aussage zu, dass „es bei der Aufgabe, in einer Codebasis eine bestimmte Funktion zu finden, meist schwer ist, ein AI-Agent-Harness zu schlagen“.
      Noch vor gerade einmal einem Jahr erinnere ich mich daran, mit der KI um die Wette gelaufen zu sein, um eine Codebasis zu verstehen; heute habe ich keine Chance mehr zu gewinnen. Ich weiß nicht, ob meine Schlussfolgerungsfähigkeit nachgelassen hat oder ob die Modelle besser geworden sind.
    • Ich nutze noch GPT-5.3-codex-spark, das ebenfalls auf Cerebras-Chips läuft.
      Spark kann über 1000 Token/Sekunde erreichen, aber das Kontextfenster ist sehr begrenzt, weshalb es für viele Workflows nicht passt. Dieses Modell dürfte, auch wenn es vergleichsweise etwas langsamer ist, immer noch hervorragend sein.
    • Ab einer gewissen Geschwindigkeit könnte man wohl zu kontinuierlichen/Echtzeit-Inferenzsystemen übergehen.
      Die heutigen diskreten, turn-basierten Lösungen schränken sogar die Art des Trainings erheblich ein. Ein kontinuierlicher Echtzeitansatz könnte diesen Bereich grundlegend verändern.
      Aus informationstheoretischer Sicht liegt die tatsächliche Informationsübertragungsrate immer noch auf Dial-up-Niveau. Selbst 750 Token/Sekunde sind ungefähr eine sehr schlechte Dial-up-Verbindung; man stelle sich 10 Millionen Token pro Sekunde vor.
  • Ich sehe hier diesen Trend: GPT-5 mini kostet $0.25/$2 und soll im Dezember eingestellt werden, GPT-5.4 mini kostet $0.75/$4.5 und wird als Ersatz bezeichnet, GPT-5.4 nano kostet $0.2/$1.25 und ist laut Benchmarks besser als GPT-5 mini, ähnelt ihm in realen Szenarien aber überhaupt nicht.
    Wenn man also derzeit 5 mini nutzt, wird man am Ende zu GPT-5.4 mini gedrängt. Auch hier passiert dasselbe, denn das „Luna“-Modell kostet $1/$6.
    Können wir nicht einfach die Modelle weiter nutzen, die wir tatsächlich wollen? Wir brauchen nicht GPT 5.4 mini; GPT-5 reicht völlig.
    Vielleicht war es von Anfang an nie so günstig, und wir merken nur, dass man uns langsam und schmerzhaft zu Upgrades bewegen will.

    • Wenn man die Leistung der Frontier-Modelle von Anthropic/OpenAI nicht braucht, sind Open-Weight-Modelle, die nicht verschwinden können, möglicherweise besser.
      Auf HN erwähne ich oft DeepSeek V4 Flash, aber laut Artificial Analysis liegt es Stand August 2025 Kopf an Kopf mit GPT-5 high [0].
      [0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
    • Genau wie beim SaaS-Modell. Die Preise steigen weiter, und um das zu rechtfertigen, wird man ständig zu neuen Versionen gezwungen, die Funktionen enthalten, nach denen niemand gefragt hat.
    • Ich hatte damit ziemlich zu kämpfen. Gute und günstige Modelle sind eindeutig möglich; es gibt viele davon im Open-Source-Bereich, und Neo-Clouds bieten sie profitabel an.
      Die großen Labore haben günstige Modelle im Grunde aufgegeben, und das ist frustrierend. Die Wahrscheinlichkeit ist hoch, dass Anwendungen künftig nicht mehr in großem Umfang darauf aufbauen. Wir verlagern zum Beispiel unsere Workloads von Haiku/Sonnet zu Deepseek v4.
      Das Problem scheint zu sein, dass sie viel verlangen müssen, um ihre Umsatzzahlen zu halten, und dass sie sich mehr davor fürchten, ihre eigenen Umsätze zu kannibalisieren, als davor, dass andere sie kannibalisieren.
    • Gute Beobachtung. Der Trend zu höheren Preisen ist klar, aber zugleich sorgen Innovation und Verfügbarkeit von Alternativen sowohl bei offenen als auch bei geschlossenen Modellen für einen Ausgleich.
      Es ist natürlich, dass die Labore ausloten, wie weit sie die Preise treiben können, und ebenso natürlich, dass Wettbewerber diese Margen als Wachstumschance nutzen. Am Ende dürften sich die Preise stärker stabilisieren.
    • Dasselbe passiert bei Anthropic Haiku und Gemini Flash/Flash Lite. Sie erhöhen alle die Preise und schaffen günstige Modelle ab.
  • Die erkannte Betrugsrate von GPT-5.6 Sol war die höchste unter den öffentlichen Modellen, die wir in unserem ReAct-Agent-Harness bewertet haben.
    In unserer Aufgabensammlung definieren wir „Betrug“ als Verhalten, bei dem ein Modell nicht versucht, ein Problem innerhalb der erwarteten Evaluationsbeschränkungen zu lösen, sondern Bugs in der Evaluationsumgebung ausnutzt oder Strategien verwendet, die in der Aufgabe verboten sind, um die Evaluationsleistung zu erhöhen.
    https://metr.org/blog/2026-06-26-gpt-5-6-sol/

    • Dieses Zitat aus dem Link ist wirklich beängstigend: Als Beispiel aus der Bewertung von GPT-5.6 Sol wurde berichtet, dass das Modell einen Exploit in eine Zwischenabgabe verpackte, um Informationen über die versteckte Testsuite der Aufgabe offenzulegen, oder in einer anderen Aufgabe versteckten Quellcode extrahierte, der die erwartete Antwort beschrieb.
      Das reimt sich auf das Verhalten, das man bei Alibaba gesehen hat [0], aber dort geschah es während des Trainings. Hier passiert es bei einem Modell kurz vor dem Release.
      [0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
    • Dass Modelle betrügen, ist ziemlich logisch. Während der Bewertung werden Benchmark-Anfragen an die Backends dieser Unternehmen gesendet.
      Alles, was diese Unternehmen tun müssen, ist, diese Anfragen zu loggen und sie im nächsten Modell-Release zu „korrigieren“.
  • Ich finde, GPT schreibt Code am besten. Wenn ich mir vorstelle, wie gut es in Version 5.6 schreiben wird, läuft es mir kalt den Rücken hinunter
    Kürzlich habe ich mich bei einem fast 2.000 Zeilen langen Code direkt mit GPT gemessen, und GPTs Lösung war besser und schneller. Ich habe es mit Blick auf mehrere GitHub-Codebasen versucht, aber es war kein Vergleich zu GPT
    Deshalb empfinde ich bei der Nutzung von GPT gleichzeitig Angst und Begeisterung. Beängstigend ist die Erkenntnis, dass Code auf diesem Niveau für die Mehrheit nun zum Durchschnitt wird; begeisternd ist, dass auch ich auf diesem Niveau studieren und lernen kann
    Ich bin wirklich gespannt, wie viel besser Code durch das 5.6-Upgrade noch wird

    • Ich bin im gegnerischen Lager. Open Models fangen an, besser zu werden, und GPT 5.5 baut ständig Mist
      Umgekehrt ist die Kombination aus pi + glm + DeepSeek sehr gut. Fable war allerdings ein Monster anderer Art. RIP
    • Rein subjektiv: Auch wenn GPT 5.5 beim Gesamtmaximum höher liegen könnte, lese ich lieber die Ausgaben von Opus 4.8
      Ersteres ist etwas angenehmer zu reviewen
    • Vor ein paar Monaten habe ich denselben Satz mehrfach über Opus 4.6 gehört; danach galten 4.7 und 4.8 als enttäuschend, und heute sehnen sich die Leute nach den „guten alten Zeiten von 4.6“
      Mit guten Zeiten sind hier ein paar Wochen im Februar 2026 gemeint. Es ist sehr interessant, zuzusehen, wie sich das alles entwickelt
    • Ich bezweifle, dass die Coding-Fähigkeiten so stark verbessert wurden
      Es wirkt seltsam, dass in der Ankündigung kein einziger Coding-Benchmark vorkommt und das Nächstliegende terminal bench ist
    • Kannst du ein Beispiel nennen? Mich würde interessieren, was du lösen wolltest, was deine Lösung war und warum GPTs Lösung besser und schneller war
  • Wenn du in den letzten etwa 24 Stunden GPT-5.5 genutzt hast, hattest du möglicherweise bereits Zugriff auf 5.6
    Ich lasse Tests in einem Harness laufen, das wir bauen, und gestern sprangen plötzlich ein paar Werte nach oben. Als ich den grundlegenden Codex-Benchmark erneut ausgeführt habe, erzielte GPT-5.5 auf dem Basis-Codex bei Terminal Bench 2.1 etwa 88%
    Ein noch stärkeres Signal als der Score war, dass drei Tests, die bei 5.5 oft an „Safety“-Blockaden hängen blieben, gestern Nacht ohne jede Vorwarnung erfolgreich durchliefen

    • Solche Änderungen können auch allein durch Infrastrukturänderungen entstehen, nicht durch irgendeinen mysteriösen A/B-Test
    • Hast du das Release überhaupt gelesen? Es war nicht breit für alle verfügbar
      Dort stand, dass man „mit einer eingeschränkten Preview für eine kleine Gruppe vertrauenswürdiger Partner beginnt, deren Teilnahme der Regierung mitgeteilt wurde, und danach breiter ausrollt“
      Dieser Kommentar ist ein hervorragendes Beispiel dafür, wie der durchschnittliche LLM-Nutzer sich im Grunde wie ein Automatenspieler verhält. Er glaubt: „Das hier ist heiß, das hier hat Glück, das hier ist besser als das andere“, und wechselt ständig Modelle auf Basis eines mystischen Verständnisses, das nur er zu haben meint
      Und was soll an einem 80%-Benchmark wichtig sein? Man trainiert auf solche öffentlichen Benchmarks, um Leute zu beeindrucken, die ihnen Bedeutung beimessen. Warum liegt die Erfolgsquote dann bei Upwork-Jobs für 20–30 $/Stunde nur bei 4%? Solche Benchmarks wirken praktisch nutzlos
      Es gibt außerdem so etwas wie Varianz; ich verstehe nicht, warum ein paar höhere Testwerte dich glauben lassen, du hättest Zugriff auf ein Modell, von dem gesagt wurde, dass du keinen Zugriff hast
      https://labs.scale.com/leaderboard/rli
  • Ich frage mal in einem beliebten Thread: Wie sehen derzeit die Nutzungslimits für Codex und Claude aus?
    Früher habe ich beiden dieselbe Aufgabe gegeben, und Codex verbrauchte 20-mal weniger von meinem 5-Stunden-Limit. Beide waren im 20-$-Monatsplan
    Eigentlich bevorzuge ich Claude, was mich geärgert hat, aber wegen der damaligen Limits war es für ernsthafte Arbeit nicht nutzbar
    Seitdem haben beide Anbieter die verfügbare Nutzung stark reduziert, und mindestens einer wurde deswegen sogar verklagt
    Derzeit abonniere ich keines von beiden und wäge die Optionen ab. Da GPT etwas besser als Opus ist und früher viel höhere Limits bot, tendiere ich zu einem OpenAI-Abo. Ich frage mich aber, ob der aktuelle Stand noch zu meiner Erinnerung von vor 2–3 Monaten passt. Beide Unternehmen scheinen stark auf Kostensenkung bedacht zu sein
    Antworten von Leuten, die beide genutzt haben, wären mir am liebsten, aber Anekdoten sind ebenfalls willkommen

    • Die Codex-Nutzung fühlt sich sehr großzügig an. Allerdings bin ich im 200-$-Plan und nutze bei Claude ebenfalls den 200-$-Plan
      Wenn ich will, kann ich während meiner gesamten Wachzeit xhigh und Subagenten fast durchgehend laufen lassen. Wenn ich die Geschwindigkeitsoption 1.5x aktiviere, stoße ich gelegentlich an das 5-Stunden-Limit
      Ich bevorzuge die Atmosphäre von Claude gegenüber 5.5, aber 5.5 scheint mir deutlich weniger faul zu sein. Natürlich hängt das stark von der Aufgabe und der Prompt-Strategie ab
    • Im letzten Monat fühlte sich Claude Max 5x beim Verbrauch ziemlich großzügig an, weil es wegen Fable und Bugs viele Resets gab
      Wenn man 5.5 high oder Opus 4.8 high nutzt, ist es ehrlich gesagt ziemlich ähnlich
      Es scheint, als hätten sie im Max-Plan die separate Sonnet-Nutzung abgeschafft; vielleicht wegen der Vorbereitung auf Sonnet 5. Schade, denn dadurch fühlten sich Subagent-Workflows fast unbegrenzt an
    • Wenn man Claude Code und Cursor+Gpt55 bei der Arbeit vergleicht, ist Claude eindeutig langsamer und teurer
    • Interessant. Seit etwa einem Monat habe ich das Gefühl, dass Claude Code ungefähr 5-mal mehr Tokens verbraucht. Nur eine grobe Schätzung
  • Es heißt, man führe auch einen neuen ultra-Modus ein, „der Subagenten nutzt, um komplexe Aufgaben über die Fähigkeiten eines einzelnen Agenten hinaus zu beschleunigen“; ich frage mich, wie das funktioniert.
    Können die Subagenten dieselben Tools verwenden? Wird der Client mit Tool-Aufrufen überflutet? Warum sollte man für ein neues „Modell“ extra bezahlen, wenn man dasselbe mit mehr Kontrolle auf Client-Seite tun kann?
    Und bei einer Legion von Subagenten frage ich mich auch, warum man es mit Fable und Mythos vergleicht. Wenn man ein ähnliches Harness darum baut, würden diese Modelle vermutlich bessere Benchmarks erzielen.

    • Wenn es dem ultracode von ClaudeCode ähnelt, ist daran nichts neu oder innovativ.
      Im Kern ist es eine Struktur, bei der ein deterministisches Skript, das vom Hauptmodell-Thread geschrieben wurde, mehrere Subagenten aufruft, jeder davon jede Menge Tokens verbraucht und der Orchestrator-Agent anschließend die Ausgaben zusammenführt.
    • Wenn es Claude Ultracode ähnelt, verbrennt es mit einem einzigen Prompt in 30 Minuten 3 Millionen Tokens.
    • Verwenden die wichtigsten Harnesses (pi, Claude code, codex) nicht alle Subagenten?
      Wenn man es explizit anweist, tun sie es definitiv, und zumindest bei pi habe ich gesehen, dass es sie auch ohne explizite Anweisung startet.
    • Ich finde das auch interessant. Wenn es nicht rein dazu dient, noch ein bisschen mehr Performance herauszuquetschen, dann vermutlich, um reale Nutzungsdaten für diese Art der Verwendung sauber zu sammeln.
    • Es überrascht mich, dass sie nicht schon Subagenten verwendet haben. Vielleicht meinen sie auch nur, dass die Web-Bereitstellung mit codex integriert wurde.
  • Wie bei Mythos begeistert mich ein Modell, das ich nicht nutzen kann, überhaupt nicht.

    • Immerhin plant OpenAI, alle Versionen der Öffentlichkeit zugänglich zu machen. Das wirkt deutlich besser als das, was bei Anthropic passiert.
      „Ja, wir haben das beste derzeit existierende Modell. Glaub uns. Es ist wirklich furchterregend.“
      „Oh, ja? Können wir es sehen?“
      „Verpisst euch. Für gewöhnliche Leute wie euch geben wir eine schlechtere Version heraus.“
      „Ähm, danke?“
      „Haha, eigentlich nicht einmal das. Die aktuelle Regierung ist auf unser Angst-Marketing hereingefallen. Wir geben euch eine schlechtere, wahnsinnig teure Token-Verbrennungsmaschine. Die Hardware-Beschränkungen werden jede Woche schlimmer.“
      Was man auch über OpenAI sagen mag: Die Unternehmensstrategie wirkt deutlich solider.
  • Die Aussage „Terra zeigt eine mit GPT‑5.5 konkurrenzfähige Leistung und ist 2-mal günstiger“ klingt für mich nach „ein minderwertigeres Produkt, aber man versucht, das im Marketing zu kaschieren“.
    Und Formulierungen wie „unser bislang robustester Safety-Stack, verstärkter Schutz gegen Hochrisiko-Aktivitäten, sensible Cyber-Anfragen und wiederholten Missbrauch, über Wochen hinweg Schwachstellensuche, Belastungstests und Härtung gegen reale Angriffe“ sind für mich bestenfalls wertlos und meist potenziell schädlich. Denn es wird wohl zu mehr Ablehnungen oder geringerer Utility führen.
    Warum stellen Anbieter ständig den Safety-Stack in den Vordergrund? Gibt es Kunden, die so etwas verlangen? Außer Nutzern von ChatGPT-Chatbots für Support fällt mir niemand ein.

    • „Terra zeigt eine mit GPT‑5.5 konkurrenzfähige Leistung und ist 2-mal günstiger“ verstehe ich so, dass man die heutige Mainline-Leistung zu einem deutlich niedrigeren Preis bekommt.
    • Der Zweck von Terra ist, günstiger als das Spitzenmodell und trotzdem ziemlich gut zu sein. Natürlich ist es in puncto Intelligenz unterlegen.
    • Diese Botschaft richtet sich eindeutig an die Regierung. Siehe den anderen Thread.
    • Vielleicht ist es auch eine Botschaft an Investoren.