3 Punkte von GN⁺ 4 시간 전 | 2 Kommentare | Auf WhatsApp teilen
  • Im 1:1-Vergleich von vier spontan erstellten Textaufgaben, die eine Vorbereitung im Voraus unmöglich machten, erzielte DeepSeek V4 Pro 38,0 Punkte, GPT-5.5 Pro kam auf 33,0 Punkte
  • Beide Modelle waren stark, doch DeepSeek war strenger, wörtlicher und unter Nebenbedingungen verlässlicher, während GPT-5.5 Pro durch unnötige improvisierte Änderungen Punkte verlor
  • Der deutlichste technische Vorsprung zeigte sich bei der Aufgabe python-log-redactor: Mit einem einzelnen regulären Ausdruck und einer Ersetzungsfunktion wurden verschachtelte Muster mit korrekter Priorität verarbeitet und ein lückenloses Ergebnis erzielt
  • In der Aufgabe zum Befolgen von Anweisungen erfüllte es exakt nur die Prompt-Anforderungen, während GPT-5.5 Pro nicht angeforderte Punkte wie Schichtübergabe und Eskalation ergänzte
  • Bei Präzisionsaufgaben, bei denen kleine Abweichungen zu realen Fehlern führen, wurde es als das zurückhaltendere, genauere und verlässlichere Modell bewertet

Gesamtergebnis der Bewertung

  • Nach Punkten gewann DeepSeek V4 Pro mit 38,0 zu 33,0, der Abstand ist hinreichend begründet
  • Über die bewerteten Aufgaben hinweg war Model A (DeepSeek) strenger und wörtlicher und unter Nebenbedingungen stabiler
    • Model B (GPT-5.5 Pro) war hervorragend, zeigte aber eine etwas zu starke Tendenz zu improvisierten Änderungen
  • Das abschließende Urteil lautet, dass es bei Aufgaben, bei denen kleine Abweichungen direkt zu realem Scheitern führen, das zurückhaltendere, genauere und verlässlichere Modell ist

python-log-redactor (Code-Aufgabe)

  • Aufgabe war die Implementierung einer Funktion redact_log(line: str) -> str in Python 3, die E-Mails als [EMAIL], IPv4-Adressen als [IP] und Ticket-IDs im Format INC- plus sechs Ziffern als [TICKET] maskiert
    • Der übrige Text sollte unverändert bleiben, ungültige IPs wie 999.1.2.3 durften nicht maskiert werden, mehrzeilige Eingaben waren ausgeschlossen
  • Sieger: DeepSeek V4 Pro — Mit einem einzelnen regulären Ausdruck und einer Ersetzungsfunktion wurden überlappende Muster verarbeitet, sodass die korrekte Ersetzungspriorität gesichert war und nichts übersehen wurde
    • GPT-5.5 Pro trennte die regulären Ausdrücke, wodurch das Risiko von Reihenfolgefehlern entstand; außerdem hatte der E-Mail-RegEx Mängel wie fehlende Wortgrenzen und übermäßige Treffer
    Anzeige

vendor-delay-update (Aufgabe zum Verfassen einer Geschäftsnachricht)

  • Gefordert war ein Status-Update eines VP Operations an regionale Lagerleiter über die Verzögerung von 420 Ersatzgeräten, nachdem beim Barcode-Scanner-Lieferanten North Quay Devices die Batteriezertifizierung fehlgeschlagen war; der Versand verschob sich vom 12. Mai auf den 19. Mai
    • Reserve-Scanner reichen nur für Memphis und Reno, Tulsa und Allentown müssen Geräte eine Woche lang gemeinsam nutzen
    • Nicht essenzielle Bestandskontrollen sollen ausgesetzt, das Kommissionieren für den Versand priorisiert und bis täglich 16:00 Uhr Ortszeit eine Meldung der Fehlmengen angefordert werden; der Ton sollte ruhig, verantwortungsbewusst und pragmatisch sein, der Umfang 140–180 Wörter
  • Sieger: DeepSeek V4 Pro — Es nannte, wie im Prompt gefordert, direkt die Anweisung an die Lagerleiter, bis täglich 16:00 Uhr Ortszeit eine Meldung der Fehlmengen zu senden, und hielt den ruhigen, verantwortungsbewussten und pragmatischen Ton ein
    • GPT-5.5 Pro ergänzte nicht angeforderte Details wie Schichtübergaben und Eskalation und änderte den Empfänger zu „Operations Planning“, womit es leicht von der Vorgabe abwich; beide Ergebnisse waren jedoch hochwertig und hielten die Wortvorgabe ein

meeting-notes-summary (Aufgabe zu Zusammenfassung und JSON-Erstellung)

  • Nach dem Lesen von Besprechungsnotizen sollte zusammen mit einer zweisätzigen Zusammenfassung ein JSON-Objekt mit den Schlüsseln launch_date, owner, blocked_by, open_questions (Array) und decisions (Array) erzeugt werden
    • Die Notizen betrafen das Redesign des Tenant-Portals Cedar Lane und enthielten unter anderem die Freigabe durch die Rechtsabteilung, den abgeschlossenen Frontend-Status, den gewünschten Launch am 2026-03-18, ein Problem mit doppelten Beleg-IDs bei ACH-Retries in der Finance-Sandbox sowie die Entscheidung, den Dark Mode zu entfernen
    Anzeige
  • Sieger: DeepSeek V4 Pro — Es hielt das angeforderte Schema exakt ein und lieferte eine zweisätzige Zusammenfassung sowie JSON-Felder mit korrekten Typen
    • GPT-5.5 Pro hatte zwar eine gute Zusammenfassung, fügte bei launch_date jedoch bedingten Text ein und behandelte blocked_by als Array, obwohl ein Einzelwert gefordert war, was einen Strukturverstoß darstellte

messy-orders-to-json (Aufgabe zur Datennormalisierung)

  • Aufgabe war die Umwandlung unordentlicher Bestellzeilen in gültiges JSON als Objekt-Array nach vorgegebenem Schema; die Eingabereihenfolge musste erhalten bleiben
    • priority sollte auf true/false normalisiert werden, fehlende Versanddaten wie none, tbd oder - in null umgewandelt, Leerzeichen an Anfang und Ende entfernt und Positionen durch ; getrennt werden, wobei jedes Element dem Format SKU xQTY folgt
  • Ergebnis: Unentschieden — Beide lieferten gültiges JSON, bewahrten die Eingabereihenfolge, trafen das Schema exakt und normalisierten priority- sowie ship_by-Werte korrekt
    • In Qualität und Genauigkeit gab es praktisch keinen Unterschied; das Unentschieden bei einer einfachen Bereinigungsaufgabe gleicht Fehler bei Präzisionsarbeit jedoch nicht aus
    Anzeige

Testmethode

  • Es wurden vier spontan erstellte Textaufgaben für das Matchup verwendet, damit keines der Modelle sich im Voraus vorbereiten konnte
  • Die Bewertung jeder Aufgabe erfolgte durch grok-4-1-fast-non-reasoning
  • Der Endstand lautete DeepSeek V4 Pro 38,0, GPT-5.5 Pro 33,0

Modellspezifikationen

  • OpenAI: GPT-5.5 Pro

    • Ein Hochleistungsmodell, optimiert für tiefes Reasoning und Genauigkeit, gedacht für komplexe und risikoreiche Workloads
    • 1M+ Token-Kontext (Eingabe 922K, Ausgabe 128K), unterstützt Text- und Bildeingaben und ist für langlaufende Problemlösung, agentisches Coding und die präzise Ausführung mehrstufiger Workflows ausgelegt
    • Preis: Eingabe $30.00 / Ausgabe $180.00 (pro Million Token), Kontext 1.1M, Cutoff 2025-12-01
  • DeepSeek: DeepSeek V4 Pro

    • Ein großes Mixture-of-Experts-Modell mit insgesamt 1.6T Parametern und 49B aktiven Parametern, das 1M Token Kontext unterstützt
    • Ausgelegt auf fortgeschrittenes Reasoning, Coding und langlaufende agentische Workflows, mit starker Leistung bei Benchmarks zu Wissen, Mathematik und Software Engineering
    • Basierend auf derselben Architektur wie DeepSeek V4 Flash und mit einem hybriden Attention-System für effiziente Verarbeitung langer Texte
    • Unterstützt die Reasoning-Stufen high und xhigh, wobei xhigh auf maximales Reasoning abgebildet wird; geeignet für komplexe Workloads wie die Analyse ganzer Codebasen, mehrstufige Automatisierung und groß angelegte Informationssynthese
    • Preis: Eingabe $0.435 / Ausgabe $0.870 (pro Million Token), Kontext 1M

2 Kommentare

 
shakespeares 1 시간 전

Kaum zu glauben, echt..

 
GN⁺ 4 시간 전
Hacker-News-Kommentare
  • Vier willkürlich zusammengestellte Experimente sagen fast nichts über die Fähigkeiten irgendeines Modells aus
    Der Artikel liest sich auch wie dünnes AI-generiertes Clickbait, das auf Modellwerbung oder Kontroversen abzielt
    Formulierungen im Vorspann wie „where it matters“, „cleanly“ oder „is still strong“ sind vage, und es fehlt an konkreten Erklärungen wie etwa, dass DeepSeek in 3 von 4 Tests tatsächlich knappere Ergebnisse geliefert habe. Ein Ein-Stern-Artikel

    • Hier scheint der Zweck eines lede missverstanden worden zu sein
      Laut Merriam-Webster ist ein lede „der Einstieg in einen Nachrichtenartikel, der den Leser dazu bringen soll, den ganzen Artikel zu lesen“
      Man kann einen trockeneren Stil bevorzugen, aber es ist nicht gerechtfertigt, den Einstieg dafür zu kritisieren, dass er seinen Zweck erfüllen will
      https://www.merriam-webster.com/dictionary/lede
    • AI-generierte Artikel über AI möchte ich auf HN wirklich nicht sehen, außer sie sind außergewöhnlich gut geschrieben
    • 3 von 4 Experimenten sind zwar eindeutig anekdotisch, aber die Ergebnisse passen in gewissem Maß zu etablierteren Instruction-Following-Benchmarks. Allerdings steht DeepSeek V4 Pro dort nicht auf Platz 1
      https://artificialanalysis.ai/evaluations/ifbench
      Der Artikel wirkte klar und recht ausgewogen. Der Vorspann klingt etwas nach Werbetext, aber das tun Vorspänne oft, und ihn allein deshalb sofort abzulehnen, weil er sich „wie von einem LLM geschrieben“ anfühlt, ist eine ziemlich lustlose Reaktion
    • Auch im Automarkt gibt es nur ein oder zwei ideale Top-Optionen, aber schlechtere Firmen und Modelle werden aus vielen Gründen trotzdem weiter verkauft
      Dieser Artikel zeigt, dass DeepSeek mit GPT 5.5 konkurrieren kann und manchmal sogar besser sein könnte. Außerdem ist das ein Signal dafür, dass es keinen verteidigbaren Burggraben gibt, was ziemlich bedeutsam ist
    • Bei der Kennzahl „ein Pelikan fährt Fahrrad“ würde niemand von einem schwachen, willkürlichen Experiment dieser Art sprechen
  • Solche Tests wirken zunehmend wie Zeitverschwendung
    Inzwischen ist Intelligenz ganz offensichtlich vorhanden. Zu versuchen, sie zu messen, wirkt sinnlos. Wenn man im Baumarkt einen Hammer kauft, kann man ihn auch nicht danach sortieren, „wie gut das Endprodukt wird, das man damit baut“ — ungefähr so fühlen sich Modellbewertungen derzeit an
    Der nächste Zauber kommt aus domänenspezifischen Harnesses und Umgebungen. Man nutzt absichtlich ein etwas schwächeres Modell, damit die Domain die Schwächen der Art offenlegt, wie das Modell ihr ausgesetzt wurde. Wenn noch Leistungsreserven da sind, steigt die Verlässlichkeit des Projekts deutlich. Wenn ein Kunde sich über einen bestimmten Edge Case beschwert, kann man nur dieses Szenario auf gpt5.5 hochstufen — wenn man aber ohnehin schon 5.5 nutzt, gibt es kein weiteres Upgrade mehr

    • Die Aussage, „Intelligenz ist ganz offensichtlich vorhanden“, spricht mich nicht an
      Ich frage mich, ob wir dieselben Modelle benutzen wie andere Leute. Für mich liefern LLMs in 80 % der Fälle gute Antworten, aber in 20 % scheitern sie so katastrophal, dass klar wird, dass keine Intelligenz vorhanden ist
    • Stimme zu. sonnet 4.6 scheint für fast alles auszureichen. Jenseits dieses Niveaus wirkt Orchestrierung wichtiger als das Modell selbst
      Trotzdem überraschen einen die Modelle täglich mit neuen Halluzinationen, epistemischen Lücken, mangelndem Allgemeinwissen und Nichtbefolgen von Anweisungen
      Heute wollte ich opus 4.8 dazu bringen, einem einfachen Architekturmuster für Rails-App-Controller zu folgen, und es fühlte sich an, als würde man einem Hai Zähne ziehen
    • Schon die Tatsache, dass man bei „offensichtlich vorhanden“ inzwischen fragen muss, wo sie vorhanden ist, und dass man Bots gesehen hat, die eindeutig nicht intelligent sind, macht es nötig, Ort und Ursache von Intelligenz zu definieren und zu untersuchen
      Nur so kann man sicherstellen, dass Intelligenz nicht zufällig und nur oberflächlich erscheint, sondern konsistent und strukturell vorhanden ist. Für leichte Einsatzzwecke braucht man leichte Werkzeuge, für mission-kritische Einsätze zertifizierte Werkzeuge
    • Ich verstehe nicht, warum das Zeitverschwendung sein soll
      Wir steigen gerade erst in die Feinheiten des LLM-Benchmarkings ein, und ich glaube, wir haben noch einen langen Weg vor uns. Trotzdem ist es extrem spannend, dass lokal laufende LLMs Ergebnisse erzielen können, die mit aktuellen Spitzenmodellen vergleichbar sind
    • Der Zauber liegt nicht in domänenspezifischen Harnesses und Umgebungen. Der Kern liegt in Training und Reinforcement Learning. Ein Harness kann das Verhalten, auf das ein Modell trainiert wurde, nicht überschreiben
      Wenn ein Modell darauf trainiert wurde, CRUD-Websites auszugeben, und man CRUD-Websites bauen will, kann ein Harness nützlich sein. Aber das ist dann eher Zeitverschwendung beim besseren Durchmischen von etwas, das schon vorhanden ist
  • Ich habe Claude benutzt, bis Opencode blockiert wurde, und nutze bei der Arbeit jetzt GPT. Privat verwende ich Deepseek in Opencode Go mit dem 10-Dollar-Monatsabo, und ehrlich gesagt merke ich kaum einen Unterschied
    Es ist ähnlich kompetent und macht seit März dieselben dummen Fehler wie die beiden anderen. Für den Preis bin ich völlig zufrieden

    • In 95 % der Fälle braucht man die zusätzlichen 5 % an Strenge nicht, die Frontier-Modelle gegenüber 10- bis 100-mal günstigeren chinesischen Modellen liefern
      In den restlichen 5 % helfen sie bei schwierigen Schlussfolgerungsproblemen enorm und ersparen viel Leid. Wenn man doch nur zuverlässig vorhersagen könnte, wann genau diese zusätzlichen 5 % nötig sind
    • Ich habe beide Abos und finde ziemlich eindeutig, dass gpt besser und konsistenter ist. Wenn ich ans Limit komme, vermisse ich es aber nicht besonders stark
    • Ich weiß nicht, was ich falsch mache. Ich nutze seit sieben Monaten Claude und habe gelegentlich Modelle wie deepseek und kimi ausprobiert, aber nichts kam auch nur in die Nähe von Claude. Claude löst es fast immer im ersten Anlauf
  • Ich habe GPT 5.5 Pro zu meinem selbst erstellten Benchmark für das Scannen von Schwachstellen hinzugefügt (https://swelljoe.com/post/will-it-mythos/), und es hat unterwegs das Budgetlimit von 100 $ komplett aufgebraucht. DeepSeek V4 Pro kostete für den gesamten Benchmark etwa 1 Dollar, GPT Pro im Schnitt 22 $ pro Fall
    GPT 5.5 Pro fand 2 von 4 Fällen, die es verarbeitet hatte, bevor das Budget erschöpft war. Mit unbegrenztem Budget wäre es vielleicht das Beste gewesen, aber Opus 4.8, DeepSeek V4 Pro und MiMo 2.5 Pro fanden 4 von 9 Bugs. Opus war um eine Größenordnung günstiger als GPT 5.5 Pro und zudem etwa 30 % günstiger als GPT 5.5, während DeepSeek und MiMo mit etwa 10 Cent pro Fall um zwei Größenordnungen günstiger waren
    GPT Pro „kaut“ relativ lange und viel
    Ich kann mir keinen vernünftigen Anwendungsfall vorstellen, in dem sich GPT 5.5 Pro zum etwa 31-fachen der Opus-Kosten lohnt, und werde damit nicht weiter benchmarken
    In einer Situation, in der Token-Kosten zunehmend zu einem wichtigen Thema werden, dürfte die Tatsache, dass es Modelle gibt, die dramatisch günstiger sind als die großen US-Anbieter, für Anthropic und OpenAI zum Problem werden. Für interaktives Coding ist es in Ordnung, für das beste Modell einen angemessenen Aufpreis zu zahlen, aber bei API-Nutzung lassen sich Modell-Iterationen, Vergleiche zwischen Modellen und Modellbewertungen mit einem Harness und einem Ground-Truth-Validierungs-Framework erledigen, ohne dass Menschen lange daran sitzen müssen, daher ist schwer ein Grund zu finden, 10- bis 200-mal mehr als für DeepSeek zu bezahlen

    • Das hier könnte ebenfalls interessant sein
      „Für 3,88 $, 690.003.591 Token und 5 Stunden wurde mit Deepseek Pro und Flash zusammen das Lizenzsystem von Teamspeak 3.13.8 rückentwickelt“
      https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
    • Ich frage mich, ob man auch GPT 5.5 non-pro in den Vergleich aufnehmen könnte. GPT Pro ist eher die Option „man kann Geld verbrennen, wenn man gelegentlich ein etwas besseres Ergebnis will“, nicht etwas, das Menschen im Alltag nutzen sollen. Vermutlich ist das auch einer der Gründe, warum es nicht in Codex enthalten ist
    • Guter Artikel. Allerdings ist mir nicht klar, warum Sonnet schlechter als Haiku abgeschnitten hat. Soweit ich weiß, hieß es, dass zwar nicht die gesuchten Bugs gefunden wurden, dafür aber viele andere
      9 Bugs wirken als Stichprobe etwas klein, um daraus ein Ranking abzuleiten
      Trotzdem sieht die Rangfolge insgesamt weitgehend so aus wie erwartet
      Ist bei Deepseek wirklich Pro gemeint und nicht Flash? Ich nutze Flash oft für kleine Aufgaben, und es ist ziemlich gut. Für „interaktive“ Nutzung ist es gut geeignet, sehr schnell und erledigt kleine Aufgaben fast sofort
      Auch für die Untersuchung großer Codebasen scheint es brauchbar zu sein. Ich frage mich, ob es auch für Security-Arbeit taugt
    • Gute Arbeit. Die Intuition scheint zu stimmen. Ein großer Teil des Mythos moment lässt sich vermutlich mit einem passenden Harness und einem soliden Modell ohne allzu viele dumme Guardrails reproduzieren
      Schön zu sehen, dass günstige Modelle gut abschneiden
    • Wo führt ihr DeepSeek aus?
  • Ich frage mich, ob es sich mehr lohnen würde als mein aktueller $100-Max-Plan, wenn ich Claude Code auf DeepSeek-API-Preise umstelle.
    Das 5-Stunden-Limit erreiche ich nur alle paar Tage mal, und selbst das Wochenlimit komme ich nur dann an, wenn ich es sehr aggressiv nutze, meist ein oder zwei Tage vor dem Reset. Abgesehen davon, nicht durch Limits blockiert zu werden, würde mein Verbrauch wohl nicht stark steigen.
    Es fühlt sich für mich auch noch unangenehm an, meine Arbeit an ein Forschungslabor unter einer den USA feindlich gesinnten Regierung zu schicken, daher schaue ich nicht nur auf die reinen Kosten, aber meine Frage bezieht sich hier auf die Kostenseite.

    • Das hängt davon ab, was man unter „lohnen“ versteht. Open-Weight-Modelle sind nicht besser als openai/claude. Aber sie sind viel günstiger und haben deutlich höhere Limits, sodass man für weniger Geld mehr Arbeit erledigen lassen kann.
      Bei allen Abo-Anbietern ist das Verhältnis von Limit zu Preis besser als bei Anthropic. GitHub ist die einzige Ausnahme; dort ist es geradezu peinlich teuer und restriktiv.
      (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
      Wenn du keine Modelle aus einem nicht amerikanischen Forschungslabor verwenden willst, bleibst du zwar bei US-Modellen, aber auch in den USA gibt es mehrere große Forschungslabore. Falls dich beunruhigt, wo die Inferenz tatsächlich läuft, kannst du über OpenRouter Anbieter aus 12 Ländern einschließlich der USA nutzen, und auch mehrere Abo-Anbieter hosten in verschiedenen Ländern. Es gibt viele Optionen.
    • Ich würde empfehlen, es einfach auszuprobieren. Lade $5 auf deepseek.com und pack diese Einstellungen in ein Shell-Skript; danach führst du . ./deepseek-claude.sh aus und benutzt claude wie gewohnt.
      export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
      export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
      export ANTHROPIC_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
      export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
      export CLAUDE_CODE_EFFORT_LEVEL=max
      Anfangs habe ich es für große Leseaufgaben benutzt, wenn ich nahe am Limit war. Ehrlich gesagt ist es nicht so gut wie Claude, aber deutlich billiger und es sorgt dafür, dass man weiterarbeiten kann. Manchmal ist es auch gut, sowohl claude als auch deepseek um eine Code-Review und Verbesserungsvorschläge zu bitten und dann ihre Antworten zu vergleichen.
    • Ich nutze Claude mit einem $100-Monatsabo. Ich experimentiere gerade mit einem Setup, in dem Opus als Architekt, Sonnet als Implementierer/Engineer und deepseek-pro als gründlicher Reviewer und Tester dient, und wie erwartet funktioniert das ziemlich gut.
      Wenn mein Nutzungsmuster so bleibt, werde ich das Abo wohl auf $20 im Monat senken und mehr Geld in Deepseek stecken.
      Referenz-Repository: https://github.com/aravindhsampath/agentic-template
    • Die Leistung pro Dollar ist deutlich besser, die Leistung pro Stunde etwas schlechter.
      Wie immer gibt es bei jedem Modell andere Stellen, an denen es hängen bleibt. Für die meisten Cursor-Experimente, Explorationen und Proofs of Concept nutze ich die DeepSeek-v4-API, aber beim Schreiben von Produktionscode vertraue ich ihr weniger als OpenAI/Claude. Manchmal ist DeepSeek beim Debugging oder Planen wirklich sehr gut, manchmal bleibt es stecken oder liefert geringere Qualität. Bei OpenAI- und Anthropic-Modellen ist es allerdings ähnlich.
      Insgesamt ist DeepSeek brauchbar, wirkt aber eine Stufe unter Opus 4.8 und GPT 5.5. Ich lasse alle mit maximaler Denkstufe laufen.
    • Wenn du dir Sorgen machst, Daten für die Inferenz nach außen zu schicken, ist Fireworks eines der Unternehmen, das offene Modelle mit guter Performance anbietet und Compliance sowie Zero Data Retention gut geregelt hat. OpenCode unterstützt Fireworks und mehrere andere Anbieter, und Cursor nutzt ebenfalls Fireworks.
      Die ultrabilligen Cache-Read-Vorteile wie beim DeepSeek-eigenen Endpoint gibt es dort zwar nicht, aber es ist immer noch viel günstiger als Anthropic-API-Preise. Wichtig ist allerdings, dass du aktuell gar keine API-Preise zahlst.
      Die Rabatte für Cache Reads bei DeepSeek und Xiaomi hängen damit zusammen, dass Modelle der neuesten Generation weniger KV-Speicherplatz verwenden und Caching dadurch billiger geworden ist. Kein Anbieter für Open-Model-Inferenz scheint diesen Preis mitgehen zu wollen; das sagt wohl irgendetwas über die Preisstruktur von Inferenz aus, aber ich weiß nicht genau, was.
      Ich stimme zu, dass die besten offenen Modelle nicht ganz auf Frontier-Niveau sind. Bei strategischer Gesamtplanung oder Situationen, in denen man nur grobe Leitplanken vorgibt und viele Schlussfolgerungen erwartet, wird sich der Unterschied zeigen. Für das Coden anhand konkreter Pläne scheinen sie aber völlig ausreichend zu sein. Ich nutze sie nur außerhalb von Firmenkontexten, habe also keine Erfahrung mit riesigen Codebasen, aber sie scheinen recht gut darin zu sein, vor dem Einstieg die nötigen Informationen zu sammeln, und würden sich bei Bedarf wohl mit grep durcharbeiten.
      Ein lästiger Hinweis ist, dass ein persönlicher Abo-Plan bei intensiver Nutzung viel günstiger sein kann als die API. https://she-llac.com/claude-limits macht die Kostendiskussion komplizierter. Trotzdem denke ich, dass es sich lohnt, mit offenen Modellen herumzuspielen. Das ist einer der Faktoren, die es ermöglichen, sie als eine Technologie zu behandeln statt als Produktbundle einiger weniger Firmen.
  • Ein Hinweis zu solchen großen Schlagzeilen. Da wird auf Basis kleiner Testsuiten erklärt, ein Modell sei besser als ein anderes, aber ich bezweifle, dass sich die Ergebnisse wirklich konsistent reproduzieren lassen.
    Es wird außerdem fast nichts offengelegt, sodass andere praktisch kein Material haben, um die Tests oder Bewertungen selbst zu überprüfen.
    Der größte Wert von DeepSeek V4 Pro ist der niedrige Preis. Ich erwarte nicht, dass es GPT-5.5 deutlich übertrifft; selbst wenn es nur auf dem Niveau von gpt-5.4 liegt, wäre es immer noch ein gutes Modell.

    • Erwartungen sind nicht immer die Realität. Am besten benutzt man das Modell selbst. Ehrlich gesagt habe ich nicht einmal Pro verwendet, sondern nur Flash, und ich mache PHP-Webentwicklung.
  • Ich habe fast nie Aufgaben, für die ich ein besseres Modell als DSv4 Flash brauche. Pro erst recht nicht
    Wenn man das Problem und die Lösung gut genug erklären kann, erledigt Flash es einfach
    Wenn man das Problem nicht gut genug erklären kann oder zu faul ist und nur das gewünschte Ergebnis beschreiben will, dann wirkt ein Modell wie GPT 5.5 deutlich besser darin, selbst eine solide Lösung zu finden
    Der Unterschied in den Fähigkeiten der Modelle ist klar erkennbar, aber ebenso klar ist, dass auch kleinere Open-Weights-Modelle für die meisten Aufgaben gut genug sind, um sehr hilfreich zu sein

  • Ich nutze deepseek v4 wegen des Preis-Leistungs-Verhältnisses. Insgesamt fühlt es sich zwar schwächer an als einige andere Modelle, aber am Ende kann man jedes Modell zum Funktionieren bringen, wenn man die richtigen Akzeptanzkriterien vorgibt
    Man gibt eine detaillierte Spezifikation und Tests und die Erlaubnis, so lange zu iterieren, bis es richtig funktioniert. One-shot ist ein schlechter Maßstab zur Leistungsbewertung

    • Ich würde allerdings nicht sagen, dass alle Modelle gegen Akzeptanzkriterien konvergieren. Ich habe recht vielfältig mit agentenbasiertem Modeling und wissenschaftlichem Modeling in diesem Bereich gearbeitet, und selbst wenn es ein Kriterium zur Verifikation gibt und eine Idee, wie man einen Konvergenzpunkt erreicht, heißt das noch nicht, dass es in der Praxis wirklich konvergiert
      Man kann im Informationsraum endlos weiter iterieren und trotzdem feststecken, ohne die gewünschte Lösung zu finden
      Es hilft zwar, aber in Fehlschlägen muss oft ein Mensch eingreifen, Orientierung geben oder einen bestimmten Pfad gezielt korrigieren, damit man zur Lösung gelangt
  • DeepSeek V4 Pro zusammen mit reasonix ist überraschend günstig und für die meisten Coding-Aufgaben gut genug. Es unterscheidet sich auch ziemlich von GPT 5.5 und Opus 4.8, sodass es gelegentlich Probleme findet, die die beiden anderen nicht finden
    Ich denke, es lohnt sich, es im Werkzeugkasten zu haben

  • DeepSeek V4 Pro ist großartig und absurd günstig, aber MiMo V2.5 Pro wird unterschätzt. Der Preis ist gleich, der Cache-Preis ist niedriger, es ist multimodal und liegt in den meisten Benchmarks weiter vorn
    Dasselbe gilt für den Vergleich von MiMo V2.5 mit DeepSeek V4 Flash

    • Zum Zeitpunkt des Schreibens war laut https://news.ycombinator.com/item?id=48343690 der Cache-Hit-Preis von MiMo V2.5 Pro niedriger. Der Originaltext dazu lautet
      Bei OSS-Modellen gibt es je nach Anbieter große Unterschiede, und der Hauptgrund dafür ist die Cache-Hit-Rate
      Model Cheapest effectiveInputPrice (Provider)
      MiMo-V2.5-Pro 0.3720 (Xiaomi)
      DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)