GLM-5.2 wird im Artificial Analysis Ranking zum führenden Open-Weights-Modell

(artificialanalysis.ai)

1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen

GLM-5.2 von Z ai erreichte im Artificial Analysis Intelligence Index v4.1 51 Punkte, setzte sich damit an die Spitze der Open-Weights-Modelle und liegt bei der Performance pro Kosten auch auf der Pareto frontier
Die Modellgröße entspricht mit 744B Gesamt- / 40B aktiven Parametern der von GLM-5.1, der Score liegt jedoch um 11 Punkte höher und übertrifft damit MiniMax-M3, DeepSeek V4 Pro(max) und Kimi K2.6
Die Verbesserungen zeigen sich in den meisten Benchmarks, besonders deutlich bei wissenschaftlichem Schlussfolgern mit starken Zuwächsen bei CritPt und HLE
In GDPval-AA v2 erreichte es 1524 Punkte, lag damit vor MiniMax-M3 und DeepSeek V4 Pro(max) und bewegte sich auf einem ähnlichen Niveau wie GPT-5.5(xhigh reasoning)
Pro Task werden 43k Output-Tokens genutzt, wodurch die Token-Effizienz eher niedrig ausfällt; unter Modellen mit ähnlichem Intelligenzniveau gehört es jedoch zu den günstigsten pro Task

Führend unter Open Weights im Intelligence Index v4.1

GLM-5.2 erreichte im Artificial Analysis Intelligence Index v4.1 51 Punkte und belegt damit Platz 1 unter den Open-Weights-Modellen
Die wichtigsten Open-Weights-Modelle liegen bei folgenden Werten
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
GLM-5.2 hat mit 744B Gesamtparametern / 40B aktiven Parametern denselben Umfang wie GLM-5.1, erzielt im Intelligence Index v4.1 jedoch 11 Punkte mehr

Leistungsverbesserungen nach Benchmark

Gegenüber GLM-5.1 steigt der Score von GLM-5.2 in den meisten Bewertungen
Besonders groß fallen die Verbesserungen bei Benchmarks zum wissenschaftlichen Schlussfolgern aus
- CritPt: +16 Punkte, 21%
- HLE: +12 Punkte, 40%
- GPQA Diamond: +3 Punkte, 89%
Auch in anderen Bewertungen gibt es durchgängig Verbesserungen
- AA-LCR: +9 Punkte, 71%
- tau3 banking: +15 Punkte, 27%
- SciCode: +7 Punkte, 50%
- TerminalBench v2.1: +16 Punkte, 78%

GDPval-AA v2 und Agentenleistung

GLM-5.2 erzielte im GDPval-AA v2, einem Indikator für die Leistung realer Agenten, 1524 Punkte
Im Vergleich der Open-Weights-Modelle ist das der höchste Wert
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
Dieses Ergebnis liegt faktisch auf einem ähnlichen Niveau wie die 1514 Punkte von GPT-5.5(xhigh reasoning)
GDPval-AA v2 verändert die Bewertungsmethodik gegenüber dem bisherigen GDPval-AA
- Die Elo-Basislinie wird auf menschliche Leistung 1000 gesetzt
- Einführung eines rotierenden Panels von frontier-model judges
- Um längere Agenten-Trajektorien abzudecken, wurde das Turn-Limit von 100 auf 250 erhöht

Kosten, Preise und Token-Nutzung

GLM-5.2 liegt im Diagramm Intelligence vs Cost per Task auf der Pareto frontier und gehört unter Modellen mit ähnlichem Intelligenzniveau zu den günstigsten pro Task
Die Kosten pro Task sind höher als bei GLM-5.1, durch den höheren Intelligence-Score ist die Position beim Preis-Leistungs-Verhältnis jedoch günstiger
- GLM-5.2: ca. $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
Die first-party API-Preise liegen auf demselben Niveau wie bei GLM-5.1
- Pro 1M Input-Tokens $1.4
- Pro 1M Output-Tokens $4.4
- Pro 1M Cache-Hit-Tokens $0.26
Im Intelligence Index werden pro Task 43k Output-Tokens verwendet, davon sind 37k Reasoning-Tokens
Der Verbrauch an Output-Tokens liegt höher als bei den wichtigsten Open-Weights-Modellen
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
Unter Open-Weights-Modellen mit ähnlichem Intelligenzniveau ist die Token-Effizienz eher niedrig; im Diagramm Intelligence vs Output Tokens gehört es nicht zum attraktivsten Quadranten

Modelldetails und Verfügbarkeit

Die Lizenz von GLM-5.2 ist MIT
Das Kontextfenster umfasst 1M Tokens und wurde damit gegenüber den 200K von GLM-5.1 erweitert
Es ist über die first-party API von Z ai sowie bei mehreren Drittanbietern verfügbar
- DeepInfra
- Novita
- Nebius
- Parasail
- Siliconflow
- GMI Cloud
- Baseten
  - Fireworks
  - GLM-5.2 erreichte im AA-Omniscience Index 4 Punkte und liegt damit über den 2 Punkten von GLM-5.1
  - Die Genauigkeit beträgt 25.1% und liegt damit über den 24.2% von GLM-5.1
  - Die hallucination rate liegt bei 28.1% und damit unter den 29.4% von GLM-5.1
  - Die attempt rate liegt unverändert bei 47%
  - Ein Modellvergleich ist auf der GLM-5.2-Seite von Artificial Analysis verfügbar

1 Kommentare

GN⁺ 4 시간 전

Hacker-News-Kommentare

Das ist ein ziemlich guter Schritt nach vorn und scheint nah an die Spitze heranzukommen, aber inzwischen sollte der Fokus stärker auf Inferenz-Effizienz liegen
Ich nutze für LLM-Evaluierungen einen Test, bei dem das Modell in Nim eine einfache Bibliothek zur Auswertung mathematischer Ausdrücke schreiben soll; GLM 5.2 xhigh hat über 15 Minuten inferiert und dabei etwa 45k Tokens verbraucht, bevor es die erste Datei geschrieben hat
Laut https://artificialanalysis.ai/#output-tokens liegt GPT 5.5 xhigh im Schnitt bei insgesamt 16k Tokens, high bei 10k, Fable 5 bei 33k, Opus 4.8 bei 41k und GLM 5.2 bei 42k, daher ist die Inferenz-Effizienz von GPT 5.5 überwältigend gut
Wenn man es auf die tatsächlichen Anfragekosten umrechnet, ist GLM 5.2 vermutlich günstiger als GPT 5.5/Opus 4.8, aber für viele Menschen ist auch die Geschwindigkeit wichtig
- GLM 5.2 Max scheint die gleiche Denkweise wie Opus 4.8 Max zu haben, und auch die Chain of Thought sowie der Verbrauch an Output-Tokens sind sehr ähnlich
  Wenn man einen vernünftigen Token-Verbrauch will, sollte man GLM 5.2 auf High laufen lassen; bei den meisten Aufgaben ist der Qualitätsverlust von Max zu High gering, während der Token-Verbrauch auf ein Zweitel bis Zweieinhalbstel sinkt
  Im Ergebnis ist GLM 5.2 also so etwas wie der viel günstigere kleine Bruder von Opus 4.8, und es gibt schon Witze darüber, dass es wirklich schwer zu glauben sei, dass auf den Opus-Modellen gar nicht trainiert wurde
- Statt „nah an der Spitze“ zu sein, würde ich sagen, es hat sie bereits überholt
  Die GLM + OpenCode-Kombination, die ich privat nutze, ist viel besser als Claude Code + Opus, das ich auf der Arbeit verwenden muss, macht deutlich seltener typische Anfängerfehler im StackOverflow-Stil und befolgt Anweisungen besser
  Auch die User Experience mit dem Harness ist klar überlegen, weil es Einstellungen nicht ignoriert, nicht eigenmächtig verändert und Fehler nicht falsch meldet; der Burggraben von Anthropic scheint schnell zu verschwinden
- Bei Opus gibt es ähnlich das Problem, dass es zu lange nachdenkt und immer wieder mit „Moment, was wäre, wenn …“ anfängt
  Am Ende unterbricht man es und sagt: „Schreib erst mal den Code und löse es unterwegs“, fast so, als gäbe es Schreibblockaden auch bei LLMs
- Es erinnert mich an https://en.wikipedia.org/wiki/Portia_(spider)
- Ich hoffe, dass sich die jüngste Arbeit von Moonshot bei Kimi K2.7 Code auch auf andere Open-Model-Labore ausbreitet
  Laut Artificial Analysis liegt K2.7 Code bei der Intelligenz ungefähr auf dem Niveau von K2.6, braucht aber nur halb so viele Output-Tokens, um dasselbe Niveau zu erreichen
Ich habe ein Skript gebaut, das Modelle anhand des Coding-Index von Artificial Analysis einordnet, und nutze es täglich
Es holt JSON von der Hauptseite der Tabelle und parst nur die für mich interessanten Felder rund ums Coding; früher gab es auch eine Mailingliste, aber daran bestand nicht genug Interesse, daher habe ich sie deaktiviert
In einigen aktuellen Ergebnissen liegen Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max und Qwen3.7 Max vorne; ausführen kann man es mit $ curl day50.dev/art-analysis.sh | bash
Das Repository ist https://github.com/day50-dev/aa-eval-email; derzeit scheinen Open-Modelle je nach Messmethode etwa 4–7 Monate zurückzuliegen, aber wenn dieser Trend anhält, könnte noch vor Neujahr ein Open-Weights-Modell Aufgaben auf dem Niveau von Claude Fable 5 erledigen
- Der Coding-Index von Artificial Analysis besteht nur aus den beiden Benchmarks Terminal-Bench Hard und SciCode, daher bin ich nicht sicher, ob das wirklich ein guter Coding-Index ist
  Er bewertet Gemma 4 31B höher als DeepSeek V4 Flash, aber nachdem ich beide für unterschiedliche Coding-Aufgaben genutzt habe, würde ich jedes Mal DeepSeek wählen
- Cooles Projekt, aber von Leuten zu verlangen, Bash aus unbekannter Quelle einfach auszuführen, ist eine ziemlich schlechte Praxis
Ich weiß nicht, warum nicht mehr Leute darüber sprechen
Es liefert im Wesentlichen Opus-4.7-Qualität zu einem absurd niedrigen Preis, es gibt Anbieter mit unbegrenzten Tokens für 50 Dollar im Monat, und manche verlangen API-Preise, die dreimal niedriger sind als bei der offiziellen ZAI-API
Selbst die offizielle ZAI-API ist etwa 10-mal günstiger als Opus, also ein großer Schlag gegen Anthropic/OpenAI/Google und ein großer Gewinn für den Rest der Welt; bei Open-Modellen sind offizieller API-Preis und Geschwindigkeit nicht alles
- Ich habe einige chinesische Open-Modelle ausprobiert; sie waren okay, blieben aber hinter dem zurück, was die behaupteten Benchmarks versprachen
  GLM 5.2 mag nahe an Opus 4.7 sein, aber wenn sich bei wiederholter Prüfung erneut herausstellt, dass es immer noch nur auf Benchmarks optimiert war und nicht auf GPT- oder Opus-Niveau liegt, dann wirkt es wie ein Fall von „Der Wolf kommt“
- Bei inoffiziellen Anbietern sollte man vorsichtig sein
  Sie konfigurieren Modelle oft falsch oder quantisieren heimlich, und zeitweise gab es zwischen Kimi über die offizielle API und den meisten Drittanbietern einen Unterschied von 20–40 %
- Auf OpenRouter sieht man, dass einige der günstigeren Angebote quantisierte Modelle sind, und es ist unklar, wie stark die Intelligenz durch Quantisierung sinkt
  Ich habe mich gefragt, wo es APIs gibt, die dreimal günstiger sind, und gesehen, dass Crofts 8-Bit-Preise bei $0.50/$0.08/$2.20 liegen
  https://openrouter.ai/z-ai/glm-5.2
  https://ai.nahcrof.com/pricing
- Es gibt so viele Optionen, dass es für Menschen schon rechnerisch teuer ist, überhaupt mitzuhalten
  Es ist schwierig, überhaupt herauszufinden, wie man solche Modelle betreibt, es gibt keinen Installer, und wenn man nicht zu den wirklich Interessierten 1 % gehört, sucht man nach Anleitungen und merkt dann, dass auch die veraltet sind
  Im Vergleich zu „Claude Code installieren und 100 Dollar pro Monat zahlen“ ist die Lernkurve viel zu steil, und 50 Dollar pro Monat zu sparen ist den Aufwand kaum wert
- In unserer Organisation sind alle übermäßig auf Claude fixiert, als wäre es das einzige LLM überhaupt
  Das liegt rein daran, dass es innerhalb des Enterprise-Umfelds auf Nicht-Ingenieure zugeschnitten ist
Im Coding-Benchmark von Artificial Analysis liegt GLM 5.1 high bei den Ausführungskosten ziemlich nah an GPT 5.5 xhigh, während GPT 5.5 medium deutlich günstiger ist
Verglichen mit GPT 5.5 medium kostet GLM 5.1 xhigh doppelt so viel und liegt bei der Intelligenz nur etwa auf halbem Niveau, daher bleibt selbst ohne GLM 5.2 noch eine große Lücke zu schließen
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE passt auch gut zu meiner persönlichen Erfahrung, daher frage ich mich, wie gerechtfertigt der ganze Internet-Hype um offene Modelle wirklich ist
Wenn man ein Modell nahe an der Frontier will, wirkt es derzeit ehrlich, von Opus, Fable und GPT5.5 zu sprechen
- Bei der eigenen Ausführung von Z.ai erreichte GLM 5.2 46,2 Punkte in DeepSWE, was zwischen Opus 4.7 xhigh und Opus 4.8 medium liegt
  https://z.ai/blog/glm-5.2
- Mit offenen Modellen kann man zum Preis von Codex ein datenschutzfreundliches Abonnement bekommen
  OpenAI-, Google- und Anthropic-Abos bieten keine solche Datenschutzoption, und es ist auch interessant, dass GPT 5.5 laut dem Link im Cursor CLI auf Platz 7 liegt, im Codex CLI aber auf Platz 3 steigt
  Da offene Modelle nicht in Codex getestet wurden, ist es schwer, das als reinen Modell-Benchmark zu bezeichnen, und es kann sein, dass offene Modelle mit dem SWE-Agent-Harness schwächer sind, aber das scheint nicht die einfachste Erklärung zu sein
- DeepSWE fühlt sich eher wie der „richtige“ Benchmark an als der Artificial-Analysis-Index oder andere Coding-Benchmarks
  Nach dieser Metrik ist GPT-5.5 bei Token-Effizienz, Geschwindigkeit und Intelligenz pro Dollar immer noch der König
  https://deepswe.datacurve.ai/
  Fable 5 ist auch gut, aber GPT-5.6 habe ich noch nicht gesehen
- Ich habe gestern GLM 5.2 über OpenRouter verwendet; insgesamt war es okay, aber bei einer relativ langsamen Aufgabe über 30 Minuten kamen 5 Dollar an Token-Kosten zusammen
  Damit ist es leicht viermal teurer als DeepSeek V4, ohne dass sich das Ergebnis entsprechend besser angefühlt hätte, und als ich es später mit GPT 5.5 in Codex überprüft habe, gab es auch viele unsaubere Stellen
  Das Preis-Leistungs-Verhältnis war bei MiniMax M3 besser
Überraschend fand ich, dass GLM 5.1/5.2 kein Vision-Modell ist
Das ist heutzutage ziemlich selten, und OpenAI-, Anthropic- und Gemini-Modelle akzeptieren alle Bilder, ebenso große Open-Weight-Familien wie Gemma 4, Qwen 3.6 und Kimi 2.x
GLM erzielt hohe Werte bei Aufgaben wie Webdesign, daher wäre Bildeingabe nützlich, um Screenshots entgegenzunehmen und HTML+CSS auszugeben; das ist eindeutig eine Lücke
- Man kann im Coding-Harness Unteragenten für solche Aufgaben einrichten, dann für genau diese Arbeit mit irgendeinem Vision-Modell eine neue Unter-Session starten und das Ergebnis wieder in das Hauptmodell einspeisen
  Ein einziges Modell, das „alles kann“, ist nicht zwingend nötig
- Ich nutze Google AI Studio als kostenlose Vision-Bridge
  Gemma 31B ist bei Vision-Aufgaben ziemlich gut, und 1500 Anfragen pro Tag sind praktisch fast unbegrenzt
- So groß wirkt diese Lücke nicht
  Es gibt Einsatzfälle wie UX/UI-Arbeit, aber darüber hinaus braucht man es kaum, und selbst Frontier-Modelle können reale Bilder nicht wirklich nachbilden; meiner Erfahrung nach schaffen sie nur Annäherungen
- Bei DeepSeek V4 war die Reaktion dieselbe
  Als Vision-Modell wäre es wohl nützlicher gewesen
Ich habe dieses Modell in den letzten 24 Stunden ziemlich intensiv genutzt und konnte bestätigen, dass es sehr fähig ist
Es ist aber etwas weitschweifig, und ich habe im Denkprotokoll gesehen, wie es seinen Weg 3- bis 4-mal neu prüft, bevor es sich festlegt; außerdem ist es beim Umgang mit komplexen und abstrakten Anforderungen nicht auf dem Niveau von GPT5.5
Trotzdem würde ich den meisten Leuten inzwischen die Kombination Z.AI-Abo + 20-Dollar-OpenAI-Abo pro Monat empfehlen; ein Workflow, bei dem GLM schreibt und GPT reviewt/debuggt, ist nur ganz leicht schlechter als nur GPT im 200-Dollar-Plan zu nutzen, fühlt sich aber fast unbegrenzt an
- Ich habe heute gelernt, dass die Standard-Inferenzstärke auf max gesetzt ist
  Das ist vermutlich der Grund, warum es so weitschweifig ist
- Im Moment achte ich am meisten darauf, wie gut ein Modell schreiben kann
  Wenn man programmieren kann, sind wir meiner Ansicht nach inzwischen an dem Punkt, an dem man dem Modell genug Informationen geben kann, damit es die gewünschte Arbeit erledigt
  Schreiben ist dagegen noch viel schwieriger, weil es so viele Nuancen gibt, auch wenn es tatsächlich immer besser wird
- Mein Workflow sieht ebenfalls so aus
  Einmal am Tag kopiere ich den Code in das kostenlose Claude Sonnet, damit er tatsächlich lesbar wird
- Seit ich Fable 5 ausprobiert habe, fühlt sich selbst Opus 4.8 nicht mehr ausreichend an
  Opus 4.8 ist zwar definitiv der stärkere Coding-Agent, der dort Erfolg hat, wo DeepSeek 4.0 oder Kimi 2.7 schwanken und scheitern, aber seine gesprächige rhetorische Ausschmückung nervt mich zunehmend, und manchmal wirkt es so, als würde es absichtlich vage sprechen oder die Wahrheit zurückhalten, bis man nachbohrt; das bringt mich dazu, mein Abo zu überdenken
GLM 5.2 ist das erste Modell, das wir getestet haben, das klar auf dem Niveau von Opus 4.6 liegt oder besser ist
Allerdings bewerten wir GLM 5.2 und die meisten chinesischen Modelle etwas niedriger als andere Benchmarks mit schwächerer Testmethodik
Die Daten stehen auf https://gertlabs.com/rankings bereit
Ich weiß zwar nicht genau, wie man solche Modelle betreibt, aber ich frage mich, wie nah der Zeitpunkt ist, an dem mittelgroße und große Unternehmen anfangen, Hardware zu kaufen, um Modelle lokal zu halten.
Sie sind teuer und nicht so leistungsfähig wie die Modelle an der Spitze, aber in Bezug auf Privatsphäre und Kontrolle sind die Vorteile ziemlich groß.
- Mehrere Unternehmen in Europa machen das bereits seit einiger Zeit mit 70B-Modellen und rüsten ihre Hardware auf, um neu erschienene Modelle in der Größenordnung von 700B bis 1T zu betreiben.
  Seit etwa Kimi K2 hat das richtig Fahrt aufgenommen, aber solche Hardware zu kaufen und zu hosten braucht Zeit.
  Nicht jedes Unternehmen will seine Geschäftsgeheimnisse an OpenAI oder Anthropic schicken, und manche dürfen das rechtlich auch gar nicht.
- Das ist keine neue Situation.
  Als gute Vision-Modelle wie AlexNet aufkamen, mussten Unternehmen sich ebenfalls entscheiden, besonders auch bei OCR, zwischen Cloud und selbst gehosteten GPUs.
  Letztlich geht es um das Nutzungsmuster: Zu bestimmten Zeiten während der Arbeitszeit konzentriert sich die Nutzung, und den Rest der Zeit stehen die GPUs leer.
  Bei latenzsensiblen Aufgaben ist das ein seit Jahrzehnten bekannter Trade-off und kein spezielles Problem von LLMs.
- Mit rund 750B Parametern braucht das Modell enorm viel VRAM.
  Dafür müsste es wohl schon ein ziemlich entschlossenes mittelgroßes Unternehmen sein.
- Ein wichtiger Anwendungsfall, der vollständige Privatsphäre braucht, scheint bislang juristische Arbeit zu sein.
  Für das Durchsuchen riesiger Textmengen im Rahmen von Discovery braucht man nicht unbedingt Spitzenmodelle, aber vollständige Vertraulichkeit.
  Auf r/localllama gibt es etliche Anwälte, die ihre Multi-GPU-Builds vorzeigen, und zufällig haben sie auch das nötige Budget dafür.
- Sofern keine echten Bedenken der nationalen Sicherheit bestehen, ist es besser, mit einigen bestehenden Anbietern kommerzielle Verträge mit Datenschutzgarantien auszuhandeln.
Es heißt, „GLM-5.2 liegt auf der Pareto-Frontier der Kosten pro Task im Verhältnis zur Intelligenz und hat unter Modellen mit vergleichbarer Intelligenz die niedrigsten Kosten pro Task“, aber gleichzeitig steht dort, dass GLM-5.2 pro Task etwa 0,46 $ kostet, während GLM-5.1 bei 0,25 $, Kimi K2.6 bei 0,31 $, MiniMax-M3 bei 0,18 $ und DeepSeek V4 Pro max bei 0,05 $ liegen. Da fragt man sich, ob man etwas übersehen hat.
- Die Vergleichsgruppe scheint schlecht gewählt zu sein.
  Statt andere Modelle auszuwählen, die bei der Intelligenzmetrik nahe an 5.2 liegen, wurden offenbar einige niedrigere offene Modelle herausgegriffen.
- Pareto-Frontier bedeutet nicht, dass es das billigste Modell ist.
- Manche Modelle werden stark subventioniert.
  Die Inferenzkosten lassen sich besser anhand der Gesamtzahl und der aktivierten Parameter messen.
Ich habe GLM 5.2 nach Mythos in den bugbasierten Benchmark aufgenommen. Es ist besser als GLM 5.1, liegt aber weiterhin hinter mehreren anderen Modellen zurück und wäre am ehesten direkt mit Qwen 3.7 Max zu vergleichen.
Kleinere offen verfügbare Modelle, die man selbst hosten kann, wie Gemma 4 und Qwen 3.6, fanden ebenfalls 3 von 9 Bugs, und GLM 5.2 bekam nur Teilpunkte, weil es zwar die Position eines Bugs richtig identifizierte, den Bug selbst aber etwas missverstand.
Das im selben Lauf zusätzlich aufgenommene Kimi K2.7-code war durchgehend nicht so gut wie 2.6, und in diesem speziellen Benchmark gibt es bessere und günstigere Modelle.
https://swelljoe.com/post/will-it-mythos/
Dieser kleine Benchmark beweist zwar nichts, ist aber nützlich, um schnell einzuschätzen, ob ein Modell bei ziemlich komplexen Problemen im Code vernünftig schlussfolgern kann.

GLM-5.2 wird im Artificial Analysis Ranking zum führenden Open-Weights-Modell

Führend unter Open Weights im Intelligence Index v4.1

Leistungsverbesserungen nach Benchmark

GDPval-AA v2 und Agentenleistung

Kosten, Preise und Token-Nutzung

Modelldetails und Verfügbarkeit

DeepInfra

Novita

Nebius

Parasail

Siliconflow

GMI Cloud

Baseten

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare