9 Punkte von princox 2026-03-07 | 6 Kommentare | Auf WhatsApp teilen

Dies ist ein Benchmark, bei dem der Autor, ein Ruby-Committer, Claude Code in 13 Sprachen ein Mini-Git implementieren ließ und dabei Zeit, Kosten und Anzahl der Codezeilen gemessen hat. Pro Sprache wurden 20 Durchläufe durchgeführt, insgesamt 600 Ausführungen, und als Modell kam Claude Opus 4.6 zum Einsatz.

Die Ergebnisse zeigten, dass Ruby ($0.36) → Python ($0.38) → JavaScript ($0.39) am schnellsten und günstigsten waren, während statisch typisierte Sprachen 1.4~2.6-mal langsamer waren und zudem mehr kosteten. Beim Hinzufügen eines Type-Checkers wurden Python/mypy um 1.6~1.7-mal und Ruby/Steep um 2~3.2-mal langsamer. OCaml und Haskell mit weniger Codezeilen verbrauchten viele Thinking-Tokens und landeten deshalb im unteren Mittelfeld.

Der Autor betont: „Der Unterschied zwischen 30 und 60 Sekunden beeinflusst Konzentration und Entwicklungsfluss, und Entwicklungsgeschwindigkeit selbst ist eine Dimension von Qualität.“ Gleichzeitig ergänzt er, dass dies die Einschränkung einer einzelnen Aufgabe im Prototyping-Maßstab habe und bei großen Projekten statische Typisierung im Vorteil sein könne.

6 Kommentare

 
savvykang 2026-03-08

Es scheint, als sei hier ein Gesamtwert gemessen worden, in den auch Variablen jenseits der Spracheigenschaften eingeflossen sind. Auf GitHub gibt es zwar Ergebnisse zur für jedes Experiment benötigten Zeit, aber keine Ausführungsprotokolle. Selbst die benötigte Zeit pro Teilaufgabe, eine der gebräuchlichsten Metriken, lässt sich kaum verifizieren, und aufgrund der Eigenschaften von LLM-Ausgaben scheint eine Reproduktion unmöglich zu sein.

Auch der Autor erkennt im Abschnitt zu den Einschränkungen an, dass es sich um eine einmalige Arbeit in der Prototyping-Phase handelt. Dennoch halte ich das Experiment insgesamt für nicht transparent genug und für eines, bei dem die Variablen nicht kontrolliert wurden.

 
princox 2026-03-09

Es wäre schön, wenn verschiedene Sprachen in einem einzigen groß angelegten Experiment verglichen würden,
aber selbst Unternehmen führen Tests in diesem Umfang kaum durch, und wenn ein Community-Mitglied so etwas macht, ist ein wirklich präzises Experiment wohl schwierig.

Ich habe an vielen Stellen gesucht, aber es ist nicht leicht, wirklich brauchbare Informationen zu finden.

Das ist eigentlich auch verständlich, denn wer würde schon auf eigene Kosten ein sauber geplantes Experiment durchführen, um herauszufinden, welche Sprache besser ist?

Ich fand auch, dass das Experiment viele Grenzen hat, aber ich war trotzdem froh, dass es überhaupt einmal versucht wurde..^^

 
happing94 2026-03-07

Verdammt nochmal Ruby
Der Ruby-Autor hat es getestet, also wird er wohl sagen, dass Ruby gut ist

 
spp00 2026-03-08

Aber aufgrund der Eigenschaften von Ruby ist der Tokenverbrauch zwangsläufig geringer. Es eignet sich gut dafür, Code kurz zu schreiben, und entsprechend sinkt auch der Tokenverbrauch, etwa bei der Anzahl der ausgegebenen Tokens.

 
princox 2026-03-09

Haha, man sollte das mit dem Eingeständnis lesen, dass ich als Committer der Programmiersprache Ruby vielleicht ein wenig voreingenommen bin.

 
skageektp 2026-03-07

Wenn man fragt, welcher Sprachimplementierung ich am meisten vertrauen würde … hahaha