16 Punkte von GN⁺ 2025-07-26 | 1 Kommentare | Auf WhatsApp teilen
  • Ermöglicht einen klaren Vergleich der Preise verschiedener LLM-Anbieter (z. B. OpenAI, Anthropic, Google) auf einer einheitlichen Grundlage (Preis pro Token)
    • Unterstützt Tabellen und Grafiken im Format Anbieter, Modell, Input ($/M), Output ($/M)
  • Letzte Datenaktualisierung: 26. Juli 2025
  • Bietet grundlegende Daten, die vor der Auswahl eines bestimmten Modells als Referenz für eine Kosten-Nutzen-Analyse dienen können
  • Über ein Newsletter-Abonnement können regelmäßig aktuelle Informationen empfangen werden

1 Kommentare

 
GN⁺ 2025-07-26
Hacker-News-Kommentare
  • (Ich arbeite bei OpenRouter.) Wir haben mit Anbietern zusammengearbeitet, die Preis- und Modellinformationen per API bereitstellen, um dieses Problem zu lösen. Dadurch können wir die Informationen im Marketplace stets aktuell halten. Ich muss daran denken, wie wir das noch vor einem Jahr in Slack-Kanälen per Unterhaltung geteilt haben. In letzter Zeit ist das Preissystem pro Token durch Faktoren wie Prompt-Länge, Caching usw. je nach Anbieter sehr komplex geworden. Der eigentlich wichtige Punkt ist, dass der Preis pro Token nicht auf Modellebene, sondern auf Endpoint-Ebene gilt. Zum Beispiel unterscheiden sich Preise oft je nach Endpoint, obwohl es dasselbe Modell ist, etwa schnelle/langsame Versionen oder thinking/non-thinking. Wir haben viel Aufwand investiert, um all das abzudecken, und das aktuelle Ergebnis ist jetzt bei OpenRouter öffentlich verfügbar (ich gebe allerdings zu, dass das Format noch nicht besonders übersichtlich auf Preise fokussiert ist).
    • Ich habe gerade versucht, es kompakter und leichter lesbar zu machen. Vielen Dank für die Mühe. Ich teile das llm-pricing-Projekt.
  • Ich frage mich, ob die Daten falsch sind. Der Preis pro Eingabetoken für Google Gemini 2.5 Flash-Lite liegt bei $0.10, hier scheint er aber mit $0.40 angegeben zu sein. Siehe die offizielle Preistabelle.
    • Die Daten sind nicht falsch, ich glaube, du hast meine Tabelle falsch gelesen. (Korrektur: Ich glaube, meine Antwort war falsch, so zu antworten war nicht gut.)
  • Diese Information ist großartig, aber aus UX-Sicht braucht es in der Praxis viel mehr Überlegungen
    • Selbst beim gleichen Modell unterscheiden sich die Preise je nach Anbieter
    • Jeder Anbieter optimiert nach anderen Kriterien wie Geschwindigkeit, Kosten usw.
    • Selbst vom gleichen Modell gibt es unterschiedliche quantisierte Versionen
    • Manche bieten wie die Grok API Batch-Tarife an
    • Es gibt außerdem sehr viele zusätzliche Filterbedingungen wie „thinking/non-thinking“, Multimodalität usw.
    • Auch Benchmark-Scores sind eine Variable
      Das ist bis zu einem gewissen Grad hilfreich wie bei artificialanalysis.ai, das blended cost (kombinierte Ein-/Ausgabekosten) anbietet, aber in der Praxis kann sich selbst das Input-/Output-Kostenmodell je nach Einsatzzweck weiter verändern. Ich hoffe weiter darauf, dass irgendwann eine Seite mit einer wirklich guten Vergleichs-UI erscheint. Es wäre schön, wenn das jemand bald baut.
    • (Ich arbeite bei OpenRouter.) Auf der Website ist es nicht sehr sichtbar, aber es gibt tatsächlich ein sehr einfaches Modellvergleichstool. Beispiel: OpenRouter-Modellvergleichsseite
    • Ich frage mich, ob man dieses Problem lösen könnte, indem man der Tabelle eine Spalte „provider“ hinzufügt, also den Ort, an dem der API-Aufruf tatsächlich ausgeführt wird.
    • Einen fairen Vergleich zu erstellen scheint sehr schwierig zu sein. Das Beste wäre wohl, die Trade-offs der jeweiligen Bedingungen klar zu zeigen, damit Nutzer selbst entscheiden können. Auch eine Art Token-Börse, auf der Nutzer ihre Anforderungen einstellen und Unternehmen passend dazu konkurrierende Services anbieten, ist als Idee interessant. Man kann sich auch einen Marketplace vorstellen, in dem jeder seine Rechenleistung teilt, aber Probleme wie das Vortäuschen tatsächlicher Leistung oder Datenlecks müssten dafür separat gelöst werden.
    • Bitte nehmt Benchmark-Rankings nicht noch ernster. Es ist schade, dass sich dieses Klima hält, das eine übertriebene Fixierung auf solche Vergleiche fördert.
  • Früher war es extrem frustrierend, die Preise neu veröffentlichter Modelle zu finden, weil man sich durch unzählige Werbeseiten klicken musste. Jetzt ist es praktisch, dass man sie bei OpenRouter auf einen Blick sehen kann.
  • Das Kernproblem ist, dass Tokens je nach Anbieter/Modell unterschiedlich sind. Das geht über das Tokenizer-Modell hinaus, und selbst beim gleichen Anbieter gibt es enorme Unterschiede.
    • Bei Bildeingaben verbraucht gpt-4o-mini zum Beispiel 10-mal mehr Tokens als gpt-4
    • Bei gemini 2.5 pro wird Output normalerweise pro Token abgerechnet, bei structured output gilt jedoch jedes einzelne Zeichen als Token
    • Preisangaben pro Token sind wichtig, aber eigentlich möchte man wissen, was dieselbe Anfrage/Antwort bei verschiedenen Modellen real kostet, weil nicht alle Tokens gleich sind
    • Ich plane, täglich dasselbe Experiment laufen zu lassen und die Kosten als Spalte in die Tabelle aufzunehmen. Man könnte zum Beispiel mit dem Prompt „Fasse diesen Artikel in 200 Wörtern zusammen“ bei allen Modellen messen.
    • Ich würde gern mehr über die Aussage hören, dass bei structured output in gemini 2.5 pro Zeichen gleich Tokens seien. Ich verstehe den Unterschied nicht gut.
  • Die Seite ist gerade down, aber ich möchte auch Simon Willisons LLM-Preisrechner empfehlen (llm-prices.com).
  • Ich frage mich, welche Modelle man lokal betreiben kann, wenn man etwa $2500 Hardware-Budget hat. Falls das nicht reicht: Welches Budget wäre nötig, und es wäre hilfreich, wenn es ein Tutorial dazu gäbe, wie man Modelle lokal selbst betreibt.
    • Wenn du dich für lokale LLM-Nutzung interessierst, ist ollama.com ein guter Startpunkt. Die Anzahl der Nodes kann man in RAM-Kapazität (GB) umrechnen. Das Modell Deepseek-r1:7b braucht zum Beispiel etwa 7 GB. Je größer das Kontextfenster, desto mehr Speicher wird benötigt. Wenn du mit einem Budget von $2500 ein KI-System zusammenstellen willst, würde ich eine Konfiguration mit viel Unified Memory wie LPDDR5 empfehlen. Referenzlink: Framework AIMax300
    • Ich habe vor 18 Monaten einen Mac Mini M2Pro 32GB für $1900 gekauft und kann damit sogar quantisierte lokale 40B-Modelle gut betreiben. Wenn die Leistung lokaler Modelle nicht ausreicht, nutze ich auch die Kombination aus Gemini 2.5 flash/pro und gemini-cli. Sowohl kommerzielle APIs als auch lokale Modelle bieten viele gute Optionen, daher ist es am besten, einfach jeweils eine auszuwählen und sich schnell auf den eigentlichen Aufbau zu konzentrieren.
    • Das Beste ist, für etwa $600 zwei gebrauchte 3090-Grafikkarten zu kaufen. Die 3090 hat noch immer ein hervorragendes Preis-Leistungs-Verhältnis.
    • Kimi und deepseek sind die einzigen wenigen Modelle, deren Leistungsabstand selbst im Vergleich zu großen Cloud-Anbietern nicht besonders groß ist.
    • Modelle aus dem ollama-Umfeld kann man mit einer einigermaßen ordentlichen CPU teilweise ohne Probleme betreiben.
  • Früher war es die einzige Möglichkeit, für Preisinformationen pro Anbieter jede Website einzeln abzuklappern, aber OpenRouter ist eine gute Alternative. Dort werden auch offene Modelle mit aufgelistet, und man kann grob erfassen, was ein Modell wirklich kostet, wie groß es ist und wie stark es derzeit subventioniert wird.
    • Die OpenRouter-API hat einen Endpoint zum Abfragen von Modell- und Preisinformationen (OpenRouter-Model-API-Dokumentation). Der Nachteil ist, dass pro Modell nur Informationen zu einem Anbieter geliefert werden. Bei kommerziellen Modellen ist das kein Problem, aber bei Open-Source-Modellen unterscheiden sich die Preise je nach Anbieter oft um das 5- bis 10-Fache, daher sollte man das nur als Referenz nutzen.
  • Ich wünschte, es gäbe eine Übersicht, die Preisdaten und allgemeine Benchmark-Informationen kombiniert und zeigt, welches Modell beim „Preis-Leistungs-Verhältnis“ (Benchmark-Score/Token-Kosten) am besten ist.
  • Die Preismodelle der einzelnen Anbieter sind viel komplexer als eine einfache Abrechnung nach Input/Output
    • DeepSeeks Off-Peak-Tarife
    • Batch-Tarife bei OpenAI/Anthropic
    • Preise nach Kontextfenster bei Google/Grok
    • Getrennte Abrechnung von thinking/non-thinking-Tokens bei Qwen
    • Staffelpreise für Eingabetokens bei Qwen coder
      Zur Referenz ein passender Beitrag: X.com paradite_