1 Punkte von GN⁺ 5 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Bei technischer Arbeit bringen offene LLMs weiterhin Kosten bei Leistung, Kompatibilität und Vertrauenswürdigkeit mit sich, doch die Lücke hat sich zuletzt verkleinert, sodass der Spielraum wächst, die Abhängigkeit von proprietären Modellen wie Claude oder GPT zu reduzieren
  • Früher war Linux in professionellen Arbeitsumgebungen riskant, weil die Kompatibilität mit MS Office, spezielle Dateiformate und ein unreifes Open-Source-Ökosystem Probleme machten, doch mit der Verbreitung von Web-Apps und der Reife des Ökosystems sind die Einbußen deutlich kleiner geworden
  • Stand 21. Juni 2026 stehen auf dem Artificial Analysis intelligence leaderboard proprietäre API-Modelle wie Claude und GPT an der Spitze, und Claude Code sowie wichtige APIs liegen bei Benutzerfreundlichkeit und internem Vertrauen in Organisationen weiterhin vorn
  • Offene Modelle lassen sich über ihre Anbieter oder über Dritte wie OpenRouter nutzen, doch es gibt Bedenken zu Datenschutz und Datenweitergabe; beim direkten Ausführen verbessert sich die Privatsphäre, dafür steigen Kosten, Komplexität und Geschwindigkeitsnachteile
  • Die Einführung der ID verification bei Claude hat die Kosten eines Verzichts auf Top-Modelle neu in den Blick gerückt, aber da offene Modelle bis auf wenige Monate an die Spitzenmodelle herangerückt sind, muss ein kurzfristiger Produktivitätsverlust kein entscheidendes Hindernis sein

Die aktuelle Position offener LLMs im Licht der Wechselkosten zu Linux

  • Früher konnte die Nutzung von Linux selbst in technischen Berufen ein professionelles Risiko darstellen
    • Word-Dokumente oder PowerPoint-Dateien wurden womöglich nicht korrekt gerendert
    • Man musste darauf vertrauen, dass die Exporte aus Open Office funktionierten
    • Spezielle Dateiformate ließen sich nicht ohne Weiteres öffnen, was die Zusammenarbeit erschweren konnte
    • Open-Source-Projekte, die Funktionen gängiger Software nachbilden wollten, hatten viele Ecken und Kanten
  • Heute wird Produktivitätssoftware oft als Web-App bereitgestellt, und Linux sowie Open-Source-Software sind gereifter, wodurch sich die Lücke verkleinert hat
    • In bestimmten Bereichen wie CAD kann weiterhin Windows nötig sein
    • Linux und Open Source verlangen aber nicht mehr wie früher große Einbußen im allgemeinen Arbeitsalltag

Welche Kosten Nutzer offener Modelle tragen müssen

  • Für Nutzer offener LLMs bleibt noch eine klare Strafzahlung bzw. ein klarer Nachteil bestehen
    • Stand 21. Juni 2026 stehen Claude und GPT im Artificial Analysis intelligence leaderboard an der Spitze
    • Nicht nur bei der Leistung, sondern auch bei Kompatibilität und Benutzerfreundlichkeit sind Claude Code und wichtige APIs stark
    • Das Senden von LLM-Anfragen an OpenAI und Anthropic genießt ein Vertrauensniveau, das viele Menschen akzeptieren
  • Die Nutzung offener Modelle per API bringt Vertrauensprobleme mit sich
    • Das Modell kann direkt vom Anbieter oder von Dritten wie OpenRouter bereitgestellt werden
    • Für API-Aufrufe mit Client-Daten oder vertraulichen Daten wirkt das in Bezug auf Datenschutz und Datenweitergabe unsicherer
    • Bei Anfragen an Deepseek oder OpenRouter können unabhängig vom tatsächlichen Risiko stärkere Bedenken aufkommen
  • Direktes Ausführen reduziert Datenschutzprobleme, schafft aber Last bei Kosten, Komplexität und Geschwindigkeit
    • Es kann lokal oder in der Cloud ausgeführt werden
    • Der direkte Betrieb geht mindestens mit zwei der folgenden Probleme einher: teuer, komplex oder relativ langsam

Claude-ID-Prüfung als Auslöser für den Wechsel

  • Die Einführung von identity verification bei Claude hat die Wechselentscheidung beschleunigt
    • Neue Safeguards in aktuellen Modellen und die Situation rund um Mythos werden ebenfalls als Anzeichen für eine sich verschlechternde Nutzererfahrung wahrgenommen
    • Wenn man die ID verification nicht akzeptiert, bleibt der berufliche Verlust durch den Verzicht auf Top-Modelle das zentrale Problem
  • Der Wechsel zu offenen Modellen wird als deutlich engerer Abstand eingeschätzt als der zwischen Linux und Windows im Jahr 2008
    • Es gibt bereits Umgebungen, in denen sich verschiedene offene Modelle lokal oder in der Cloud ausführen lassen
    • Es existieren auch Coding-Harnesses für offene Modelle
    • Offene Modelle sind den Spitzenmodellen sehr nahe gekommen und liegen meist nur einige Monate zurück
    • Die Produktivität kann kurzfristig sinken, aber ähnlich wie beim Wechsel von Matlab zu GNU Octave in der Forschungszeit wird das nicht als entscheidendes Hindernis gesehen

1 Kommentare

 
GN⁺ 5 시간 전
Hacker-News-Kommentare
  • Genau deshalb verwende ich bei eurouter.ai für alle Anfragen die folgenden Routing-Regeln

    {  
    "model": "glm-5.2",  
    "models": [  
    "deepseek-v4-pro",  
    "deepseek-v4-flash"  
    ],  
    "provider": {  
    "allow_fallbacks": true,  
    "data_collection": "deny",  
    "data_residency": "EU",  
    "max_retention_days": 0,  
    "eu_owned": true  
    }  
    }  
    

    Teuer ist es zwar, aber zumindest rechtlich ist damit Datenschutz gewährleistet. Ich vertraue dem mehr als Anthropic, OpenAI oder OpenRouter.
    Persönlich finde ich es moralisch schwer akzeptabel, US-amerikanische AI-Tools zu nutzen, und ich möchte ihnen kein Geld zahlen, um die Verbrechen zu unterstützen, in die sie verwickelt sind[1].
    [1]: https://news.ycombinator.com/item?id=48512339

  • Der Punkt, an dem ich bei Anthropic eine rote Linie ziehe, ist die Formulierung "of Americans". Heißt das dann, dass man mit dem Rest der zivilisierten Welt machen kann, was man will? Dass es in Ordnung wäre, verbündete Staaten außerhalb der USA durch manipulierte Tests oder Datenlecks im Machine Learning zu destabilisieren?
    Noch merkwürdiger ist, dass behauptet wird, das Modell folge https://www.anthropic.com/constitution und dieser Inhalt sei im Modell eingebaut. Trotzdem wiederholen die System Prompts von Claude Code und cowork diese Punkte erneut. Wenn es wirklich eingebaut wäre, dürfte das eigentlich nicht nötig sein.
    Wenn man bei der API-Version von Claude genug Prompt Engineering betreibt, kann man sie dazu bringen, sich wie ein Hitler-Anhänger zu verhalten, was ihrer Darstellung direkt widerspricht. Besonders Opus 4.7 hat bereitwillig Propagandamaterial erstellt, das auf bestimmte Minderheitengruppen abzielte, während ich bei 4.8 bisher noch keinen gleichen Erfolg gesehen habe. In letzter Zeit interessiere ich mich eher für den Missbrauch der Cyber-Fähigkeiten des Modells, deshalb habe ich das nicht weiter in diese Richtung vertieft.
    Mein Fazit von Anfang an war, dass Anthropics Strategie reine Imagepflege ist, und angesichts der Unterstützung für das Unternehmen war sie offenbar ziemlich erfolgreich.

  • Ich habe mir eurouter.ai angesehen, und das Angebot selbst wirkt ziemlich schlecht.
    Schon 15 % Aufschlag beim kostenlosen Konto ist absurd, und wenn man nicht 40 € pro Monat zahlt, gibt es ein Limit von 1000 Anfragen pro Monat. Ich verstehe aber nicht, welchen konkreten Mehrwert sie genau bieten.
    Für DeepSeek-V4-Pro gibt es nur einen einzigen Anbieter, TensorX, und die Kosten für Cache Reads sind mehr als 100-mal höher als bei DeepSeek ($0.44 vs $0.003625). Vor allem konnte ich bei eurouter.ai keine Informationen zu den Kosten für Cache-Tokens finden und musste dafür erst auf die TensorX-Website gehen.

  • Mit dem Wort "Verbrechen" ist es noch nicht einmal ausreichend beschrieben.
    "AI-assisted targeting in the Gaza Strip" - https://en.wikipedia.org/wiki/AI-assisted_targeting_in_the_G...
    "Palantir allegedly enables Israel's AI targeting in Gaza, raising concerns over war crimes" - https://www.business-humanrights.org/de/neuste-meldungen/pal...
    "What The Wounds Are Telling Us" - https://www.volkskrant.nl/kijkverder/v/2025/gunshot-palestin...

  • Ich war neugierig auf andere Alternativen zu OpenRouter und habe ein wenig gesucht.
    EURouter (Amsterdam): https://www.eurouter.ai/pricing
    Eden AI (Frankreich): https://www.edenai.co/pricing
    nexos.ai (Litauen): https://nexos.ai/pricing/
    Requesty (Deutschland): https://www.requesty.ai/pricing
    Cortecs (Österreich): https://cortecs.ai/pricing
    Nordference (Estland): https://nordference.ai/pricing
    Es scheint wirklich wie Pilze aus dem Boden zu schießen. Ich habe selbst keinen davon ausprobiert und empfehle deshalb keinen bestimmten Anbieter, aber für Leute, die so etwas brauchen, scheint es Optionen zu geben.

  • Wenn Datensicherheit die eigentliche Sorge ist, scheint es am Ende keine andere Lösung zu geben, als den Aufwand in Kauf zu nehmen und selbst zu hosten.

  • Es ist interessant, dass Leute Open-Weight-Modelle ausschließen, weil sie gegenüber proprietären Modellen angeblich "ein paar Monate zurückliegen"
    Ich weiß, dass sich LLMs extrem schnell weiterentwickeln, aber wenn Opus und GPT von vor ein paar Monaten wirklich auf dem Niveau heutiger Open-Weight-Modelle gewesen wären, gäbe es keinen Grund, nicht umzusteigen. Das gilt umso mehr für Leute, die diese Modelle schon seit ein paar Monaten genutzt haben
    Die Codebasis hat sich ja nicht geändert, also kann man einfach Open-Weight-Modelle verwenden. Man sollte die Torpfosten nicht verschieben

    • Neue proprietäre Modelle werden jedes Mal als "bahnbrechend" beworben und damit, dass sie "Aufgabe X gelöst haben, die andere Modelle nicht lösen konnten", aber einen Monat später gelten sie schon als schwache Modelle der vorherigen Generation
      Deshalb gibt es überhaupt kein Problem damit, Kimi-2.7, GLM-5.2 und Deepseek-v4 zu benutzen. Sie haben die Decke bereits ziemlich stark erreicht, und die meisten Verbesserungen scheinen inzwischen aus besseren Harnesses zu kommen, die Inferenz oder Tool-Calling etwas besser machen, plus etwas besserem Reinforcement Learning
    • Ich habe viel mit offenen Modellen experimentiert, aber ich bin müde von diesem "sie liegen nur ein paar Monate zurück"
      Ich bin immer noch nicht sicher, dass selbst die besten Open-Weight-Modelle heute auf dem Stand von Opus vor ein paar Monaten sind. Ich weiß, was die Benchmarks sagen, und meine Erwartungen waren hoch, aber die tatsächliche Nutzungserfahrung stimmte nicht mit den Benchmarks überein
      Ich mache viele Aufgaben, mit denen selbst Opus 4.8 noch kämpft. Solange selbst SOTA-LLMs das noch nicht vollständig erreicht haben, fehlt mir die Motivation, zu Modellen zu wechseln, die noch weiter zurückliegen
    • Der einzige Grund, warum ich das hier gerade auf HN lese, ist ein Anthropic-API-Ausfall, also ist das auch eine Stimme für Self-Hosting
    • Etwas präziser als "ein paar Monate zurück" wäre vermutlich, dass die wichtige Schwelle ist, ob etwas vor oder nach Claude Opus 4.5 vom 24. November 2025 liegt. Das war das Modell, das zu Weihnachten den OpenClaw-Hype ausgelöst hat
    • In der Firma nutzen wir einen Deepseek V4 Flash Provider, und der erledigt 95% der Arbeit, die tatsächlich funktioniert, zu einem Zehntel der Kosten. Stärkere Modelle holen wir gelegentlich dazu, aber erst nach einem zweiten Gedanken
      Der Burggraben ist so flach, dass er nur +1 Nahrung und +1 Produktion gibt. Mit Straße gibt es +1 Gold
  • Das Erstaunliche an diesen Modellen ist, dass sie das Internet im Grunde in eine Form destilliert haben, die auf einen lokalen Rechner passt und sich in natürlicher Sprache abfragen lässt
    Technik und Hardware verbessern sich schneller als die Wissensbasis wächst, die destilliert werden muss, daher scheint es unvermeidlich, dass brauchbare lokale Modelle möglich werden

  • Ich finde die Haltung in diesem Beitrag ziemlich überraschend. Einerseits beginnt er mit der Geschichte, wie Linux und andere freie Open-Source-Software angenommen wurden, und der Kern von FOSS ist ja, dass Nutzer die Software, die sie ausführen, verstehen und verändern können
    Der Rest handelt dann aber davon, LLMs zu nutzen, also Werkzeuge, die der Autor weder verändern noch verstehen kann. Riesige Gleitkomma-Matrizen sind im besten Fall mit kompiliertem Code vergleichbar, und in der Praxis ist es manchmal sogar leichter, proprietäre Software zu dekompilieren und zu verstehen
    Außerdem braucht man in den meisten Fällen Hardware, die man sich kaum leisten kann, wenn man überhaupt versucht, ein "offenes" Modell auszuführen. Ich weiß nicht, wie man von der Feier der Softwarefreiheit hier gelandet ist

  • Der Titel klingt kategorisch, aber im Text steht eigentlich, man hoffe, dass die Nachteile minimiert werden
    Ich nutze mehrere Abos, teste über OpenRouter verschiedene LLM-Anbieter tokenweise und lasse auch Open-Weight-Modelle lokal laufen
    Im Moment fällt es mir noch schwer zuzustimmen. Die Modelle von Anthropic und OpenAI sind wirklich deutlich besser als der Rest. Open-Weight-Modelle wirken insgesamt so, als seien sie zu stark auf Benchmarks optimiert, und die reale Erfahrung unterscheidet sich sehr von dem, was die Benchmarks andeuten
    Wenn man so etwas sagt, bekommt man oft Downvotes, weil das nicht die Realität ist, die die Leute gerade hören wollen, aber bei komplexen Aufgaben ist es wahr
    Ich denke, dass ein erfahrener Nutzer einen großen Teil der einfachen Aufgaben mit Open-Weight-Modellen gut genug erledigen kann. Wenn es sich um Arbeit handelt, die man mit etwas Aufsicht auch einem Junior überlassen könnte, geht das mit praktisch jedem Modell
    Aber bei vielen meiner Aufgaben muss selbst Opus 4.8 Max ständig aufmerksam überwacht, gelenkt und überprüft werden. Bei Fable war das auch so, nur weniger stark
    Wenn man große Open-Weight-Modelle ausprobiert, landet man wegen der lokal nur in erträglicher Quantisierung erreichbaren und dann nicht vernünftigen Geschwindigkeit doch beim Hosting, und bei großen Aufgaben fühlt sich die Zeit länger an, in der man Tokens verbrennt und auf Ausgaben wartet, die man am Ende wahrscheinlich ohnehin verwirft. Ich wünschte, wir wären schon auf diesem Niveau, aber noch sind wir es nicht

    • Gibt es Beispiele?
  • Claude wurde erst ab 4.6 für Coding-Zwecke wirklich brauchbar. Danach gab es zwar noch zusätzliche Funktionen, die nett gewesen wären, aber wenn 4.6 Sonnet und Opus Open-Weight gewesen wären, hätte ich wahrscheinlich nichts Weiteres gebraucht
    Nach ein wenig Nutzung von Fable denke ich das sogar noch stärker

  • Ich wollte mich stärker an lokale Inferenz gewöhnen, aber mir fehlt die Hardware, deshalb habe ich über so etwas wie eine lokale Genossenschaft nachgedacht, obwohl ich darüber kaum Diskussionen sehe
    Rein wirtschaftlich könnte es sinnvoll sein, wenn mehrere Leute zusammen gute Hardware und offene Modelle betreiben, aber ich habe so etwas nie wirklich diskutiert gesehen. Vielleicht habe ich etwas übersehen
    Es wäre ziemlich cool, einen Dienst zu bauen, der Leuten hilft, die bei so etwas mitmachen wollen, einander zu finden

    • Der Grund, warum man das nicht oft sieht, ist, dass die Leute es durchrechnen, merken, dass es kein gutes Geschäft ist, und es dann lassen
      Ganz oben auf /r/localllama gibt es gerade einen Beitrag genau zu dieser Rechnung: https://www.reddit.com/r/LocalLLaMA/comments/1ubrcwj/tokenom...
      Kurz gesagt kostet es mindestens etwa 20.000 Dollar, GLM 5.2 zu betreiben, und es wird im Vergleich zur Cloud-gehosteten Version quälend langsam sein. Selbst unter der Annahme, dass der Server 24 Stunden am Tag Tokens berechnet, dauert es Jahre bis zum Break-even
      Der einzige Grund, es lokal zu betreiben, ist, wenn vollständige Datenprivatsphäre oberste Priorität hat. Dafür zahlt man dann effektiv eine hohe Prämie
    • Es gibt viele Anbieter, die offene Modelle zu sehr günstigen Preisen anbieten. Im Allgemeinen würde ich empfehlen, sich OpenRouter anzusehen, das verschiedene Kennzahlen vieler Anbieter verfolgt
    • https://news.ycombinator.com/item?id=48524387
    • In der Cloud gehostete offene Modelle???
  • Stimmt, aber OpenAI kostet ebenfalls ungefähr gleich viel. z.ai – warum sollte man dafür 18 Dollar im Monat zahlen, wenn OpenAI 20 Dollar im Monat kostet?

    • Ein großer Vorteil, den ich sehe, ist, dass Menschen eine Bindung zu Modellen aufbauen. Ich eingeschlossen. Bei offenen Modellen gilt: Wenn man ein Modell gefunden hat, das perfekt zu einem passt, und die nächste Version dann enttäuscht, kann man die alte Version für immer weiterlaufen lassen. Entweder selbst oder indem es jemand anderes für einen tut
    • Ein Grund könnten die Request-Limits sein. Bei OpenAIs ChatGPT Plus w/Codex (20 Dollar/Monat) liegt das 5-Stunden-Limit im schlechtesten Fall bei 15 Anfragen für GPT-5.5, 20 für GPT-5.4 und 60 für GPT-5.4-Mini
      Dagegen bietet Z.ai Lite (18 Dollar/Monat) im schlechtesten Fall etwa 80 Anfragen für GLM 5.2. Das gilt für Off-Peak-Zeiten; Peak ist zwischen 2 und 6 Uhr morgens New Yorker Zeit. Deshalb kann Z.ai für weniger Geld ein höheres Limit bieten
      (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
    • https://news.ycombinator.com/item?id=48618455
    • OpenCode Go kostet 10 Dollar im Monat und hat deutlich großzügigere Limits als diese Angebote oder Codex
    • Es scheint auf der Preisseite nicht mehr ausdrücklich zu stehen, aber der Coding-Plan von z.ai behauptete früher, für denselben Preis dreimal so viel Nutzung zu bieten wie ein vergleichbarer Claude-Plan. Ob das genau stimmt, weiß ich nicht, aber schon die API-Preise zeigen, dass GLM viel günstiger ist
  • Früher, als Linux zwar klar leistungsfähig war, aber einiges an Hacks und zusätzlichem Aufwand brauchte, um angenehm benutzbar zu werden, war es leicht, Linux als Rebell zu nutzen
    Aber meiner Erfahrung nach sind offene Modelle bei Fähigkeiten oder Betriebsanforderungen noch nicht so weit. GLM5.2 wirkt kompetent, aber um es auf diesem Niveau zu betreiben, bräuchte man vermutlich einen riesigen GPU-Cluster
    Wenn man auf offene Modelle über eine gehostete API zugreift, unterscheidet sich das am Ende kaum davon, geschlossene Modelle über eine gehostete API zu nutzen. Verglichen mit Linux vor 15 Jahren bricht damit der Anreiz weg
    Nicht falsch verstehen. Ich würde gern lokale Modelle betreiben und damit zufrieden sein, aber jetzt ist noch nicht der Zeitpunkt

    • „Wenn man auf offene Modelle über eine gehostete API zugreift, ist das dasselbe wie geschlossene Modelle über eine gehostete API zu nutzen“ stimmt so nicht
      Entscheidend ist, dass sie nicht von einem einzelnen Akteur kontrolliert werden und man daher nicht enshittified werden kann. Das ist schon passiert, passiert gerade und wird auch weiter passieren
      Bei offenen Weights kann man nicht einfach verdrängt, eingeschlossen oder vom Zugriff abgeschnitten werden. Selbst wenn ein Unternehmen das versucht, kann jemand anderes mit einer Serverfarm einen als Kunden aufnehmen, und im Workflow muss man nur API-URL und Schlüssel austauschen
      Man spricht dann weiterhin mit demselben Modell mit demselben Charakter und demselben Wissen
  • Der groben Stoßrichtung des Artikels stimme ich teilweise zu, aber es gibt zwei Punkte
    Erstens waren offene Modelle in meinen Tests bei Softwareentwicklung, Engineering und angrenzenden Aufgaben noch nicht auf einem Niveau, auf dem sie es wenigstens mit Claude Opus aufnehmen könnten
    Zweitens sollte man es genießen, solange es anhält. Es würde mich wirklich überraschen, wenn solche offenen Modelle nicht bis Ende dieses Jahres unter dem Vorwand der Sicherheit für „illegal“ erklärt würden. Ich nenne es einen Vorwand, weil die eigentlichen Treiber regulatorische Vereinnahmung und industriepolitischer Protektionismus sein dürften

    • Wenn man Modelle in den USA verbietet, stärkt das nur rivalisierende Staaten wie China