Warum ich Claude gekündigt habe: Token-Probleme, Qualitätsverlust und schwacher Support
(nickyreinert.de)- In den ersten Wochen war die Zufriedenheit hoch: schnelle Geschwindigkeit, ein als fair empfundenes Token-Kontingent und gute Ergebnisqualität. Seit etwa drei Wochen hat sich dieser Eindruck jedoch stark verändert
- Nach 10 Stunden Pause wurden bei Claude Haiku schon nach zwei kurzen Fragen 100 % der Nutzung angezeigt, und der Support-Kanal endete nach automatisierten Antworten, die am Kern der Anfrage vorbeigingen, faktisch in einer Sackgasse
- Zuletzt schrumpfte die tatsächlich nutzbare Arbeitszeit so stark, dass bei nur einem einzigen Projekt das Token-Limit bereits nach zwei Stunden ausgeschöpft war, obwohl zuvor mehrere Projekte parallel liefen; beim Refactoring ging fast die Hälfte eines 5-Stunden-Fensters allein dafür drauf, billige Workarounds zu korrigieren
- Nach einer gewissen Zeit verschwand außerdem der Conversation-Cache, sodass die Kosten für das erneute Einlesen der Codebasis immer wieder anfielen; dazu kamen ein geänderter Startpunkt für das Wochenfenster und Warnungen vor einem monatlichen Limit ohne Erklärung, was das Limitsystem inkonsistent wirken ließ
- Der Produktivitätsgewinn und das Potenzial des Produkts werden zwar klar anerkannt, doch die Summe aus schwachem Support, Qualitätsverlust und verwirrenden Nutzungslimits führte letztlich zur Kündigung des Anthropic-Kontos
Frühe Zufriedenheit und der spätere Wandel
- In den ersten Wochen des Claude Code-Abos waren Geschwindigkeit, als fair empfundenes Token-Kontingent und Ergebnisqualität überzeugend
- Es gab auch einen Hinweis, dass das Token-Kontingent zu Zeiten geringer Auslastung erhöht wurde
- Zusammen mit der ablehnenden Haltung gegenüber einigen staatlichen Vorgaben stärkte das auch die Sympathie für das Produkt
- Seit etwa drei Wochen begann die anfängliche Zufriedenheit jedoch schnell zu verschwinden
- In den folgenden Abschnitten ziehen sich Probleme bei Support, Qualität und Nutzungsgrenzen durchgehend weiter
Probleme mit der Support-Qualität
- Nach rund 10 Stunden Pause, in der sich die Token wieder aufgefüllt haben sollten, begann morgens die Arbeit erneut. Direkt nach zwei kurzen Fragen an Claude Haiku, die nicht einmal etwas mit dem Repository zu tun hatten, sprang die Token-Nutzung jedoch auf 100 %
- Die Fragen waren simpel und klein im Umfang
- Die erwartete Token-Aktualisierung passte nicht zur tatsächlich angezeigten Nutzung
- Eine Anfrage an den AI-Support-Bot brachte nur grundlegende Hinweise zurück und erfasste das eigentliche Problem nicht
- Danach wurde Support durch einen Menschen angefordert
- Auch die einige Tage später eingetroffene Antwort wirkte formal am tatsächlichen Problem vorbei
- Die Antwort begann mit dem Hinweis, das System habe die Anfrage als Frage zu Nutzungslimits für Pro- oder Max-Tarife erkannt. Tatsächlich wurde aber bereits der Pro plan genutzt, und auch der Kern der Anfrage wurde nicht korrekt getroffen
- Der weitere Text bestand aus einer langen, dokumentationsartigen Erklärung zu täglichen und wöchentlichen Limits
- Es war kein erkennbarer Versuch, das eigentliche Anliegen direkt zu behandeln oder zu lösen
- Am Ende der Mail stand zudem, dass weitere Antworten möglicherweise nicht überwacht würden und man stattdessen die Hilfeseite besuchen solle; damit war der Anfragekanal faktisch geschlossen
- Auf eine automatisierte Antwort, die das reale Problem nicht abbildete, folgte also auch noch eine blockierte Support-Route
- Die Enttäuschung über die Support-Qualität wuchs damit spürbar
Qualitätsverlust
- In den darauffolgenden Tagen und Wochen war die Ergebnisqualität im Vergleich zur Anfangszeit nicht mehr zufriedenstellend, und auch die tatsächlich nutzbare Arbeitszeit nahm stark ab
- Früher konnten bis zu drei Projekte gleichzeitig laufen, jetzt war selbst bei einem einzelnen Projekt das Token-Limit nach zwei Stunden erreicht
- Verfügbare Nutzung und gefühlte Produktivität verschlechterten sich gemeinsam
- Es wird zugleich eingeräumt, dass Qualitätsbewertungen subjektiv sein können und die Leistung von Agenten stark vom Nutzer abhängt
- Gleichzeitig wird offengelegt, dass auch GitHub Copilot, OpenAI Codex, OMLX, Continue und Qwen3.5-9B verwendet werden, was die Vergleichsbasis zeigt
- Es wird kein Anspruch auf absolute Expertise erhoben, aber der Eindruck entsteht aus Erfahrung mit mehreren Tools
- In einem Beispiel, in dem Claude Opus ein Projekt refaktorisieren sollte, zeigte das Denkprotokoll des Modells statt direkter Anpassungen aller Slider in JSX die Absicht, in
ui-events.jseinen generischen Initialisierer hinzuzufügen, der die Wertanzeige automatisch einspeist- Dieser Ansatz war als Umgehungslösung angelegt, die bei jedem Range-Input ohne Wertanzeige automatisch etwas einfügt
- Solche Logs müsse man inzwischen nicht nur gelegentlich, sondern häufig kontrollieren
- Dieser Ansatz wurde nicht als gute Praxis, sondern als billiger Workaround bewertet. Nach direktem Hinweis räumte Opus selbst ein, dass es ein fauler Ansatz gewesen sei, und wechselte dazu, die Labels direkt in JSX hinzuzufügen und explizit zu verknüpfen
- Allein die Korrektur dieser anfänglich falschen Richtung verbrauchte etwa 50 % eines 5-Stunden-Token-Fensters
- Der Qualitätsverlust blieb damit nicht bloß ein Eindruck, sondern verursachte reale Mehrkosten
Verwirrung um Cache und Limit-Anzeigen
- Neu hinzu kam das Problem mit dem Conversation-Cache; dazu werden sowohl Anthropics Postmortem als auch eine Hacker-News-Diskussion verlinkt
- Positiv wird gewertet, dass das Problem öffentlich behandelt wird
- Die Belastung in der Nutzererfahrung bleibt jedoch bestehen
- Wenn nach einiger Zeit zur Arbeit zurückgekehrt wurde, war der Conversation-Cache verschwunden, sodass das Modell die Codebasis wieder von Grund auf einlas
- Aus Kostensicht mag das wirtschaftlich sein, für Nutzer bedeutet es jedoch, dass nach bereits bezahltem initialem Laden und einer erzwungenen Pause dieselben Lade-Kosten erneut anfallen
- Besonders bei der Begrenzung auf ein 5-Stunden-Token-Fenster führt eine Rückkehr nach einer Pause dazu, dieselben Kosten mehrfach zu zahlen
- Es kam auch vor, dass das Wochenfenster plötzlich vom heutigen Tag auf Montag als Startpunkt umgestellt wurde und die Nutzung dabei auf 0 zurückgesetzt wurde
- Der Reset selbst war willkommen, aber warum diese Änderung geschah, blieb unklar
- Das verstärkte den Eindruck eines nicht konsistenten Limitsystems
- Während bei der Projektarbeit die Token-Nutzung laufend beobachtet wurde, erschien plötzlich eine Warnung vor einem monatlichen Nutzungslimit, obwohl gar kein Organisationsnutzer vorlag
- Zu diesem Zeitpunkt waren weder Stunden- noch Wochenlimits überschritten
- Eine Begründung für die Warnung wurde in der Oberfläche nicht gegeben
- Etwa zwei Stunden später verschwand diese Warnung wieder, und die Arbeit konnte fortgesetzt werden
- Auch in der Dokumentation ist kein monatliches Nutzungslimit erwähnt
- Auf der Einstellungsseite wird laut Text nur die aktuelle Sitzung und das Wochenlimit angezeigt, sodass die Natur dieses monatlichen Limits letztlich unklar blieb
Produktivitätseffekt und endgültige Kündigung
- Die Sympathie für das Produkt selbst ist weiterhin groß, und theoretisch funktioniere alles sehr gut; auch das Potenzial wird hoch eingeschätzt
- Es wurde ein eigenes Claude-basiertes Harness gebaut, und auch Claude Caude, das im Hintergrund GitHub-Issues bearbeitet, wird hoch bewertet
- Mit Claude Cowork wird außerdem weiter an der Nerd Enzyklopädie gearbeitet
- Die Produktivität habe sich nicht nur um einen einstelligen Faktor, sondern um eine ganze Größenordnung erhöht, und Ideen aus dem Kopf ließen sich viel schneller und einfacher umsetzen als noch vor einigen Jahren
- Das tatsächliche Potenzial und der praktische Nutzen des Produkts werden damit klar betont
- Auch die Funktionsgestaltung wird als durchdacht beschrieben
- Zugleich wird eingeräumt, dass der Betrieb eines solchen Produkts technisch und organisatorisch schwierig ist; der Verkauf von Inferenzleistung folgt einer Struktur mit Grenzkosten, bei der zusätzliche Zeit und neue Kunden jeweils wieder ähnliche Rechenressourcen erfordern
- Auch die begrenzten Skaleneffekte werden damit sichtbar
- Die Schwierigkeit des Servicebetriebs wird nicht grundsätzlich bestritten
- Am Ende entsteht der Eindruck, dass Anthropic zu viele neue Kunden auf einmal nicht mehr bewältigen kann; um diese Last zu verringern, wurde das Konto gekündigt
- Die Lücke zwischen Zuneigung zum Produkt und den im Alltag erlebten Betriebsproblemen führte zur Kündigungsentscheidung
- Ausschlaggebend war die Summe aus schwachem Support, Qualitätsverlust und Verwirrung rund um die Limits
10 Kommentare
„In den ersten Wochen eine schnelle Geschwindigkeit und ein Token-Limit, das sich fair anfühlte“??
Wer legt fest, was fair ist?
Wenn man sieht, dass ein 220-Dollar-Service pro Monat nicht einmal 99,5 % Verfügbarkeit erreicht, fragt man sich schon, ob die Nutzer hier für dumm verkauft werden. Claude.ai schafft nicht einmal 99 %.
Welche Dienste nutzen Sie stattdessen? Codex? Ich nutze es weiter, weil ich keine echte Alternative sehe ...
Es stimmt zwar, dass es keine echte Alternative gibt, aber einen Dienst, der nicht einmal 99 % Uptime halten kann, benutze ich in meinem Leben zum ersten Mal..
GitHub muss wohl nicht einmal mit 99 kämpfen, sondern eher mit 95.
Wegen Problemen bei der Synchronisierung von Projektdaten in Claude AI ist ein Wechsel nicht gerade einfach, und vorerst plane ich, Claude Code, Codex und die Gemini CLI parallel zu nutzen.
Falls jemand eine Alternative kennt, würde ich sie auch gern wissen.
Monatliches Nutzungslimit
Jährliches Nutzungslimit
Haha...
Wenn Claude und ChatGPT miteinander konkurrieren, ist das gut für die Verbraucher, haha. Ich hoffe, dass Gemini auch schnell mit einsteigt, und die chinesischen Modelle machen ebenfalls enorme Fortschritte, also hoffe ich, dass sie sich alle einen harten Wettbewerb liefern.
Hacker-News-Kommentare
Selbst wenn man detaillierte Spezifikationsdokumente mit Markdown und Beispielcode in mehreren Dateien schreibt und an Claude Sonnet übergibt, kam es vor, dass Anforderungen ausgelassen, doppelter Code erzeugt oder unnötige Datenaufbereitung eingebaut wurde
Es wirkte auch so, als würden Tests nur mit Gewalt so hingebogen, dass sie irgendwie durchgehen, sodass man am Ende statt Code zu schreiben riesige Mengen Code lesen musste
Schon wenn man alles selbst schreibt, ist Code lesen und mentale Modelle bilden viel schwieriger als das eigentliche Coden, und mit Gen AI wird diese Last noch größer
Deshalb ist es beim aktuellen Anthropic-Preisniveau aus meiner Sicht ein Nettoverlust
Ich baue keine Software für vibe coding, sondern Software, auf die echte Nutzer angewiesen sind, daher werde ich das Abo wohl bald kündigen
Es passt besser, sie in den üblichen Test-/Lint-Zyklus einzuhängen, damit sie mitprüft, Third-Party-Libraries schneller zu bewerten, neue Themen zu recherchieren, RFCs oder Designdokumente vorzuentwerfen oder bei schwierigen Problemen als Gesprächspartner zu dienen
Generell gefallen mir AI-Firmen nicht besonders, und das Unbehagen darüber, dass vieles auf Urheberrechtsverletzungen aufgebaut ist, bleibt bestehen, aber die neuesten Modelle sind in mancher Hinsicht absurd intelligent
Man muss den überdrehten vibecoding hype nicht mitmachen; schon als reines Produktivitätswerkzeug ist das wertvoll genug
Man kann es auch ganz lassen und ist nicht verpflichtet, irgendeiner Firma Geld zu geben, aber nur wegen vibecoding die ganze Technologie abzuräumen, halte ich nicht für nötig
Statt die komplette Systemspezifikation abzugeben, entwirft man das Design selbst, lässt sich bei Bedarf dabei unterstützen und lässt dann die Implementierung Schritt für Schritt erledigen; das ist meist genauer
Wenn man jeden Schritt überprüft, korrigieren lässt und erst dann weitergeht, ist es immer noch schneller, als alles selbst zu schreiben, und gleichzeitig deutlich kontrollierbarer
Das kommt eher vibecoding mit einem zusätzlichen Dokumentationsschritt gleich, und wenn man Ordnungsarbeit reduzieren will, nimmt man besser als Sonnet das jeweils beste Modell zu diesem Zeitpunkt
Trotzdem erledigt kein Modell alles perfekt, also sollte man es nicht im Alles-oder-nichts-Stil einsetzen
Realistisch ist, selbst weiter zu urteilen und AI nur an den Stellen zuzuschalten, an denen sie wirklich beschleunigt
Nicht-juniorige Engineers landen meist genau dort, und die Übertreibungen auf LinkedIn oder in sozialen Netzwerken über automatisch generierte Apps kann man ignorieren
Ich nutze es ähnlich und komme trotzdem schneller zu besserem Code, außerdem ist die Belastung fürs Handgelenk stark gesunken
Der Unterschied scheint zu sein, dass ich es nur bis zu dem Punkt machen lasse, den AI leisten kann, und den Umfang eng und schrittweise kontrolliere
Kleine, klar umrissene Änderungen lassen sich leicht prüfen, aber wenn man jeden Tag 10.000 Zeilen Code-Dumps bekommt, ist eine Bewertung schwierig
Vielleicht wird zu viel, zu schnell und zu früh erzwungen
Wenn man die Balance findet, ist der Nutzen sichtbar; vielleicht nicht so explosiv schnell wie erhofft, aber wahrscheinlich immer noch schneller, als alles allein zu machen
Verifikation und Kontrolle sind oft nötig, und der Plan muss mehrfach überarbeitet werden, aber auch für die Implementierung nutze ich weiter Opus
Das aktuelle Modell hält gerade den Cache, weshalb sogar Warnungen erscheinen, Sonnet nicht für die Implementierung zu verwenden
Das Lesen und Verstehen kostet Zeit, und manuelle Korrekturen sind häufig, aber meist bleibt es innerhalb des Pro-Abos
Ich nutze Claude Opus ziemlich effektiv und stoße mit dem mittleren Abo-Tier nicht oft ans Limit
Meine Arbeitsweise ist eher copilot als Autopilot: Ich gebe nur eng abgegrenzte Aufgaben per Prompt hinein und prüfe fast alles
Für so einen Einsatz fühlt es sich an, als seien die führenden Modelle inzwischen fast gut genug
Ich hoffe, dass ein Open-Source-Modell auf Basis sauber lizenzierter Codebestände erscheint und LLM-gestütztes Coden dadurch commoditized wird
Sie wollen, dass wir mehr Tokens verbrauchen, um mehr abrechnen zu können, und gleichzeitig sieht man, dass sie sich mit dem höheren Verbrauch als erwartet im aktuellen Preismodell schwertun
Wenn die Lösung am Ende lautet, auf einen teureren Tarif hochzugehen, ist das also kein völliger Widerspruch
Es kostet 100 Dollar im Monat, und in Industrieländern ist selbst Strom oft nicht günstiger
Für mich heißt LLM-unterstütztes Coden, dass man jede Änderung und jede Zeile vollständig versteht; wenn nicht, ist es vibe coding
Wenn man diesen Grundsatz ernst nimmt, dürfte es schwer sein, das Kontingent des $100 tier überhaupt auszuschöpfen
Unter mehreren Modellen halte ich dieses hier für das beste, und statt ihm echte Arbeit zu überlassen, nutze ich es meist gelegentlich als Ersatz für eine Suchmaschine
Ich hatte nie das Gefühl, dass LLMs effizient echte Arbeit für mich erledigen, und ich vermisse die Zeiten, in denen technische Dokumentation noch brauchbar war
Am Ende wirkt Claude eher wie eine Krücke, die Lücken in der Developer Experience schließt
Es ist extrem schwer, das Nutzungslimit auszuschöpfen, und obwohl ich ihm viel echte Arbeit überlasse, lande ich im Wochenschnitt nur bei etwa 30 %
Mit Pro bin ich dagegen lächerlich oft ans Limit gestoßen, und einzelne Anfragen gingen über 100 % einer Session hinaus, inklusive Zusatzkosten
Max 5x fühlt sich deutlich größer als nur das Fünffache an, aber Anthropic geht mit Dingen wie surge rate so vage um, dass ich es nicht sicher sagen kann
Die derzeit vielen „Opus ist kaputt, geht zu Codex“-Beiträge auf HN sehe ich ziemlich skeptisch
Ein Teil ist wohl einfach Frust, aber manches riecht auch nach astroturfing
Ich nutze es viel für echte Arbeit und habe das Limit trotzdem nie erreicht
Ein LLM stundenlang einfach laufen zu lassen, wirkt am Ende wie ein Rezept dafür, meine eigene Zeit damit zu verschwenden, nachzuvollziehen, was es getan hat und warum
Was mir Sorgen macht, ist, dass Menschen von proprietären, intransparenten GenAI-Abos abhängig werden
Sie bauen darauf Dinge auf, als wäre das ein solides Fundament, und eines Tages könnte der Eigentümer dieses Fundament plötzlich wegziehen
In letzter Zeit haben mich Rate Limits etwas genervt, sodass ich Codex eher als CC bevorzugt habe, aber an meiner Arbeitsweise musste ich fast nichts ändern
Sie wollen genug Geld ausgeben, um Konkurrenten weit abzuhängen und einen uneinholbaren Abstand zu schaffen, um danach die Preise frei festzusetzen
Trotzdem ist der Wettbewerb noch hart, und Anthropic ist für Coding-Tools zwar am besten, aber der Vorsprung ist kleiner als früher
Ehrlich gesagt war schon Opus 4.5 gut genug, und inzwischen gibt es mehrere Modelle auf diesem Niveau
Gemini Pro 3.1 ist ähnlich, und das aktuelle Codex ist meiner Ansicht nach besser als Opus 4.5 und näher an 4.7
Ich wechsle auf demselben Projekt oft zwischen Modellen und Agenten, und die Umstellungskosten sind praktisch null
Statt
claudestartet man ebengemini,copilotoderhermes, daher gibt es keine tiefe Abhängigkeit von einem bestimmten ModellDie Anbieter werden versuchen, Funktionen einzubauen, die Abhängigkeiten schaffen, aber Spitzenmodelle sind so intelligent, dass man oft einfach direkt sagen kann, was man braucht
Derzeit ist der einzige konsistente moat höchstens die Fähigkeit, das jeweils beste Modell zu bauen, und selbst der ist flach; wenn Claude Code morgen verschwände, wäre das nicht fatal
Selbst hostbare offene Modelle sind ohnehin schon ziemlich nah dran
Der Wettbewerb zwischen OpenAI und Anthropic ist spannend, und zusammen mit der Open-Source-Dynamik dürften wir diesen Punkt bald erreichen
Claude hat im Modus Sonnet medium effort in einer Session 100 % des Limits samt Zusatzkosten verbraucht, danach 53 Minuten lang „nachgedacht“ und dann nur ausgegeben:
API Error: Claude's response exceeded the 32000 output token maximum...API Error: Claude's response exceeded the 32000 output token maximumIch habe das in den letzten Monaten mehrfach gesehen; zuerst dachte ich, es liege an AWS Bedrock, aber offenbar nicht nur daran
Ich und mehrere Kollegen erleben bei Claude seit zwei Monaten einen deutlichen Abbau kognitiver Fähigkeiten
4.5 war brauchbar und 4.6 wirklich gut; nach meinen eigenen Benchmarks konnte 4.5 gerade noch einen 2-way-Pointer-Merge-Loop verfolgen, 4.6 dann 3-way, und mit 1M Kontext sogar k-way
Gerade diese Fähigkeit zum Verfolgen machte es nützlich, um echten Produktionscode zu verstehen und zu ändern
Vor zwei Monaten begann 4.6 aber ständig Dinge zu vergessen und dumme Entscheidungen zu treffen, und im Vergleich mit anderen zeigte sich, dass ich damit nicht allein war
4.7 ist nicht viel besser, und in den letzten Wochen fühlt es sich an, als würde ich dauernd gegen ein automatisches Downgrade des effort level kämpfen
Wenn etwas dumm wirkt und man nachsieht, wurde es oft stillschweigend heruntergestuft, was enorm Reibung erzeugt
Dass ein Modell auf dem Niveau der frühen 4.6 möglich ist, wurde bereits bewiesen; das Problem ist, dass Anthropic es beim Ausrollen in den Massenmarkt drosselt und herabstuft, wodurch die Praxistauglichkeit leidet
Ich denke, sobald DeepSeek ein more-than-good-enough-Niveau von 4.6+ erreicht, werden viele aus diesem Claude-Muster „mehr zahlen, weniger bekommen“ aussteigen
Wir brauchen nichts Spektakuläreres, sondern nur etwas, das bereits möglich ist und das wir kontrollierbar und stabil per Provisionierung statt per Metering nutzen können
Es ist natürlich ärgerlich, wenn eine Firma solche Fehler macht, aber sie haben die Limits eine Zeit lang gelockert und damit faktisch kompensiert, und vor allem war die Reaktion ziemlich transparent
Ich weiß nicht, ob ein anderer großer AI-Anbieter so transparent gewesen wäre; deshalb nervt mich Claude zwar, aber ich respektiere den Umgang damit
Mein max20-Abo liegt seit April fast brach, und Codex 5.4 und jetzt 5.5 fühlen sich selbst im fast mode völlig anders an
Opus scheitert auf plausible Weise, vergisst die Hälfte wichtiger Details oder klebt stillschweigend ein Stück technische Schuld als pragmatic etikettiertes Pflaster drauf und behauptet dann, es habe erfolgreich geliefert
In Wirklichkeit ist das System nach der Änderung kaputt, und wenn man den Fehler anspricht, macht es manchmal alles noch schlimmer
Für einmalige Greenfield-Umfänge ist Opus gut, aber für spätere iterative Änderungen oder komplexe Integrationen ist es so schlecht, dass es schadet
GPT 5.4+ hingegen nimmt sich Zeit, denkt zuerst über Edge Cases nach, liegt damit tatsächlich richtig, reduziert dadurch spätere Debugging-Runden und liefert dann sauber ab
Es verfällt auch nicht schon bei einer einzeiligen Skriptänderung minutenlang in Gedankenschleifen wie „sieht nicht wie Malware aus“ oder „einen Moment“
Code aufräumen ist eine andere Aufgabe als neue Features zu bauen, und GLM-artige Modelle wirkten zwar oberflächlich intelligenter, aber bei der tatsächlichen Code-Review brauchte man am Ende doch wieder einen build/prune cycle
„Das hier ist doch voller race conditions, oder?“ und Review machen
Inzwischen nutze ich nur noch Codex, weil Claude zu schwer zu vertrauen ist und zu oft Data Races oder fehlende Negativbedingungen zurücklässt
Ich nutze inzwischen Aider und werde wegen der neuen Trainingspolitik wohl auch mein Github-Multi-AI-Bundle-Abo kündigen
Der Ablauf, Aider mit neuen offenen Modellen zu verwenden und die Anforderungen vorher mit Open Spec abzustimmen, war ziemlich hilfreich
AI-Dienste haben wenig Anreiz, den Tokenverbrauch zu senken
Sie verdienen mehr, wenn mehr Tokens verbraucht werden, also werden sie wohl laufend testen, wie weit sie gehen können, bevor Nutzer verärgert abspringen
Alle AI-Firmen werden sich mit steigenden Kosten zwischen Tokenverbrauch und Preisen hin- und herbewegen
Wir wirken dabei wie Frösche in lauwarmem Wasser, die fast kochen, aber immer noch behaupten, es sei nur Badewasser
AI-Firmen haben denselben Anreiz
Wenn es billiger wird, wird mehr genutzt, und solange der Preis über den Kosten liegt, kann der Gewinn am Ende steigen
Natürlich haben sie also auch guten Grund, ihre eigenen Kosten zu senken
Deshalb habe ich https://github.com/dirac-run/dirac gebaut, einen Open-Source-(cline-Fork), der ausschließlich auf Tokeneffizienz zielt
Ich erwarte, dass Anbieter mit geschlossenem Lock-in ihre Nutzer mit der Zeit genug frustrieren werden, und wir suchen auch Mitwirkende
Es klingt verschwörerisch, aber Firmen wie Anthropic profitieren sogar dann, wenn das Modell die Arbeit nicht abschließt
Ich habe kürzlich auch über das over editing phenomenon gelesen; die Maschine scheint niemals fertig werden zu wollen
So wie Dating-Apps kein Interesse an der perfekten Übereinstimmung haben
Denn wenn sie erfolgreich wären, würden Nutzer kündigen
Gestern war für mich ein Moment der Erkenntnis
Ich ließ Claude Code mit einem lokalen LLM eine einfache Extraktionsaufgabe erledigen, und es summte zehn Minuten nur vor sich hin
Dasselbe Datenmaterial und denselben Prompt direkt im
llama_cpp-Chat-UI an das Modell gegeben, und in unter einer Minute war es single-shot erledigtAlso kann eigentlich nur etwas mit dem Coding-Agenten selbst oder mit der Art, wie mit dem LLM gesprochen wird, nicht stimmen
Ich suche jetzt einen sehr einfachen Open-Source-Coding-Agenten; Nanocoder lässt sich auf dem Mac schlecht installieren und hat mir zu viele node-modules, und Opencode wirkt nicht vollständig Open Source
Vorerst spiele ich selbst den Coding-Agenten und nutze das
llama_cpp-Web-UI, und das funktioniert ganz ordentlichIm Repository steht MIT License
Wenn man einen „extrem simplen“ Coding-Agenten will, passt das sogar besonders gut
Ich habe das diese Woche selbst gemacht, nachdem mich Anthropics seltsames Verhalten genug genervt hatte, und nach ein paar Tagen lief etwas Brauchbares
Bei mir war Selbst-Bootstrapping und Zusammenkleben ohnehin einfacher, weil es für BeOS oder alte Macs kein Claude Code gibt
Dabei lernt man auch viel darüber, wie das Modell tatsächlich arbeitet und wie viele absurde Pflaster-Patches in Claude Code stecken
Natürlich bekommt man auch ein besseres Gefühl dafür, welche echten Schwierigkeiten Agenten oder Harnesses lösen müssen
Und das Problem, dass Claude Code gegenüber
llama_cpplangsam ist, kenne ich ebenfalls; meine Vermutung ist, dass API-Traffic gegenüber Abo-Traffic priorisiert wirdDie API fühlt sich deutlich schneller an, ist dafür aber auch erheblich teurer
Die Struktur ist überraschend simpel
Ich habe das tatsächlich gemacht, indem ich vLLM einen dünnen Shim vorgehängt habe, der nur die Endpoint-Syntax anpasst
Manchmal macht selbst dasselbe Claude-Modell zu einer Zeit logische Fehler und zu einer anderen nicht
Die Leistung von Claude scheint stark zeitabhängig zu sein, und es gibt sogar Grafiken, die das zeigen
https://marginlab.ai/trackers/claude-code/
Außerdem wird selten offen darüber gesprochen, aber ich habe den Eindruck, dass selbst beim selben Modell Quantisierung einen spürbaren Unterschied im Ergebnis macht
4-bit und 8-bit unterscheiden sich sowohl im Rechenaufwand als auch in der Ausgabequalität
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Mir ist klar, dass Frontier-Modelle nicht immer identisch laufen, aber ich frage mich, ob es zu Spitzenzeiten irgendwo einen fidelity dial gibt, um Speicher- oder Ressourcenverbrauch zu senken und damit die Leistung herunterzuregeln
Die 60-%-Linie liegt innerhalb des 95-%-Konfidenzintervalls; vielleicht ist das also einfach nur Messrauschen