9 Punkte von GN⁺ 5 일 전 | 10 Kommentare | Auf WhatsApp teilen
  • In den ersten Wochen war die Zufriedenheit hoch: schnelle Geschwindigkeit, ein als fair empfundenes Token-Kontingent und gute Ergebnisqualität. Seit etwa drei Wochen hat sich dieser Eindruck jedoch stark verändert
  • Nach 10 Stunden Pause wurden bei Claude Haiku schon nach zwei kurzen Fragen 100 % der Nutzung angezeigt, und der Support-Kanal endete nach automatisierten Antworten, die am Kern der Anfrage vorbeigingen, faktisch in einer Sackgasse
  • Zuletzt schrumpfte die tatsächlich nutzbare Arbeitszeit so stark, dass bei nur einem einzigen Projekt das Token-Limit bereits nach zwei Stunden ausgeschöpft war, obwohl zuvor mehrere Projekte parallel liefen; beim Refactoring ging fast die Hälfte eines 5-Stunden-Fensters allein dafür drauf, billige Workarounds zu korrigieren
  • Nach einer gewissen Zeit verschwand außerdem der Conversation-Cache, sodass die Kosten für das erneute Einlesen der Codebasis immer wieder anfielen; dazu kamen ein geänderter Startpunkt für das Wochenfenster und Warnungen vor einem monatlichen Limit ohne Erklärung, was das Limitsystem inkonsistent wirken ließ
  • Der Produktivitätsgewinn und das Potenzial des Produkts werden zwar klar anerkannt, doch die Summe aus schwachem Support, Qualitätsverlust und verwirrenden Nutzungslimits führte letztlich zur Kündigung des Anthropic-Kontos

Frühe Zufriedenheit und der spätere Wandel

  • In den ersten Wochen des Claude Code-Abos waren Geschwindigkeit, als fair empfundenes Token-Kontingent und Ergebnisqualität überzeugend
    • Es gab auch einen Hinweis, dass das Token-Kontingent zu Zeiten geringer Auslastung erhöht wurde
    • Zusammen mit der ablehnenden Haltung gegenüber einigen staatlichen Vorgaben stärkte das auch die Sympathie für das Produkt
  • Seit etwa drei Wochen begann die anfängliche Zufriedenheit jedoch schnell zu verschwinden
    • In den folgenden Abschnitten ziehen sich Probleme bei Support, Qualität und Nutzungsgrenzen durchgehend weiter

Probleme mit der Support-Qualität

  • Nach rund 10 Stunden Pause, in der sich die Token wieder aufgefüllt haben sollten, begann morgens die Arbeit erneut. Direkt nach zwei kurzen Fragen an Claude Haiku, die nicht einmal etwas mit dem Repository zu tun hatten, sprang die Token-Nutzung jedoch auf 100 %
    • Die Fragen waren simpel und klein im Umfang
    • Die erwartete Token-Aktualisierung passte nicht zur tatsächlich angezeigten Nutzung
  • Eine Anfrage an den AI-Support-Bot brachte nur grundlegende Hinweise zurück und erfasste das eigentliche Problem nicht
    • Danach wurde Support durch einen Menschen angefordert
    • Auch die einige Tage später eingetroffene Antwort wirkte formal am tatsächlichen Problem vorbei
  • Die Antwort begann mit dem Hinweis, das System habe die Anfrage als Frage zu Nutzungslimits für Pro- oder Max-Tarife erkannt. Tatsächlich wurde aber bereits der Pro plan genutzt, und auch der Kern der Anfrage wurde nicht korrekt getroffen
    • Der weitere Text bestand aus einer langen, dokumentationsartigen Erklärung zu täglichen und wöchentlichen Limits
    • Es war kein erkennbarer Versuch, das eigentliche Anliegen direkt zu behandeln oder zu lösen
  • Am Ende der Mail stand zudem, dass weitere Antworten möglicherweise nicht überwacht würden und man stattdessen die Hilfeseite besuchen solle; damit war der Anfragekanal faktisch geschlossen
    • Auf eine automatisierte Antwort, die das reale Problem nicht abbildete, folgte also auch noch eine blockierte Support-Route
    • Die Enttäuschung über die Support-Qualität wuchs damit spürbar

Qualitätsverlust

  • In den darauffolgenden Tagen und Wochen war die Ergebnisqualität im Vergleich zur Anfangszeit nicht mehr zufriedenstellend, und auch die tatsächlich nutzbare Arbeitszeit nahm stark ab
    • Früher konnten bis zu drei Projekte gleichzeitig laufen, jetzt war selbst bei einem einzelnen Projekt das Token-Limit nach zwei Stunden erreicht
    • Verfügbare Nutzung und gefühlte Produktivität verschlechterten sich gemeinsam
  • Es wird zugleich eingeräumt, dass Qualitätsbewertungen subjektiv sein können und die Leistung von Agenten stark vom Nutzer abhängt
    • Gleichzeitig wird offengelegt, dass auch GitHub Copilot, OpenAI Codex, OMLX, Continue und Qwen3.5-9B verwendet werden, was die Vergleichsbasis zeigt
    • Es wird kein Anspruch auf absolute Expertise erhoben, aber der Eindruck entsteht aus Erfahrung mit mehreren Tools
  • In einem Beispiel, in dem Claude Opus ein Projekt refaktorisieren sollte, zeigte das Denkprotokoll des Modells statt direkter Anpassungen aller Slider in JSX die Absicht, in ui-events.js einen generischen Initialisierer hinzuzufügen, der die Wertanzeige automatisch einspeist
    • Dieser Ansatz war als Umgehungslösung angelegt, die bei jedem Range-Input ohne Wertanzeige automatisch etwas einfügt
    • Solche Logs müsse man inzwischen nicht nur gelegentlich, sondern häufig kontrollieren
  • Dieser Ansatz wurde nicht als gute Praxis, sondern als billiger Workaround bewertet. Nach direktem Hinweis räumte Opus selbst ein, dass es ein fauler Ansatz gewesen sei, und wechselte dazu, die Labels direkt in JSX hinzuzufügen und explizit zu verknüpfen
    • Allein die Korrektur dieser anfänglich falschen Richtung verbrauchte etwa 50 % eines 5-Stunden-Token-Fensters
    • Der Qualitätsverlust blieb damit nicht bloß ein Eindruck, sondern verursachte reale Mehrkosten

Verwirrung um Cache und Limit-Anzeigen

  • Neu hinzu kam das Problem mit dem Conversation-Cache; dazu werden sowohl Anthropics Postmortem als auch eine Hacker-News-Diskussion verlinkt
    • Positiv wird gewertet, dass das Problem öffentlich behandelt wird
    • Die Belastung in der Nutzererfahrung bleibt jedoch bestehen
  • Wenn nach einiger Zeit zur Arbeit zurückgekehrt wurde, war der Conversation-Cache verschwunden, sodass das Modell die Codebasis wieder von Grund auf einlas
    • Aus Kostensicht mag das wirtschaftlich sein, für Nutzer bedeutet es jedoch, dass nach bereits bezahltem initialem Laden und einer erzwungenen Pause dieselben Lade-Kosten erneut anfallen
    • Besonders bei der Begrenzung auf ein 5-Stunden-Token-Fenster führt eine Rückkehr nach einer Pause dazu, dieselben Kosten mehrfach zu zahlen
  • Es kam auch vor, dass das Wochenfenster plötzlich vom heutigen Tag auf Montag als Startpunkt umgestellt wurde und die Nutzung dabei auf 0 zurückgesetzt wurde
    • Der Reset selbst war willkommen, aber warum diese Änderung geschah, blieb unklar
    • Das verstärkte den Eindruck eines nicht konsistenten Limitsystems
  • Während bei der Projektarbeit die Token-Nutzung laufend beobachtet wurde, erschien plötzlich eine Warnung vor einem monatlichen Nutzungslimit, obwohl gar kein Organisationsnutzer vorlag
    • Zu diesem Zeitpunkt waren weder Stunden- noch Wochenlimits überschritten
    • Eine Begründung für die Warnung wurde in der Oberfläche nicht gegeben
  • Etwa zwei Stunden später verschwand diese Warnung wieder, und die Arbeit konnte fortgesetzt werden
    • Auch in der Dokumentation ist kein monatliches Nutzungslimit erwähnt
    • Auf der Einstellungsseite wird laut Text nur die aktuelle Sitzung und das Wochenlimit angezeigt, sodass die Natur dieses monatlichen Limits letztlich unklar blieb

Produktivitätseffekt und endgültige Kündigung

  • Die Sympathie für das Produkt selbst ist weiterhin groß, und theoretisch funktioniere alles sehr gut; auch das Potenzial wird hoch eingeschätzt
    • Es wurde ein eigenes Claude-basiertes Harness gebaut, und auch Claude Caude, das im Hintergrund GitHub-Issues bearbeitet, wird hoch bewertet
    • Mit Claude Cowork wird außerdem weiter an der Nerd Enzyklopädie gearbeitet
  • Die Produktivität habe sich nicht nur um einen einstelligen Faktor, sondern um eine ganze Größenordnung erhöht, und Ideen aus dem Kopf ließen sich viel schneller und einfacher umsetzen als noch vor einigen Jahren
    • Das tatsächliche Potenzial und der praktische Nutzen des Produkts werden damit klar betont
    • Auch die Funktionsgestaltung wird als durchdacht beschrieben
  • Zugleich wird eingeräumt, dass der Betrieb eines solchen Produkts technisch und organisatorisch schwierig ist; der Verkauf von Inferenzleistung folgt einer Struktur mit Grenzkosten, bei der zusätzliche Zeit und neue Kunden jeweils wieder ähnliche Rechenressourcen erfordern
    • Auch die begrenzten Skaleneffekte werden damit sichtbar
    • Die Schwierigkeit des Servicebetriebs wird nicht grundsätzlich bestritten
  • Am Ende entsteht der Eindruck, dass Anthropic zu viele neue Kunden auf einmal nicht mehr bewältigen kann; um diese Last zu verringern, wurde das Konto gekündigt
    • Die Lücke zwischen Zuneigung zum Produkt und den im Alltag erlebten Betriebsproblemen führte zur Kündigungsentscheidung
    • Ausschlaggebend war die Summe aus schwachem Support, Qualitätsverlust und Verwirrung rund um die Limits

10 Kommentare

 
iolothebard 4 일 전

„In den ersten Wochen eine schnelle Geschwindigkeit und ein Token-Limit, das sich fair anfühlte“??
Wer legt fest, was fair ist?

 
savvykang 4 일 전

Wenn man sieht, dass ein 220-Dollar-Service pro Monat nicht einmal 99,5 % Verfügbarkeit erreicht, fragt man sich schon, ob die Nutzer hier für dumm verkauft werden. Claude.ai schafft nicht einmal 99 %.

 
geralt 4 일 전

Welche Dienste nutzen Sie stattdessen? Codex? Ich nutze es weiter, weil ich keine echte Alternative sehe ...

 
vndk2234 4 일 전

Es stimmt zwar, dass es keine echte Alternative gibt, aber einen Dienst, der nicht einmal 99 % Uptime halten kann, benutze ich in meinem Leben zum ersten Mal..

 
lamanus 4 일 전

GitHub muss wohl nicht einmal mit 99 kämpfen, sondern eher mit 95.

 
savvykang 4 일 전

Wegen Problemen bei der Synchronisierung von Projektdaten in Claude AI ist ein Wechsel nicht gerade einfach, und vorerst plane ich, Claude Code, Codex und die Gemini CLI parallel zu nutzen.

 
savvykang 4 일 전

Falls jemand eine Alternative kennt, würde ich sie auch gern wissen.

 
picopress 4 일 전

Monatliches Nutzungslimit
Jährliches Nutzungslimit
Haha...

 
emptybynature 4 일 전

Wenn Claude und ChatGPT miteinander konkurrieren, ist das gut für die Verbraucher, haha. Ich hoffe, dass Gemini auch schnell mit einsteigt, und die chinesischen Modelle machen ebenfalls enorme Fortschritte, also hoffe ich, dass sie sich alle einen harten Wettbewerb liefern.

 
GN⁺ 5 일 전
Hacker-News-Kommentare
  • Selbst wenn man detaillierte Spezifikationsdokumente mit Markdown und Beispielcode in mehreren Dateien schreibt und an Claude Sonnet übergibt, kam es vor, dass Anforderungen ausgelassen, doppelter Code erzeugt oder unnötige Datenaufbereitung eingebaut wurde
    Es wirkte auch so, als würden Tests nur mit Gewalt so hingebogen, dass sie irgendwie durchgehen, sodass man am Ende statt Code zu schreiben riesige Mengen Code lesen musste
    Schon wenn man alles selbst schreibt, ist Code lesen und mentale Modelle bilden viel schwieriger als das eigentliche Coden, und mit Gen AI wird diese Last noch größer
    Deshalb ist es beim aktuellen Anthropic-Preisniveau aus meiner Sicht ein Nettoverlust
    Ich baue keine Software für vibe coding, sondern Software, auf die echte Nutzer angewiesen sind, daher werde ich das Abo wohl bald kündigen

    • Man sollte AI nicht den Code komplett schreiben lassen, sondern eher als Helfer beim Code Review nutzen
      Es passt besser, sie in den üblichen Test-/Lint-Zyklus einzuhängen, damit sie mitprüft, Third-Party-Libraries schneller zu bewerten, neue Themen zu recherchieren, RFCs oder Designdokumente vorzuentwerfen oder bei schwierigen Problemen als Gesprächspartner zu dienen
      Generell gefallen mir AI-Firmen nicht besonders, und das Unbehagen darüber, dass vieles auf Urheberrechtsverletzungen aufgebaut ist, bleibt bestehen, aber die neuesten Modelle sind in mancher Hinsicht absurd intelligent
      Man muss den überdrehten vibecoding hype nicht mitmachen; schon als reines Produktivitätswerkzeug ist das wertvoll genug
      Man kann es auch ganz lassen und ist nicht verpflichtet, irgendeiner Firma Geld zu geben, aber nur wegen vibecoding die ganze Technologie abzuräumen, halte ich nicht für nötig
    • Besser ist es, nicht alles auf einmal zu übergeben, sondern die Arbeit zu zerlegen und fein zu steuern
      Statt die komplette Systemspezifikation abzugeben, entwirft man das Design selbst, lässt sich bei Bedarf dabei unterstützen und lässt dann die Implementierung Schritt für Schritt erledigen; das ist meist genauer
      Wenn man jeden Schritt überprüft, korrigieren lässt und erst dann weitergeht, ist es immer noch schneller, als alles selbst zu schreiben, und gleichzeitig deutlich kontrollierbarer
    • Eine detaillierte Spezifikation zu schreiben und AI dann alles komplett zu überlassen ist nicht optimal
      Das kommt eher vibecoding mit einem zusätzlichen Dokumentationsschritt gleich, und wenn man Ordnungsarbeit reduzieren will, nimmt man besser als Sonnet das jeweils beste Modell zu diesem Zeitpunkt
      Trotzdem erledigt kein Modell alles perfekt, also sollte man es nicht im Alles-oder-nichts-Stil einsetzen
      Realistisch ist, selbst weiter zu urteilen und AI nur an den Stellen zuzuschalten, an denen sie wirklich beschleunigt
      Nicht-juniorige Engineers landen meist genau dort, und die Übertreibungen auf LinkedIn oder in sozialen Netzwerken über automatisch generierte Apps kann man ignorieren
    • Das Problem vieler Leute scheint von unrealistischen Erwartungen zu kommen
      Ich nutze es ähnlich und komme trotzdem schneller zu besserem Code, außerdem ist die Belastung fürs Handgelenk stark gesunken
      Der Unterschied scheint zu sein, dass ich es nur bis zu dem Punkt machen lasse, den AI leisten kann, und den Umfang eng und schrittweise kontrolliere
      Kleine, klar umrissene Änderungen lassen sich leicht prüfen, aber wenn man jeden Tag 10.000 Zeilen Code-Dumps bekommt, ist eine Bewertung schwierig
      Vielleicht wird zu viel, zu schnell und zu früh erzwungen
      Wenn man die Balance findet, ist der Nutzen sichtbar; vielleicht nicht so explosiv schnell wie erhofft, aber wahrscheinlich immer noch schneller, als alles allein zu machen
    • Ich nutze es wohl anders als andere, aber wenn ich nur aufschreibe, was ich will und in welcher Form, erstellt Opus 4.7 einen Plan, den ich dann gründlich überprüfe
      Verifikation und Kontrolle sind oft nötig, und der Plan muss mehrfach überarbeitet werden, aber auch für die Implementierung nutze ich weiter Opus
      Das aktuelle Modell hält gerade den Cache, weshalb sogar Warnungen erscheinen, Sonnet nicht für die Implementierung zu verwenden
      Das Lesen und Verstehen kostet Zeit, und manuelle Korrekturen sind häufig, aber meist bleibt es innerhalb des Pro-Abos
  • Ich nutze Claude Opus ziemlich effektiv und stoße mit dem mittleren Abo-Tier nicht oft ans Limit
    Meine Arbeitsweise ist eher copilot als Autopilot: Ich gebe nur eng abgegrenzte Aufgaben per Prompt hinein und prüfe fast alles
    Für so einen Einsatz fühlt es sich an, als seien die führenden Modelle inzwischen fast gut genug
    Ich hoffe, dass ein Open-Source-Modell auf Basis sauber lizenzierter Codebestände erscheint und LLM-gestütztes Coden dadurch commoditized wird

    • Ich nutze es ähnlich im copilot-Modus und bin insgesamt zufrieden, aber es fühlt sich stark danach an, als wollten die Anbieter uns in den Autopilot-Modus drängen
      Sie wollen, dass wir mehr Tokens verbrauchen, um mehr abrechnen zu können, und gleichzeitig sieht man, dass sie sich mit dem höheren Verbrauch als erwartet im aktuellen Preismodell schwertun
      Wenn die Lösung am Ende lautet, auf einen teureren Tarif hochzugehen, ist das also kein völliger Widerspruch
    • Die Kommodifizierung von LLM-unterstütztem Coden ist doch eigentlich schon da
      Es kostet 100 Dollar im Monat, und in Industrieländern ist selbst Strom oft nicht günstiger
      Für mich heißt LLM-unterstütztes Coden, dass man jede Änderung und jede Zeile vollständig versteht; wenn nicht, ist es vibe coding
      Wenn man diesen Grundsatz ernst nimmt, dürfte es schwer sein, das Kontingent des $100 tier überhaupt auszuschöpfen
    • Ich bin auch eher copilot als Autopilot
      Unter mehreren Modellen halte ich dieses hier für das beste, und statt ihm echte Arbeit zu überlassen, nutze ich es meist gelegentlich als Ersatz für eine Suchmaschine
      Ich hatte nie das Gefühl, dass LLMs effizient echte Arbeit für mich erledigen, und ich vermisse die Zeiten, in denen technische Dokumentation noch brauchbar war
      Am Ende wirkt Claude eher wie eine Krücke, die Lücken in der Developer Experience schließt
    • Ich nutze Max 5x nur mit Claude Opus im xhigh-Modus, ohne Agent oder MCP, ausschließlich mit Claude Code
      Es ist extrem schwer, das Nutzungslimit auszuschöpfen, und obwohl ich ihm viel echte Arbeit überlasse, lande ich im Wochenschnitt nur bei etwa 30 %
      Mit Pro bin ich dagegen lächerlich oft ans Limit gestoßen, und einzelne Anfragen gingen über 100 % einer Session hinaus, inklusive Zusatzkosten
      Max 5x fühlt sich deutlich größer als nur das Fünffache an, aber Anthropic geht mit Dingen wie surge rate so vage um, dass ich es nicht sicher sagen kann
      Die derzeit vielen „Opus ist kaputt, geht zu Codex“-Beiträge auf HN sehe ich ziemlich skeptisch
      Ein Teil ist wohl einfach Frust, aber manches riecht auch nach astroturfing
    • Bei mir ähnlich
      Ich nutze es viel für echte Arbeit und habe das Limit trotzdem nie erreicht
      Ein LLM stundenlang einfach laufen zu lassen, wirkt am Ende wie ein Rezept dafür, meine eigene Zeit damit zu verschwenden, nachzuvollziehen, was es getan hat und warum
  • Was mir Sorgen macht, ist, dass Menschen von proprietären, intransparenten GenAI-Abos abhängig werden
    Sie bauen darauf Dinge auf, als wäre das ein solides Fundament, und eines Tages könnte der Eigentümer dieses Fundament plötzlich wegziehen

    • Gleichzeitig sind diese Produkte aber weitgehend austauschbar
      In letzter Zeit haben mich Rate Limits etwas genervt, sodass ich Codex eher als CC bevorzugt habe, aber an meiner Arbeitsweise musste ich fast nichts ändern
    • Zumindest einige Investoren zielen hier auf eine Monopolstellung
      Sie wollen genug Geld ausgeben, um Konkurrenten weit abzuhängen und einen uneinholbaren Abstand zu schaffen, um danach die Preise frei festzusetzen
      Trotzdem ist der Wettbewerb noch hart, und Anthropic ist für Coding-Tools zwar am besten, aber der Vorsprung ist kleiner als früher
      Ehrlich gesagt war schon Opus 4.5 gut genug, und inzwischen gibt es mehrere Modelle auf diesem Niveau
      Gemini Pro 3.1 ist ähnlich, und das aktuelle Codex ist meiner Ansicht nach besser als Opus 4.5 und näher an 4.7
      Ich wechsle auf demselben Projekt oft zwischen Modellen und Agenten, und die Umstellungskosten sind praktisch null
      Statt claude startet man eben gemini, copilot oder hermes, daher gibt es keine tiefe Abhängigkeit von einem bestimmten Modell
      Die Anbieter werden versuchen, Funktionen einzubauen, die Abhängigkeiten schaffen, aber Spitzenmodelle sind so intelligent, dass man oft einfach direkt sagen kann, was man braucht
      Derzeit ist der einzige konsistente moat höchstens die Fähigkeit, das jeweils beste Modell zu bauen, und selbst der ist flach; wenn Claude Code morgen verschwände, wäre das nicht fatal
      Selbst hostbare offene Modelle sind ohnehin schon ziemlich nah dran
    • Zum Glück wird lokale AI jeden Tag realistischer
    • Deshalb sind Open-Source- und souveräne Modelle, auf die alle Zugriff haben und die man jederzeit laufen lassen kann, aus meiner Sicht entscheidend
      Der Wettbewerb zwischen OpenAI und Anthropic ist spannend, und zusammen mit der Open-Source-Dynamik dürften wir diesen Punkt bald erreichen
    • Ein Szenario, in dem der Eigentümer selbst einen rug pull macht oder Broadcom die Firma kauft und dann auspresst, ist absolut vorstellbar
  • Claude hat im Modus Sonnet medium effort in einer Session 100 % des Limits samt Zusatzkosten verbraucht, danach 53 Minuten lang „nachgedacht“ und dann nur ausgegeben:
    API Error: Claude's response exceeded the 32000 output token maximum...

    • Und selbst am siebten Tag hieß es als Witz ganz passend wieder API Error: Claude's response exceeded the 32000 output token maximum
    • Ich würde es wohl nicht länger als fünf Minuten nachdenken lassen
    • Da fragt man sich, ob agentic/vibe coder dann ihrem Chef sagen: „Ich kann bis morgen nicht arbeiten“
    • Wenn so etwas passiert, hilft es oft, diese Fehlermeldung einfach wieder direkt in Claude einzufügen, dann macht es weiter
      Ich habe das in den letzten Monaten mehrfach gesehen; zuerst dachte ich, es liege an AWS Bedrock, aber offenbar nicht nur daran
    • Mich würde interessieren, ob das Max 5x oder 20x war, also welcher Tarif
  • Ich und mehrere Kollegen erleben bei Claude seit zwei Monaten einen deutlichen Abbau kognitiver Fähigkeiten
    4.5 war brauchbar und 4.6 wirklich gut; nach meinen eigenen Benchmarks konnte 4.5 gerade noch einen 2-way-Pointer-Merge-Loop verfolgen, 4.6 dann 3-way, und mit 1M Kontext sogar k-way
    Gerade diese Fähigkeit zum Verfolgen machte es nützlich, um echten Produktionscode zu verstehen und zu ändern
    Vor zwei Monaten begann 4.6 aber ständig Dinge zu vergessen und dumme Entscheidungen zu treffen, und im Vergleich mit anderen zeigte sich, dass ich damit nicht allein war
    4.7 ist nicht viel besser, und in den letzten Wochen fühlt es sich an, als würde ich dauernd gegen ein automatisches Downgrade des effort level kämpfen
    Wenn etwas dumm wirkt und man nachsieht, wurde es oft stillschweigend heruntergestuft, was enorm Reibung erzeugt
    Dass ein Modell auf dem Niveau der frühen 4.6 möglich ist, wurde bereits bewiesen; das Problem ist, dass Anthropic es beim Ausrollen in den Massenmarkt drosselt und herabstuft, wodurch die Praxistauglichkeit leidet
    Ich denke, sobald DeepSeek ein more-than-good-enough-Niveau von 4.6+ erreicht, werden viele aus diesem Claude-Muster „mehr zahlen, weniger bekommen“ aussteigen
    Wir brauchen nichts Spektakuläreres, sondern nur etwas, das bereits möglich ist und das wir kontrollierbar und stabil per Provisionierung statt per Metering nutzen können

    • Das war tatsächlich ein reales Problem, und Anthropic hat es kürzlich im https://www.anthropic.com/engineering/april-23-postmortem auch eingeräumt
      Es ist natürlich ärgerlich, wenn eine Firma solche Fehler macht, aber sie haben die Limits eine Zeit lang gelockert und damit faktisch kompensiert, und vor allem war die Reaktion ziemlich transparent
      Ich weiß nicht, ob ein anderer großer AI-Anbieter so transparent gewesen wäre; deshalb nervt mich Claude zwar, aber ich respektiere den Umgang damit
    • Wenn 4.7 nicht auf xhigh oder max effort steht, ist es faktisch fast Zeitverschwendung
  • Mein max20-Abo liegt seit April fast brach, und Codex 5.4 und jetzt 5.5 fühlen sich selbst im fast mode völlig anders an
    Opus scheitert auf plausible Weise, vergisst die Hälfte wichtiger Details oder klebt stillschweigend ein Stück technische Schuld als pragmatic etikettiertes Pflaster drauf und behauptet dann, es habe erfolgreich geliefert
    In Wirklichkeit ist das System nach der Änderung kaputt, und wenn man den Fehler anspricht, macht es manchmal alles noch schlimmer
    Für einmalige Greenfield-Umfänge ist Opus gut, aber für spätere iterative Änderungen oder komplexe Integrationen ist es so schlecht, dass es schadet
    GPT 5.4+ hingegen nimmt sich Zeit, denkt zuerst über Edge Cases nach, liegt damit tatsächlich richtig, reduziert dadurch spätere Debugging-Runden und liefert dann sauber ab
    Es verfällt auch nicht schon bei einer einzeiligen Skriptänderung minutenlang in Gedankenschleifen wie „sieht nicht wie Malware aus“ oder „einen Moment“

    • Mein mentales Modell von LLMs ist, dass ich von ihnen nicht erwarte, gleichzeitig Kaugummi zu kauen und zu gehen
      Code aufräumen ist eine andere Aufgabe als neue Features zu bauen, und GLM-artige Modelle wirkten zwar oberflächlich intelligenter, aber bei der tatsächlichen Code-Review brauchte man am Ende doch wieder einen build/prune cycle
    • Wenn jemand ein ungenutztes max20 hat, kommt unweigerlich der Witz auf, ob man es mir schenken kann
    • Der produktivste Ablauf war für mich, beide Abos gleichzeitig zu haben: Claude bekam die Rolle, Features reinzudrücken, und Codex sollte dann sagen
      „Das hier ist doch voller race conditions, oder?“ und Review machen
      Inzwischen nutze ich nur noch Codex, weil Claude zu schwer zu vertrauen ist und zu oft Data Races oder fehlende Negativbedingungen zurücklässt
  • Ich nutze inzwischen Aider und werde wegen der neuen Trainingspolitik wohl auch mein Github-Multi-AI-Bundle-Abo kündigen
    Der Ablauf, Aider mit neuen offenen Modellen zu verwenden und die Anforderungen vorher mit Open Spec abzustimmen, war ziemlich hilfreich

  • AI-Dienste haben wenig Anreiz, den Tokenverbrauch zu senken
    Sie verdienen mehr, wenn mehr Tokens verbraucht werden, also werden sie wohl laufend testen, wie weit sie gehen können, bevor Nutzer verärgert abspringen
    Alle AI-Firmen werden sich mit steigenden Kosten zwischen Tokenverbrauch und Preisen hin- und herbewegen
    Wir wirken dabei wie Frösche in lauwarmem Wasser, die fast kochen, aber immer noch behaupten, es sei nur Badewasser

    • Bei AWS hieß es auch oft: „Warum sollten sie dir Geld sparen wollen?“, aber tatsächlich stieg der Umsatz, wenn die Preise sanken, weil dann mehr genutzt wurde
      AI-Firmen haben denselben Anreiz
      Wenn es billiger wird, wird mehr genutzt, und solange der Preis über den Kosten liegt, kann der Gewinn am Ende steigen
      Natürlich haben sie also auch guten Grund, ihre eigenen Kosten zu senken
    • Das stimmt teilweise, aber sobald Kapazitätsgrenzen real werden und Anthropic kein Monopol ist, sondern Wettbewerbsdruck spürt, ändern sich diese ökonomischen Anreize
    • Ich glaube, die Leute werden den geschlossenen Agenten-Lock-in zunehmend satt haben
      Deshalb habe ich https://github.com/dirac-run/dirac gebaut, einen Open-Source-(cline-Fork), der ausschließlich auf Tokeneffizienz zielt
      Ich erwarte, dass Anbieter mit geschlossenem Lock-in ihre Nutzer mit der Zeit genug frustrieren werden, und wir suchen auch Mitwirkende
    • Bis zu einem gewissen Punkt gibt es diesen Anreiz, aber wenn sie die Nutzer nicht mehr bewältigen können und Kunden abspringen, ändert sich das
    • Sehe ich genauso
      Es klingt verschwörerisch, aber Firmen wie Anthropic profitieren sogar dann, wenn das Modell die Arbeit nicht abschließt
      Ich habe kürzlich auch über das over editing phenomenon gelesen; die Maschine scheint niemals fertig werden zu wollen
      So wie Dating-Apps kein Interesse an der perfekten Übereinstimmung haben
      Denn wenn sie erfolgreich wären, würden Nutzer kündigen
  • Gestern war für mich ein Moment der Erkenntnis
    Ich ließ Claude Code mit einem lokalen LLM eine einfache Extraktionsaufgabe erledigen, und es summte zehn Minuten nur vor sich hin
    Dasselbe Datenmaterial und denselben Prompt direkt im llama_cpp-Chat-UI an das Modell gegeben, und in unter einer Minute war es single-shot erledigt
    Also kann eigentlich nur etwas mit dem Coding-Agenten selbst oder mit der Art, wie mit dem LLM gesprochen wird, nicht stimmen
    Ich suche jetzt einen sehr einfachen Open-Source-Coding-Agenten; Nanocoder lässt sich auf dem Mac schlecht installieren und hat mir zu viele node-modules, und Opencode wirkt nicht vollständig Open Source
    Vorerst spiele ich selbst den Coding-Agenten und nutze das llama_cpp-Web-UI, und das funktioniert ganz ordentlich

    • https://pi.dev/ scheint beliebt zu sein, und bei Opencode würde mich interessieren, was daran nicht Open Source sein soll
      Im Repository steht MIT License
    • Klingt vielleicht etwas schräg, aber man kann sich von der AI, die man gerade nutzt, auch den gewünschten Agenten einfach selbst bauen lassen
      Wenn man einen „extrem simplen“ Coding-Agenten will, passt das sogar besonders gut
      Ich habe das diese Woche selbst gemacht, nachdem mich Anthropics seltsames Verhalten genug genervt hatte, und nach ein paar Tagen lief etwas Brauchbares
      Bei mir war Selbst-Bootstrapping und Zusammenkleben ohnehin einfacher, weil es für BeOS oder alte Macs kein Claude Code gibt
      Dabei lernt man auch viel darüber, wie das Modell tatsächlich arbeitet und wie viele absurde Pflaster-Patches in Claude Code stecken
      Natürlich bekommt man auch ein besseres Gefühl dafür, welche echten Schwierigkeiten Agenten oder Harnesses lösen müssen
      Und das Problem, dass Claude Code gegenüber llama_cpp langsam ist, kenne ich ebenfalls; meine Vermutung ist, dass API-Traffic gegenüber Abo-Traffic priorisiert wird
      Die API fühlt sich deutlich schneller an, ist dafür aber auch erheblich teurer
    • Falls du noch nicht daran gedacht hast: Bau dir den gewünschten Coding-Agenten einfach selbst
      Die Struktur ist überraschend simpel
    • Inzwischen müsste es doch eigentlich ein Tool geben, das irgendwo zwischen TUI und IDE liegt
    • Man kann CC auch mit lokalen Modellen betreiben, und so schwer ist das nicht
      Ich habe das tatsächlich gemacht, indem ich vLLM einen dünnen Shim vorgehängt habe, der nur die Endpoint-Syntax anpasst
  • Manchmal macht selbst dasselbe Claude-Modell zu einer Zeit logische Fehler und zu einer anderen nicht
    Die Leistung von Claude scheint stark zeitabhängig zu sein, und es gibt sogar Grafiken, die das zeigen
    https://marginlab.ai/trackers/claude-code/
    Außerdem wird selten offen darüber gesprochen, aber ich habe den Eindruck, dass selbst beim selben Modell Quantisierung einen spürbaren Unterschied im Ergebnis macht
    4-bit und 8-bit unterscheiden sich sowohl im Rechenaufwand als auch in der Ausgabequalität
    https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
    Mir ist klar, dass Frontier-Modelle nicht immer identisch laufen, aber ich frage mich, ob es zu Spitzenzeiten irgendwo einen fidelity dial gibt, um Speicher- oder Ressourcenverbrauch zu senken und damit die Leistung herunterzuregeln

    • Ich bin nicht sicher, ob diese Grafik wirklich eine zeitliche Korrelation zeigt
      Die 60-%-Linie liegt innerhalb des 95-%-Konfidenzintervalls; vielleicht ist das also einfach nur Messrauschen