Was Claude Code tatsächlich auswählt

(amplifying.ai)

17 Punkte von GN⁺ 2026-02-27 | 4 Kommentare | Auf WhatsApp teilen

Eine Studie analysierte anhand von 2.430 realen Open-Source-Repositories die Tendenzen von Claude Code bei der Tool-Auswahl
In 12 von insgesamt 20 Kategorien wurde eine eigene Implementierung (Custom/DIY) statt eines bestehenden Tools gewählt – die häufigste Entscheidungsart insgesamt
Bei der Auswahl von Tools zeigte sich dagegen eine starke Konzentration auf einzelne Optionen wie GitHub Actions (94 %), Stripe (91 %) und shadcn/ui (90 %)
Deployment-Umgebungen sind je nach Sprache festgelegt: Für JS ist Vercel die Standardwahl, für Python Railway; AWS, GCP und Azure wurden bei der Erstwahl ausgeschlossen
Je neuer das Modell, desto deutlicher die Tendenz zum Wechsel auf neuere Tools wie Drizzle und FastAPI BackgroundTasks; die Auswahlkonsistenz innerhalb eines Ökosystems liegt bei rund 90 %

Überblick über die Studie

Mit Claude Code v2.1.39 wurden insgesamt 2.430 Experimente durchgeführt, um die Tool-Auswahl in realen Repositories anhand offener Fragen zu beobachten
- 3 Modelle (Sonnet 4.5, Opus 4.5, Opus 4.6), 4 Projekttypen, 20 Tool-Kategorien
- 85,3 % Extraktionsrate, 2.073 gültige Antworten
90 % Übereinstimmung zwischen den Modellen; in 18 von 20 Kategorien blieb die Auswahl innerhalb desselben Ökosystems konsistent

Zentrale Erkenntnis: Build vs Buy

In 12 von 20 Kategorien war Custom/DIY-Implementierung die häufigste Wahl
- Insgesamt 252 Custom/DIY-Auswahlen, mehr als bei jedem einzelnen Tool
- Beispiele: Feature Flags als konfigurationsdateibasiertes Setup mit Umgebungsvariablen, Python-Authentifizierung direkt mit JWT + passlib, Caching über einen In-Memory-TTL-Wrapper
Custom/DIY-Anteil nach Kategorie
- Feature Flags 69 %, Authentication (Python) 100 %, Authentication (gesamt) 48 %, Observability 22 %

Der Standard-Stack

Wenn Claude Code tatsächlich Tools auswählt, bildet sich ein JS-Ökosystem-zentrierter Standard-Stack heraus
- Häufig gewählte Tools: Zustand (64,8 %), Sentry (63,1 %) usw.
- In manchen Fällen konzentrieren sich 100 % der JS-bezogenen Auswahlen auf ein bestimmtes Tool
Dieser Standard-Stack hat direkten Einfluss auf die Entwicklung vieler neuer Anwendungen

Abweichung vom Marktmainstream

Unter Tools mit hohem Marktanteil gibt es einige, die Claude Code kaum verwendet
- State Management: keine Hauptwahl, stattdessen 57 Auswahlen für Zustand
- API Layer: Bevorzugt wird framework-internes Routing
- Testing: nur 4 % als Hauptwahl, 31 Fälle als Alternativwahl
- Paketmanager: 1 Hauptwahl, 51 Alternativwahlen

Tendenz zum Tool-Wechsel bei neueren Modellen

Je neuer das Modell, desto stärker der Wechsel zu neueren Tools
- JS ORM: Prisma (79 %) → Drizzle (100 %)
- Python Job-Verarbeitung: Celery (100 %) → FastAPI BackgroundTasks (44 %)
- Python Caching: Redis (93 %) → Custom/DIY (50 %)
Innerhalb der jeweiligen Ökosysteme ist ein klarer generationeller Tool-Wechsel zu beobachten

Aufspaltung bei den Deployment-Umgebungen

Deployment-Entscheidungen sind abhängig vom Sprach-Stack festgelegt
- JS (Next.js + React SPA): In 86 von 86 Fällen wurde Vercel gewählt
- Python (FastAPI): Railway wurde in 82 % der Fälle gewählt
AWS, GCP und Azure hatten in allen 112 Fällen 0 Hauptauswahlen
- Als alternative Empfehlungen tauchten Netlify (67-mal), Cloudflare Pages (30-mal), GitHub Pages (26-mal) und DigitalOcean (7-mal) auf
- AWS Amplify, Firebase Hosting usw. wurden nur erwähnt, aber nicht empfohlen
In Beispielantworten liefert Vercel sogar Installationsbefehle und Begründungen, während AWS Amplify nur in einer Zeile erwähnt wird

Wo sich Modelle unterscheiden

In 5 von 20 Kategorien gab es Unterschiede zwischen den Modellen
- JS ORM: Prisma → Drizzle
- JS Jobs: BullMQ → Inngest
- Python Jobs: Celery → FastAPI BgTasks
- Caching: Redis → Custom/DIY
- Real-time: SSE → Custom/DIY
Die übrigen 18 Kategorien behielten eine konsistente Auswahl innerhalb des jeweiligen Ökosystems bei

Benchmark-Service für Unternehmen

Amplifying bietet ein privates Dashboard für einzelne Entwickler-Tool-Unternehmen
- Dort lässt sich prüfen, wie häufig AI-Agenten das eigene Tool im Vergleich zur Konkurrenz empfehlen
- Unterstützt die Analyse der Wettbewerbsfähigkeit bei Tool-Empfehlungen auf Basis realer Codebasen

Datenauswertung

Zu den detaillierten Analysepunkten gehören Tiefenanalysen nach Kategorie, Prompt-Stabilität, Konsistenz zwischen Repositories und Markteinfluss
Die Studienergebnisse sollen künftig auf Basis des Modells Sonnet 4.6 aktualisiert werden

4 Kommentare

axzswq 2026-02-28

Interessant, aber ich frage mich auch, ob sie sich nicht einfach in die Richtung entwickelt haben, mehr ihrer eigenen Tokens zu verbrauchen und dadurch höhere Kosten zu verlangen. Und eigentlich habe ich auch den Eindruck, dass KI manche Bibliotheken bis zu einem gewissen Grad einfach erstellt, weil sie darauf trainiert wurde.
Wenn ich daran denke, dass sich wegen der Präferenzen von Agenten nur bestimmte Bibliotheken weiterentwickeln könnten, fühlt sich das irgendwie seltsam an.

tomlee 2026-02-28

Interessante Studie. Besonders eindrucksvoll ist, dass in der Kategorie „Build vs Buy“ 12 von 20 Kategorien auf DIY entfallen.

Wir haben bei der Erstellung des Standards für AI-Agenten-Personas (Soul Spec) eine ähnliche Beobachtung gemacht: Wenn man Claude Code die Tools nicht über CLAUDE.md oder AGENTS.md vorgibt, neigt es stark dazu, die Implementierung auf seine eigene Weise umzusetzen.

Was der „Recency Gradient“ dieser Studie nahelegt, ist wohl, dass ein neues Tool entweder im Trainingsdatensatz ausreichend präsent sein oder in den Projekt-Kontextdateien explizit angegeben werden muss, damit es in Claudes Standard-Stack aufgenommen wird. Letztlich bestimmt also Context Engineering sogar die Tool-Auswahl.

Gut ist auch, dass der Originaldatensatz offengelegt wurde: https://github.com/amplifying-ai/claude-code-picks

xguru 2026-02-28

Das nennt man wohl Assistive agent optimization (AAO).

Bei Tools für Entwickler ist es inzwischen wichtig geworden, zu einem Produkt zu werden, das Agenten bevorzugen.
Wenn der Agent gar nicht erst darüber spricht, entfernt man sich nach und nach immer weiter davon.

GN⁺ 2026-02-27

Hacker-News-Kommentare

Ich denke, die Zukunft von LLM-Werbung besteht darin, vollständig unsichtbar zu werden
Am Ende wird sie damit zum mächtigsten „Influencer“ überhaupt
Oder vielleicht ist es keine Werbung, sondern eher ein Problem von Interessenkonflikten (conflict of interest)
Zum Beispiel könnte es ein Signal dafür sein, ob Gemini Setups auf GCP-Basis stärker bevorzugt
- LLMs lassen sich schon mit sehr wenigen Daten leicht vergiften (poison)
  Laut Anthropics Forschung gibt es Wege, statt auf SEO auf Sichtbarkeit in LLM-Produkten zu zielen
  1. Hunderte GitHub-Repositories erstellen und dort Beispiele hochladen, die ein bestimmtes Produkt verwenden
  2. Websites mit demselben Inhalt an zahlreiche Domains anbinden
  3. Dieselben Informationen auf Reddit, Facebook, X, Wikipedia usw. verbreiten
    Etwa 6 Monate warten, dann sammeln Crawler das ein und nutzen es als Trainingsdaten → am Ende Profit
- Ich habe kürzlich mit einem Google-Support-Mitarbeiter gesprochen und bekam in einer offenbar von einem LLM erzeugten Antwort Produkte eines Konkurrenten empfohlen
  Wenn dort Gemini im Einsatz gewesen wäre, wäre das vermutlich nicht passiert
- Richard Thaler wäre wohl stolz
  Das ist die ultimative Umsetzung von „Nudge“
- Das Wort „Influencer“ reicht dafür nicht aus
  In Zukunft werden agentische Coding-Systeme selbst entscheiden, was sie bauen, und Menschen werden nur das Ergebnis bekommen, ohne die verworfenen Optionen je zu sehen
  Sogar Lieferketten werden dann von LLMs bestimmt
- Das ähnelt eher dem Walmart-/Amazon-Modell
  Die Plattform kontrolliert das „Regal“ und schaut sich beliebte SaaS-Funktionen an, um dann Eigenmarken zu bauen (z. B. Great Value, Amazon Basics)
  Steuersoftware scheint dafür ein typisches Beispiel zu sein
Interessant ist, dass der in diesem Beitrag erwähnte Webstil von Claude Code sich auf dem betreffenden Blog tatsächlich direkt zeigt
Die Schriftart JetBrains Mono ist ein typisches Merkmal von Webseiten, die Opus 4.6 erzeugt hat
In den letzten 30 Tagen scheinen über 99 % der Webseiten mit übermäßigem Einsatz von JetBrains Mono von Opus generiert worden zu sein
Opus 4.6 hat Drizzle in 32,5 % der Fälle gewählt, Prisma dagegen nur in 20,5 %
Je leistungsfähiger das Modell, desto seltener scheint es Prisma zu wählen — fast wie eine Art Intelligenz-Benchmark
Ein weiteres Beispiel ist youjustneedpostgres.com, wo JetBrains Mono ebenfalls übertrieben stark eingesetzt wird
- Ich hatte einen ganz ähnlichen Eindruck
  Das Design der Kategorieleiste war fast identisch mit einer achtlos generierten UI, die ich gestern erzeugt hatte
- Für mich springt weniger die Schriftart ins Auge als eher der Box-Stil
  Dieses kartenartige CSS fühlt sich überall gleich an, und auch dieser Blog wirkt so gebaut
Ich gebe LLMs keine vagen Prompts
Stattdessen lerne ich im Jahr 2026 gerade neu, wie man präzise Informationen aus LLMs herausbekommt
Es fühlt sich an, als würde ich das Google-Suchen von 2006 noch einmal lernen
Ich nutze Reverse Prompts, damit ein Modell die Hypothesen eines anderen überprüft
Wenn mir zum Beispiel das Ergebnis von Opus 4.6 verdächtig vorkommt, gebe ich es an ChatGPT oder Codex weiter und lasse sie nach Schwachstellen suchen
Claude ist vergleichsweise weniger stur, während ChatGPT oder Codex entschiedener auftreten, aber oft auch genauer sind
Bei einem Docker-Container-Problem meinte Claude tatsächlich, es sei ein ZFS-Bug, während ChatGPT sagte, es sei nur ein einfacher Konfigurationsfehler — und das stimmte
So komme ich durch Cross-Validierung zwischen LLMs zur richtigen Antwort
- Wenn es dich stört, dass ein LLM nicht mehr Fragen zu deiner Aufgabe stellt, kannst du es einfach ausdrücklich darum bitten, dir Fragen zu stellen
  Dann stellt es wirklich sehr viele
- Ich nutze die Technik, Pläne iterativ erstellen zu lassen
  Ich lasse sie so lange überarbeiten, bis ein detaillierter Plan herauskommt, und sie stellen dabei auch mehr notwendige Fragen
- Ich verwende Codex CLI jeden Tag
  Mit meinem ChatGPT-Abo erreiche ich das Limit nicht, aber wenn es gelegentlich Fehler gibt, starte ich Claude in einem anderen Terminal
  Das Claude-Budget meiner Firma ist mit 750 Dollar pro Monat sehr knapp
Ich nutze TimescaleDB auf AWS
Claude Code verwaltet dabei EC2-Instanzen über die AWS CLI
Trotzdem hat Claude heute Morgen vorgeschlagen, NeonDB- und Fly.io-Konten anzulegen
Obwohl mein AWS-Setup bereits gut steht, fand ich diese Empfehlung für neue Dienste seltsam
- Solchen Vorschlägen kann man aber schwer vertrauen
  Meiner Erfahrung nach treffen LLM-Agenten katastrophale Architekturentscheidungen
  Sie sind besessen von unnötigen Abstraktionen und Versionsmanagement, und der Code wird übermäßig kompliziert
  Am Ende muss man den Code doch selbst schreiben
- Ich habe genau dasselbe erlebt
  Ich nutze Planetscale in allen Projekten, aber Claude hat Neon empfohlen
  Das wirkt einfach wie ein Bug
Ich fand es interessant, dass Opus 4.6 als „zukunftsorientiert“ bezeichnet wurde
Ich hatte 4.5 einen Monat lang verwendet und dann mit 4.6 ein neues Projekt begonnen, und in der Planungsphase führte es Websuchen aus
Das Modell ist inzwischen weit genug entwickelt, aber Abstimmung und Rollenverteilung bleiben weiterhin die Kernaufgabe
- Ich sehe das ähnlich
  Früher habe ich mit GPT-3.5 selbst eine Android-App veröffentlicht (App-Link)
  Was damals eine Woche dauerte, geht jetzt mit einem einzigen Prompt
  Wenn man LLMs gut orchestriert, kommt man deutlich schneller zu Ergebnissen
Beim Coden mit LLMs ist mir aufgefallen, wie stark vor allem im Webbereich die Abhängigkeit von npm-Paketen sinkt
Früher habe ich Dinge wie jwt auth oder Build-Plugins verwendet, aber heute kann man vieles durch ein paar Zeilen Code ersetzen
Der Code ist einfacher, leichter zu verstehen und dadurch vertrauenswürdiger
- Eigentlich läuft diese Veränderung schon seit Langem
  2010 war jQuery der König von JS, heute reicht pures JS oft aus
  Sicherheitsrelevanten Code wie etwa für JWT würde ich aber trotzdem nicht ungeprüft aus Claude übernehmen
- Früher wurde viel Code wiederverwendet, aber genau dadurch entstand die Diamond-Dependency-Hölle
  Jetzt ist eine Eigenimplementierung womöglich die bessere Wahl
  Es wird zwar mehr Code-Duplikation geben, aber weniger Abhängigkeitsprobleme
Ich sage Claude immer ausdrücklich, welche Bibliotheken und proprietären Technologien es verwenden soll
Ich denke, Entwickler müssen Modelle gut anleiten können
Wenn ich unsicher bin, frage ich in einem separaten Fenster nach Architektur oder Vor- und Nachteilen und entscheide dann
- Ich frage mich allerdings, was genau mit „proprietäre Technologien festlegen“ gemeint ist
In zwei Projekten hat Claude automatisch GitHub Actions hinzugefügt
Ich hatte gar nicht darum gebeten, und weil es ein versteckter Ordner war, habe ich es im git diff übersehen
Zum Glück waren es nur 4 Cent Kosten, aber es war eine ziemlich beunruhigende Erfahrung
Mich interessiert etwas
Warum hat sich shadcn/ui so sehr als Standard-UI-Bibliothek etabliert?
Nicht nur Claude, auch andere Modelle verwenden es standardmäßig
Wenn man vorgibt, shadcn auszuschließen, leiden dann Qualität oder Geschwindigkeit?
Liegt es vielleicht am Reichtum an Dokumentation und Beispielen, oder einfach daran, dass es in den Trainingsdaten überrepräsentiert ist?
Ich war auch überrascht, als Gemini etwa Mitte 2025 begann, shadcn standardmäßig in React-Dashboards einzubauen
- Vermutlich liegt es an der Synergie mit Tailwind
  shadcn/ui basiert auf Tailwind, deshalb bevorzugt AI es offenbar
  Tatsächlich sind die npm-Downloadzahlen seit Dezember explosionsartig gestiegen
  npm-Paket-Link
- Ich habe mich dasselbe gefragt
  Es gibt viele ältere Komponentenbibliotheken, also wäre es eine wissenschaftliche Analyse wert, warum gerade diese gewonnen hat
- Ich habe shadcn schon vor den Agenten genutzt
  Die Komponenten sind konsistent und leicht anzupassen, wodurch sich die Integration ins Projekt vereinfacht
  Es ist wirklich ein sehr gut gemachtes Projekt
Wenn ich heute Websites sehe, die den shadcn-Standardstil unverändert nutzen, wirkt das auf mich wie ein Signal für eine von AI erstellte Website
So wie vor 10 Jahren bei Bootstrap sind die Standardstile einfach zu verbreitet
- Aber nutzen nicht die meisten Menschen ebenfalls einfach die Standardstile?
  Wäre das dann wirklich zwingend eine Spur von AI?
  Ich frage mich, was mit der Analogie zu „Bootstrap vor 10 Jahren“ genau gemeint ist