16 Punkte von GN⁺ 2025-09-22 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Angesichts der breiten Einführung von AI-Coding-Tools und steigender Kosten fassen bekannte Technologieunternehmen die Methoden zur Quantifizierung des tatsächlichen Nutzens von AI in einem mehrschichtigen Kennzahlensystem zusammen
  • Im Kern steht ein hybrider Ansatz, bei dem sowohl bestehende grundlegende Engineering-Metriken (z. B. PR-Durchsatz, Change Failure Rate) als auch AI-spezifische Kennzahlen (z. B. AI-Nutzungsrate, Zeitersparnis, CSAT) gemeinsam verfolgt werden
  • Betont wird eine experimentelle Denkweise, die Trends und Korrelationen durch Aufschlüsselung nach dem AI-Nutzungsniveau auf Team-, Einzel- und Kohortenebene sowie durch Vorher-Nachher-Vergleiche ableitet
  • Erforderlich ist ein ausgewogenes Design, das Qualität, Wartbarkeit und Developer Experience fortlaufend zusammen mit Geschwindigkeitsmetriken überwacht, um wachsende technische Schulden und negative Nebenwirkungen kurzfristiger Vorteile zu vermeiden
  • Langfristig wird eine Ausweitung der Messung auf Agenten-Telemetrie aus der Ferne und nicht codierende Arbeitsbereiche erwartet; letztlich läuft die Frage darauf hinaus, ob AI das, was bereits wichtig ist (Qualität, Time-to-Market, Developer Experience), tatsächlich verbessert

AI-Impact-Diskurs und Messlücke

  • Wie man etwa auf LinkedIn häufig sieht, gibt es unzählige Behauptungen, dass AI die Art verändert, wie Unternehmen Software entwickeln
  • Die Medien reduzieren den AI-Impact oft vereinfacht auf „wie viel Code geschrieben wurde“, doch dadurch steht die Branche vor dem Risiko, technische Schulden in beispiellosem Ausmaß anzuhäufen
  • Obwohl Einigkeit darüber bestand, dass LOC (Zeilenanzahl) als Produktivitätsmetrik ungeeignet ist, erlebt sie wegen ihrer leichten Messbarkeit ein Comeback, wodurch wesentliche Werte wie Qualität, Innovation, Time-to-Market und Zuverlässigkeit in den Hintergrund geraten
  • Viele Engineering-Führungskräfte treffen derzeit wichtige Entscheidungen über AI-Tools, ohne klar zu wissen, was funktioniert und was nicht
    • Laut dem LeadDev 2025 AI Impact Report nennen 60 % der Führungskräfte das „Fehlen klarer Kennzahlen“ als größte Herausforderung
    • Führungskräfte vor Ort zeigen sich frustriert zwischen Ergebnisdruck und auf LOC fixierten Führungsetagen, und die Lücke zwischen benötigten Informationen und tatsächlicher Messung wird immer größer
  • Der Autor erforscht seit mehr als zehn Jahren Developer-Tools und berät seit 2021 zu Produktivitätssteigerung und Messung des AI-Impacts
    • Seit dem Einstieg als DX CTO hat er mit Hunderten Unternehmen zusammengearbeitet und Analysen zu DevEx, Effizienz und AI-Einfluss geleitet
  • Anfang 2025 verfasste er auf Basis von Daten aus mehr als 400 Unternehmen das AI Measurement Framework mit
    • Dabei handelt es sich um einen empfohlenen Satz von Kennzahlen für die Einführung von AI und die Messung ihrer Auswirkungen, aufgebaut auf Feldforschung und Datenanalyse
  • In diesem Beitrag wird betrachtet, wie 18 Tech-Unternehmen den AI-Impact tatsächlich messen, und es werden
    • konkrete Kennzahlenbeispiele von Google, GitHub, Microsoft und anderen
    • Anwendungsweisen, um zu erkennen, was wirksam ist
    • Methoden zur Messung des AI-Impacts
    • sowie Definitionen und Leitfäden zu AI-Impact-Kennzahlen vorgestellt

1. Tatsächliche Messgrößen in 18 Unternehmen

  • Beispiele aus 18 Unternehmen wie Google, GitHub, Microsoft, Dropbox, Monzo, Atlassian, Adyen, Booking.com und Grammarly werden als Bild geteilt
  • Die Unternehmen verfolgen unterschiedliche Ansätze, konzentrieren sich aber gemeinsam auf einige zentrale Kennzahlengruppen
  • 1. Nutzungskennzahlen (Adoption & Usage)

    • DAU/WAU/MAU: Fast alle Unternehmen verfolgen die täglich, wöchentlich und monatlich aktiven Nutzer von AI-Tools
    • Nutzungsintensität/Nutzungsereignisse: Google, eBay und andere differenzieren bis hin zu Codeerstellung, Chat-Antworten und agentic actions
    • AI tool CSAT: Viele Unternehmen wie Dropbox, Webflow und Grammarly kombinieren dies mit Zufriedenheitsumfragen
  • 2. Produktivitätskennzahlen (Throughput & Time Savings)

    • PR-Durchsatz (PR throughput): Wird von vielen Unternehmen wie GitHub, Dropbox, Webflow und CircleCI gemeinsam verfolgt
    • Zeitersparnis (Time savings): Messung der wöchentlich eingesparten Zeit pro Engineer (Dropbox, Monzo, Toast, Xero usw.)
    • PR Cycle Time: Im Einsatz bei Microsoft, CircleCI, Xero, Grammarly und anderen
  • 3. Qualitäts-/Stabilitätskennzahlen (Quality & Reliability)

    • Change Failure Rate: Die häufigste Qualitätsmetrik bei GitHub, Dropbox, Adyen, Booking.com, Webflow und anderen
    • Wahrgenommene Wartbarkeit/Codequalität: Bewertung bei GitHub, Adyen, CircleCI und anderen in Verbindung mit DevEx
    • Bugs/Revert-Rate: Glassdoor (Anzahl der Bugs), Toast (PR revert rate)
  • 4. Kennzahlen zur Developer Experience (Developer Experience)

    • Developer-Zufriedenheit/Umfragen (DevEx, DXI): Im Einsatz bei Atlassian, Webflow, CarGurus, Vanguard und anderen
    • Bad Developer Days (BDD): Microsoft misst Reibung auf originelle Weise mit dem Konzept „schlechter Entwicklertag“
    • Kognitive Last und Developer Friction: Bei Google, eBay und anderen
  • 5. Kosten- und Investitionskennzahlen (Spend & ROI)

    • AI-Ausgaben (gesamt & pro Entwickler): Einige Unternehmen verfolgen die Kosten, etwa in Fällen von Dropbox, Grammarly und Shopify
    • Capacity worked (Auslastung): Glassdoor misst, wie stark das Tool im Verhältnis zu seinem maximalen Potenzial genutzt wurde
  • 6. Kennzahlen zu Innovation/Experimenten (Innovation & Experimentation)

    • Innovation ratio / velocity: GitHub, Microsoft, Webflow und andere fassen Innovationstempo in Kennzahlen
    • Anzahl der A/B-Tests: Glassdoor nutzt die monatliche Zahl der A/B-Tests als zentrale Kennzahl
  • Ergebniskennzahlen wie Zeitersparnis, PR-Durchsatz, Change Failure Rate, aktive Nutzer und Innovationsrate werden parallel zu Kennzahlen des Nutzungsverhaltens verfolgt
  • Je nach Prioritäten der Organisation und Produktkontext unterscheidet sich die Zusammenstellung der Kennzahlen; eine einzige universelle Kennzahl gibt es nicht

2. Robuste Grundlage: Der Kern der Messung von AI-Impact

  • Dass Code mit KI geschrieben wird, ändert nichts an den Maßstäben für gute Software. Qualität, Wartbarkeit und Geschwindigkeit bleiben entscheidend
    • Daher bleiben bestehende Kennzahlen wie Change Failure Rate, PR Throughput, PR Cycle Time und Developer Experience (DevEx) weiterhin wichtig
  • Völlig neue Kennzahlen sind nicht nötig
    • Die wichtige Frage lautet: „Macht KI die Dinge, die schon bisher wichtig waren, tatsächlich besser?“
    • Wer bei oberflächlichen Kennzahlen wie LOC oder Akzeptanzrate stehen bleibt, kann den Einfluss von KI nicht richtig erfassen
  • Um genau zu verstehen, was bei der KI-Nutzung passiert, sind neue Zielmetriken nötig
    • Sie zeigen, wo, in welchem Umfang und auf welche Weise KI eingesetzt wird, und können für Entscheidungen zu Budget, Tool-Rollout, Sicherheit und Compliance genutzt werden
  • KI-Metriken zeigen zum Beispiel:
    • Wie viele Entwickler und welche Typen von Entwicklern setzen KI-Tools ein?
    • Wie viele Aufgaben und welche Arten von Aufgaben werden von KI beeinflusst?
    • Wie hoch sind die Kosten?
  • Zentrale Engineering-Kennzahlen zeigen zum Beispiel:
    • Ob Teams schneller shippen
    • Ob Qualität und Zuverlässigkeit steigen oder sinken
    • Ob die Wartbarkeit des Codes abnimmt
    • Ob KI-Tools Reibung im Entwickler-Workflow verringern
  • Am Beispiel Dropbox

    • KI-Kennzahlen
      • DAU/WAU (täglich bzw. wöchentlich aktive Nutzer)
      • AI tool CSAT (Zufriedenheit)
      • Zeitersparnis pro Engineer
      • KI-Ausgaben
    • Kernkennzahlen (mit dem Core 4 Framework)
      • Change Failure Rate
      • PR Throughput
    • Ergebnisse
      • Wöchentliche regelmäßige KI-Nutzer = 90 % aller Engineers (höher als der Branchendurchschnitt von 50 %)
      • Regelmäßige KI-Nutzer verzeichneten 20 % mehr PR-Merges + eine niedrigere Change Failure Rate
      • Entscheidend ist nicht die Adoptionsrate an sich, sondern ob sie tatsächlich zu besseren Ergebnissen auf Organisations-, Team- und Individualebene beiträgt

3. Aufschlüsselung von Kennzahlen nach dem Ausmaß der KI-Nutzung

  • Um zu verstehen, wie KI die Arbeitsweise von Entwicklern verändert, werden verschiedene Vergleichsanalysen durchgeführt
    • Vergleich von KI-Nutzern und Nichtnutzern
    • Vergleich zentraler Engineering-Kennzahlen vor und nach der Einführung von KI-Tools
    • Beobachtung von Veränderungen nach der KI-Einführung durch Verfolgung derselben Nutzergruppe (cohort analysis)
  • Durch die Segmentierung der Daten (slicing & dicing) werden Muster sichtbar
    • Analyse nach Merkmalen wie Rolle, Betriebszugehörigkeit, Region oder primärer Sprache
    • Beispiel: Bei Juniors steigt die Zahl der PR-Erstellungen, während sich Seniors wegen eines höheren Review-Anteils verlangsamen
    • So lassen sich Gruppen mit zusätzlichem Schulungs- und Unterstützungsbedarf sowie Gruppen mit besonders hohem Nutzen durch KI identifizieren
    • Beispiel Webflow
      • In der Gruppe mit mehr als drei Jahren Betriebszugehörigkeit war der Zeitspareffekt durch KI am größten
      • Beim Einsatz von Tools wie Cursor und Augment Code stieg der PR Throughput um 20 % (Vergleich KI-Nutzer vs. Nichtnutzer)
  • Die Notwendigkeit einer belastbaren Baseline
    • Für Organisationen ohne Grundlage bei Kennzahlen zur Entwicklerproduktivität ist es schwierig, den KI-Einfluss zu messen
    • Mit dem Core 4 Framework (genutzt von Dropbox, Adyen, Booking.com u. a.) lässt sich schnell eine Basislinie schaffen
    • Durch die gemeinsame Nutzung von Systemdaten, Experience-Sampling-Daten und regelmäßigen Umfragen werden belastbare Vergleiche möglich
  • Kontinuierliches Tracking und experimentelles Denken sind entscheidend
    • Eine einmalige Messung ist wenig aussagekräftig; Trends und Muster müssen durch Zeitreihenverfolgung erkannt werden
    • Gemeinsamkeit erfolgreicher Unternehmen: Sie setzen konkrete Ziele und prüfen Hypothesen anhand von Daten
    • Dabei verlassen sie sich nicht blind auf Daten, sondern behalten eine zielorientierte experimentelle Denkweise bei

4. Wachsamkeit bei Wartbarkeit, Qualität und Developer Experience

  • KI-gestützte Entwicklung ist weiterhin ein neues Feld
    • Es fehlen noch Daten, die die langfristigen Auswirkungen auf Codequalität und Wartbarkeit belegen
    • Die Balance zwischen kurzfristigen Geschwindigkeitsgewinnen und dem Risiko langfristiger technischer Schulden ist die zentrale Herausforderung
  • Es sollten auch gegenläufige Kennzahlen gemeinsam verfolgt werden
    • Die meisten Unternehmen verfolgen Change Failure Rate und PR Throughput gleichzeitig
    • Wenn die Geschwindigkeit steigt, aber die Qualität sinkt, ist das ein sofortiges Warnsignal
    • Zusätzliche Kennzahlen zur Überwachung von Qualität und Wartbarkeit
      • Change confidence: das Vertrauen der Entwickler in die Stabilität des Codes beim Deployment
      • Code maintainability: wie leicht sich Code verstehen und ändern lässt
      • Perception of quality: die Wahrnehmung der Entwickler hinsichtlich Codequalität und Praktiken auf Teamebene
  • Systemkennzahlen und selbstberichtete Kennzahlen müssen kombiniert werden
    • Systemdaten: PR Throughput, Deployment-Frequenz usw.
    • Selbstberichtete Daten: Änderungsvertrauen, Wartbarkeit usw. → ein zentrales Signal, um langfristige negative Auswirkungen zu verhindern
  • Regelmäßige Umfragen zur Developer Experience (DevEx) werden empfohlen
    • Mit dem Beispiel für eine Umfrage lässt sich der Zusammenhang zwischen Qualität, Wartbarkeit und KI-Nutzung verfolgen
    • Auch unstrukturiertes Feedback ist nützlich, um bestehende Probleme zu erkennen und Lösungen zu diskutieren
  • Was Developer Experience (DevEx) tatsächlich bedeutet
    • Nicht Benefits wie „Tischtennis und Bier“, sondern die Beseitigung von Reibung im gesamten Entwicklungsprozess
    • Ziel ist Effizienz über den gesamten Ablauf hinweg: Planung → Entwicklung → Test → Deployment → Betrieb
    • KI-Tools können die Reibung beim Schreiben von Code und beim Testen verringern, bergen aber das Risiko, neue Reibung bei Reviews, Incident Response und Wartung hinzuzufügen
  • Praxis-Insight (CircleCI, Shelly Stuart)
    • Output-Kennzahlen (PR Throughput) zeigen, was passiert, aber die Zufriedenheit der Entwickler zeigt die Nachhaltigkeit
    • Die Einführung von KI kann anfangs Unannehmlichkeiten verursachen; deshalb ist das Tracking der Zufriedenheit ein zentrales Werkzeug, um kurzfristige Reibung von langfristigem Nutzen zu unterscheiden
    • 75 % der Unternehmen verfolgen zusätzlich CSAT/Zufriedenheit mit KI-Tools → der Fokus liegt stärker auf einer nachhaltigen Entwicklungskultur als nur auf Geschwindigkeit

5. Einzigartige Kennzahlen und interessante Trends

  • Microsoft: Bad Developer Day (BDD)
    • Ein Konzept zur Echtzeitmessung von Reibung und Ermüdung im Arbeitsalltag
    • Faktoren, die einen Tag schlecht machen, sind etwa Incident Response und Compliance-Bearbeitung, die Wechselkosten zwischen Meetings und E-Mails sowie die für Work-Management-Systeme aufgewendete Zeit
    • In Kombination mit PR-Aktivitäten (ein Proxy für Coding-Zeit) wird ein Tag als gut bewertet, wenn trotz einiger geringwertiger Aufgaben eine gewisse Zeit fürs Coding gesichert werden konnte
    • Ziel: zu prüfen, ob AI-Tools die Häufigkeit und Schwere von BDD verringern
  • Glassdoor: Experimente und Messung der Tool-Nutzungsrate
    • Über die monatliche Anzahl von A/B-Tests wird verfolgt, ob AI das Innovationstempo und die Geschwindigkeit von Experimenten erhöht
    • Parallel dazu wird eine Strategie verfolgt, Power User zu internen AI-Evangelisten aufzubauen
    • Capacity worked (Nutzungsgrad): Gemessen wird die tatsächliche Nutzung im Verhältnis zur potenziellen Nutzung eines Tools, um den Sättigungspunkt der Einführung und mögliche Umschichtungen im Budget zu beurteilen
  • Rückgang der Acceptance Rate
    • Früher war sie eine zentrale AI-Kennzahl, ihr Blickwinkel ist jedoch zu eng, da sie nur den Moment der Annahme eines Vorschlags betrachtet
    • Wartbarkeit, Bug-Entstehung, Code-Reverts und das subjektive Produktivitätsempfinden von Entwicklern werden darin nicht erfasst
    • Heute wird sie meist nicht mehr als Top-Level-Metrik verwendet, es gibt aber Ausnahmen:
      • GitHub: Nutzung zur Verbesserung von Copilot und für Produktentscheidungen
      • T-Mobile: Abschätzung, in welchem Maß AI-Code tatsächlich in die Produktion gelangt
      • Atlassian: Verwendung als ergänzende Kennzahl für Entwicklerzufriedenheit und Vorschlagsqualität
  • Kosten- und Investitionsanalyse
    • Die meisten Unternehmen verfolgen die Nutzungskosten nicht aktiv, um keine abschreckende Wirkung auf Entwickler zu erzeugen
    • Shopify setzt mit dem AI Leaderboard darauf, Entwickler mit hohem Token-Verbrauch zu würdigen
    • ICONIQ 2025 State of AI Report: Es wird erwartet, dass sich das Budget für AI-Produktivität in Unternehmen 2025 gegenüber 2024 verdoppelt
      • Teilweise erfolgt der Wandel dadurch, dass Recruiting-Budgets gekürzt und AI-Tool-Budgets entsprechend aufgestockt werden
  • Fehlende Agenten-Telemetrie
    • Derzeit wird hier kaum gemessen, eine Einführung innerhalb der nächsten 12 Monate gilt jedoch als wahrscheinlich
    • Mit der Verbreitung autonomer Agent-Workflows wächst der Bedarf, Verhalten, Genauigkeit und Regressionsraten zu messen
  • Mangelnde Messung nicht codierbezogener Aktivitäten
    • Der Fokus liegt derzeit auf Unterstützung beim Schreiben von Code; Dinge wie Planungs-Sessions mit ChatGPT oder die Bearbeitung von Jira-Issues sind kaum einbezogen
    • 2026 dürfte sich der AI-Einsatz auf alle Phasen des SDLC ausweiten, entsprechend muss sich auch die Messung weiterentwickeln
    • Konkrete Aktivitäten wie Code Review oder Schwachstellenprüfungen sind leicht messbar, abstraktere Aufgaben dagegen schwer
    • Es wird erwartet, dass sich der Einsatz selbstberichteter Messungen („Wie viel Zeit haben Sie diese Woche durch AI gespart?“) ausweitet

6. Wie sollte der AI-Impact gemessen werden?

  • AI Measurement Framework
    • Gemeinsam mit Abi Noda, Co-Autor des DevEx Framework, entwickelt
    • Basierend auf Praxidaten aus über 400 Unternehmen und Forschung zur Entwicklerproduktivität aus den vergangenen gut zehn Jahren erstellt
    • Bewertet durch die Kombination von AI-Metriken und Core Metrics gemeinsam Geschwindigkeit, Qualität, Wartbarkeit und Developer Experience (DevEx)
    • Eine einzelne Kennzahl (z. B. der Anteil von AI-generiertem Code) eignet sich für Headline-Zahlen, ist aber kein ausreichendes Mittel zur Erfolgsmessung
  • Qualitative + quantitative Daten müssen gemeinsam genutzt werden
    • Nur wenn sowohl Systemmetriken (PR-Durchsatz, DAU/WAU, Deployment-Frequenz usw.) als auch selbstberichtete Kennzahlen (CSAT, Zeitersparnis, wahrgenommene Wartbarkeit usw.) erhoben werden, ist ein mehrdimensionales Verständnis möglich
    • Viele Unternehmen nutzen DX zur Datenerhebung und Visualisierung, der Aufbau eigener Systeme ist ebenfalls möglich
  • Methoden der Datenerhebung
    • Systemdaten (quantitativ): Management-APIs von AI-Tools (Nutzung, Ausgaben, Tokens, Acceptance Rate) plus Kennzahlen aus SCM, JIRA, CI/CD, Builds und Incident Management
    • Regelmäßige Umfragen (qualitativ): Quartals- oder Halbjahresumfragen helfen, langfristige Trends bei DevEx, Zufriedenheit, Vertrauen in Änderungen und Wartbarkeit zu erkennen, die sich über Systemmetriken schwer erfassen lassen
    • Experience Sampling (qualitativ): kurze Fragen direkt im Workflow einblenden (z. B. direkt nach dem Einreichen eines PR: „Haben Sie AI verwendet?“, „War dieser Code leicht verständlich?“)
  • Prioritäten bei der Umsetzung
    • Regelmäßige Umfragen sind der schnellste Einstiegspunkt: Erste Daten lassen sich innerhalb von 1 bis 2 Wochen gewinnen
    • So wie beim Aufhängen eines Vorhangs und beim Start einer Rakete unterschiedliche Präzision nötig ist, sind auch Engineering-Entscheidungen schon mit einer Genauigkeit sinnvoll, die ausreichend Richtung vorgibt
    • Werden anschließend weitere Methoden der Datenerhebung kombiniert und gegengeprüft, steigt die Verlässlichkeit
  • Zusätzliche Ressourcen
  • Worauf bei der internen Anwendung zu achten ist
    • Es sollte nicht darum gehen, Adoptionsraten oder einer einzelnen Kennzahl hinterherzulaufen, sondern zu prüfen, ob sich die Fähigkeit verbessert, hochwertige Software schnell an Kunden auszuliefern
    • Die Schlüsselfrage lautet:
      > „Macht AI das, was bereits wichtig ist (Qualität, Release-Geschwindigkeit, Developer Experience), tatsächlich besser?“
    • Fragen für Leadership-Meetings:
      • Wie definieren wir in unserer Organisation Engineering-Erfolg?
      • Liegen uns Leistungsdaten aus der Zeit vor der Einführung von AI-Tools vor? Falls nicht, wie schaffen wir schnell eine Baseline?
      • Verwechseln wir AI-Aktivität mit AI-Impact?
      • Halten wir die Balance zwischen Geschwindigkeit, Qualität und Wartbarkeit?
      • Zeigt sich bereits ein Einfluss auf die Developer Experience?
      • Betreiben wir einen mehrschichtigen Messansatz, der sowohl Systemdaten als auch selbstberichtete Daten umfasst?

7. Wie Monzo den AI-Impact misst

  • Frühe Einführungsphase
    • Das erste Tool war GitHub Copilot. Es war in der GitHub-Lizenz enthalten und fügte sich nahtlos in VS Code ein, sodass alle Engineers sofort damit arbeiten konnten.
    • Danach wurden verschiedene Tools wie Cursor, Windsurf und Claude Code parallel getestet, während weiterhin vor allem in Copilot investiert wurde.
  • Philosophie bei der Bewertung von AI-Tools
    • In einem sich schnell wandelnden Tool-Ökosystem ist eigene praktische Erfahrung unverzichtbar.
    • Erst wenn Teammitglieder AI täglich auf echten Code anwenden und sogar Agent-Konfigurationsdateien selbst erstellen und nutzen, lässt sich die Leistungsfähigkeit beurteilen.
    • Bei der Bewertung werden objektive Kennzahlen (Nutzung, Performance) und subjektive Umfragen (Zufriedenheit mit der DX) parallel genutzt.
  • Wirkung und wahrgenommener Nutzen
    • Engineers haben das Gefühl, dass AI Dokumentensuche, Zusammenfassungen und Codeverständnis erleichtert und damit die kognitive Belastung reduziert.
    • In einem wettbewerbsintensiven Talentmarkt besteht ohne die besten Tools das Risiko, Entwickler zu verlieren → schon die Bereitstellung der Tools ist eine Strategie zur Mitarbeiterbindung.
  • Schwierigkeiten bei der Messung
    • Die von den Anbietern gelieferten Zahlen bleiben auf begrenzte Kennzahlen wie Akzeptanzraten beschränkt, während der echte Business-Impact schwer zu erfassen ist.
    • Auch eine exakte Überprüfung per A/B-Test ist in der Praxis kaum möglich.
    • Nutzungsdaten aus verschiedenen Tools (GitHub, Gemini, Slack, Notion usw.) lassen sich nur schwer zusammenführen → Telemetry-Beschränkungen und Vendor Lock-in sind die wichtigsten Hindernisse.
    • Deshalb ist derzeit vor allem das subjektive Empfinden der Entwickler das zentrale Signal.
  • Bereiche, in denen es gut funktioniert
    • Migrationen zeigen große Wirkung: Bei Codeänderungsarbeiten wird eine Reduktion des Aufwands um 40 bis 60 % wahrgenommen.
    • Bei repetitiven, manuellen Aufgaben wie dem Kommentieren von Datenmodellen erstellt das LLM einen ersten Entwurf, den Engineers anschließend überarbeiten → erhebliche Arbeitseinsparungen im großen Maßstab.
  • Unerwartete Erkenntnisse
    • Geringes Bewusstsein für LLM-Kosten: Wer die Abrechnungen mit dem tatsächlichen Token-Verbrauch sieht, würde den Optimierungsbedarf viel deutlicher spüren.
    • Beispiel: Automatische Code-Reviews in Copilot verbrauchen viele Tokens und bringen wenig Nutzen, daher sind sie standardmäßig deaktiviert und werden bei Bedarf per Opt-in aktiviert.
  • Bereiche, in denen AI nicht eingesetzt wird
    • Kundendatenbezogene Bereiche: Weder Rohdaten noch de-identifizierte Daten dürfen mit AI verarbeitet werden.
    • In sensiblen Datenbereichen hat die Vermeidung von Datenlecks oberste Priorität.
  • Philosophie des Platform-Teams
    • Guardrails bereitstellen: eine sichere Nutzungsumgebung schaffen, etwa zum Schutz von Daten.
    • Beispiele teilen: Erfolgs- und Misserfolgsfälle sowie Erfahrungen mit Prompts transparent offenlegen.
    • Doppelseitigkeit betonen: Sowohl Positives als auch Negatives teilen und so eine ausgewogene Perspektive bewahren.
    • An die Grenzen von LLMs erinnern: Darauf hinweisen, dass AI wie Menschen Grenzen hat und daher nicht überschätzt werden sollte.

Fazit und Implikationen

  • Die Messung des AI-Impacts ist noch ein sehr neues Feld
    • In der Branche gibt es keine „beste Methodik“.
    • Selbst Unternehmen mit ähnlicher Größe und Marktposition wie Microsoft und Google verwenden unterschiedliche Kennzahlen.
    • Jedes Unternehmen hat seinen eigenen Ansatz und seinen eigenen „Flavor“.
  • Widersprüchliche Kennzahlen gleichzeitig zu messen, ist üblich
    • Ein typisches Beispiel ist die gleichzeitige Verfolgung von Change Failure Rate (Zuverlässigkeit) und PR-Frequenz (Geschwindigkeit).
    • Schnelle Releases sind nur dann sinnvoll, wenn sie die Zuverlässigkeit nicht beeinträchtigen; deshalb müssen beide Achsen ausgewogen gemessen werden.
  • Die Messung des Impacts von AI-Tools ist eine ähnlich schwierige Aufgabe wie die Messung von Entwicklerproduktivität
    • Die Branche ringt seit mehr als zehn Jahren mit der Messung von Produktivität.
    • Keine einzelne Kennzahl kann die Produktivität eines Teams erklären, und die Optimierung auf eine bestimmte Metrik erhöht die tatsächliche Produktivität nicht automatisch.
    • McKinsey erklärte 2023, das Problem der Produktivitätsmessung „gelöst“ zu haben, doch Kent Beck und der Autor vertreten dazu eine skeptische Position → Gegenartikel
  • Es gibt noch keine klare Lösung, aber Experimente sind notwendig
    • Solange die Messung von Produktivität nicht vollständig gelöst ist, wird sich auch die Messung des Impacts von AI-Tools kaum vollständig lösen lassen.
    • Trotzdem muss weiter experimentiert und mit neuen Ansätzen gearbeitet werden, um die Frage zu beantworten: „Wie verändern AI-Coding-Tools die tägliche und monatliche Effizienz von Einzelpersonen, Teams und Unternehmen?“

Noch keine Kommentare.

Noch keine Kommentare.