3 Punkte von GN⁺ 9 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Der AI Index 2026 ist ein Bericht, der die gesamtwirtschaftlichen und technischen Trends der KI anhand von Kennzahlen wie Benchmark-Leistung, Investitionen, öffentlicher Wahrnehmung, Compute und CO₂-Emissionen zusammenfasst
  • Die Veröffentlichung bemerkenswerter KI-Modelle wurde weiterhin von den USA und der Industrie dominiert, während China bei der Installation von Industrierobotern einen klaren Vorsprung verzeichnete
  • Die weltweite KI-Compute-Kapazität ist seit 2022 jedes Jahr auf mehr als das Dreifache gestiegen, und Nvidia-GPUs machen derzeit mehr als 60 Prozent der Gesamtkapazität aus
  • Die Benchmark-Leistung von multimodalen LLMs und agentic AI stieg schnell, doch bei allgemeinen Aufgaben wie dem Ablesen analoger Uhren bleibt die Genauigkeit niedrig
  • Die KI-Investitionen erreichten 2025 mit mehr als 581 Milliarden US-Dollar einen Höchststand, während sich Auswirkungen auf Beschäftigung, Vertrauen in Regulierung und öffentliche Akzeptanz je nach Land und Kennzahl stark unterschieden

Zentrale Kennzahlen des AI Index Report 2026

  • Der über 400 Seiten starke AI Index 2026 von Stanford fasst den Zustand der KI aus verschiedenen Perspektiven zusammen, darunter Benchmark-Werte, Investitionen und öffentliche Wahrnehmung
  • Die Leistung führender KI-Modelle beschleunigt sich weiter, und große KI-Unternehmen wie OpenAI und Anthropic steuern in der zweiten Jahreshälfte auf einen IPO zu
  • Zugleich hält die Abneigung gegenüber KI an; insbesondere in den USA beginnen Kommunalverwaltungen, Beschränkungen oder vollständige Verbote für neue Rechenzentren zu akzeptieren
  • In Fortsetzung der Berichterstattung zu den Vorjahren von 2021 bis 2025 werden hier ausgewählte Trends verdichtet, die den Stand der KI im Jahr 2026 zusammenfassen

Die Dominanz der USA bei KI-Modellen

  • Die USA haben in den vergangenen zehn Jahren die Veröffentlichung bemerkenswerter KI-Modelle angeführt und setzten diesen Trend auch 2025 fort
    • Laut Epoch AI veröffentlichten US-basierte Organisationen 2025 50 bemerkenswerte Modelle
    • China beginnt, den Abstand bei der Zahl der Veröffentlichungen zu verringern
  • Fast alle bemerkenswerten Modelle stammen aus der Industrie
    • 2025 entfielen auf die Industrie 87 Veröffentlichungen bemerkenswerter Modelle
    • Alle anderen Quellen zusammen, einschließlich Hochschulen und Regierungsinstitutionen, kamen auf 7
  • Der Anteil der Industrie ist langfristig stark gewachsen
    • Von der Industrie veröffentlichte Modelle machen inzwischen mehr als 90 Prozent aller bemerkenswerten Modelle aus
    • 2015 waren es weniger als 50 Prozent, 2003 noch 0

Chinas Vorsprung bei der Robotik-Einführung

  • Während US-Unternehmen bei der Zahl bemerkenswerter KI-Modelle vorne liegen, hat China bei der Robotik-Einführung einen klaren Vorsprung
    • Nach Daten der International Federation of Robotics installierte China 2024 295.000 Industrieroboter
    • Japan installierte etwa 44.500, die USA 34.200

Rasantes Wachstum der weltweiten KI-Compute-Kapazität

  • Der Indikator für die gesamte KI-Compute-Kapazität von Epoch AI wird als zentrale Kennzahl für den Ausbau der KI-Infrastruktur vorgestellt
  • In einer Grafik, die sich an der H100e-Leistung von Nvidia orientiert, stieg die weltweite KI-Compute-Kapazität seit 2022 jedes Jahr auf mehr als das Dreifache
    • Nimmt man 2021 als erstes Beobachtungsjahr, ist die gesamte KI-Compute-Kapazität um das 30-Fache gestiegen
  • Nvidia war der größte Nutznießer dieses Ausbaus
    • Nvidia-GPUs machen derzeit mehr als 60 Prozent der weltweiten gesamten KI-Compute-Kapazität aus
    • Dahinter folgen Amazon und Google, die eigene KI-Hardware entwickeln

CO₂-Emissionen von KI-Training und Inferenz

  • Die CO₂-Emissionen des KI-Trainings waren bereits in den Vorjahren ein Thema und bleiben auch 2026 Anlass zur Sorge
  • Das Training aktueller Frontier-Large Language Models wird auf sehr hohe Emissionen geschätzt
    • Die geschätzten Emissionen für das Training von xAIs Grok 4 liegen bei mehr als 72.000 Tonnen CO₂-Äquivalent
    • Für OpenAIs GPT-4 werden 5.184 Tonnen, für Meta Llama 3.1 405B 8.930 Tonnen geschätzt
  • Ray Perrault weist darauf hin, dass es sich hierbei um Schätzwerte handelt und bei der Interpretation Vorsicht geboten ist
    • “These estimates should be interpreted with caution”
    • Im Fall von Grok bestehen Unsicherheiten, da die Eingabewerte stark aus einem Forbes-Artikel, Aussagen von xAI und anderen nicht verifizierbaren Quellen abgeleitet wurden
    • Epoch AI schätzt die Emissionen von Grok 4 unabhängig davon mit rund 140.000 Tonnen CO₂ noch höher ein
  • Auch die Inferenz-Emissionen von KI steigen, und die Unterschiede zwischen Modellen sind groß
    • Das ineffizienteste Inferenzmodell verursacht mehr als zehnmal so viele Emissionen wie das effizienteste
    • Für DeepSeek V3 wird bei Antworten auf Prompts mittlerer Länge ein Verbrauch von etwa 23 Watt geschätzt
    • Für Claude 4 Opus werden etwa 5 Watt geschätzt

Beschleunigte Benchmark-Leistung von LLMs

  • In den vergangenen zehn Jahren hat sich die Leistung von KI-Modellen sehr schnell verbessert, und in den Grafiken wirkt das Tempo dieses Fortschritts weiter beschleunigt
  • Besonders multimodale LLMs machen so schnelle Fortschritte, dass sie neu geschaffene Benchmarks nahezu sofort meistern
  • Im Bereich agentic AI ist der Anstieg am steilsten
    • Die zwei steilen Linien am rechten Rand des Diagramms stehen für den OSWorld benchmark, der autonome Computernutzung bewertet
    • sowie für SWE-Bench Verified, den Software-Engineering-Benchmark zur Bewertung autonomen Codings
  • Auch bei Humanity’s Last Exam steigt die Leistung schnell
    • Im Stanford AI Index 2025 lag die Trefferquote des erstplatzierten Modells OpenAI o1 bei 8,8 Prozent
    • Danach stieg die Genauigkeit auf 38,3 Prozent
    • Stand April 2026 erzielten Topmodelle wie Anthropic Claude Opus 4.6 und Google Gemini 3.1 Pro mehr als 50 Prozent
  • Ray Perrault mahnt zur Vorsicht bei der Beziehung zwischen Benchmark- und realer Leistung
    • “We generally lack measures of how well a system (or agent) needs to function in a particular setting”
    • Eine Genauigkeit von 75 Prozent in einem Benchmark für juristisches Schlussfolgern sage noch wenig darüber aus, ob ein System für die Praxis in einer Kanzlei geeignet sei

Mehr KI-Forschung im Gesundheitswesen

  • Die Einführung von KI in der medizinischen Forschung nimmt schnell zu
  • Die Zahl der Publikationen zur KI-basierten Arzneimittelentwicklung hat sich in den vergangenen zwei Jahren mehr als verdoppelt
  • Die Zahl der Arbeiten zu multimodaler biomedizinischer KI, die medizinische Bilder und Texte gemeinsam verarbeiten, ist gegenüber vor zwei Jahren auf das 2,7-Fache gestiegen

Grenzen beim Ablesen analoger Uhren

  • Trotz der rasanten Fortschritte in manchen Bereichen bleiben Schwächen bei allgemeinen Aufgaben wie dem Ablesen analoger Uhren und dem Verständnis von Kalendern bestehen
  • Im ClockBench, der die Fähigkeit multimodaler LLMs zum Erkennen analoger Uhren misst, liegt selbst das beste Modell nur bei einer Erfolgswahrscheinlichkeit von etwa der Hälfte
    • OpenAI GPT-5.4 erreicht eine Trefferwahrscheinlichkeit von 50 zu 50
  • Die meisten Modelle schneiden deutlich schlechter ab
    • Anthropic Claude Opus 4.6 erreicht eine Genauigkeit von 8,9 Prozent
    • Zugleich wird erwähnt, dass dasselbe Modell bei Humanity’s Last Exam Spitzenergebnisse erzielt
  • Ray Perrault verbindet dies mit einem allgemeineren Problem
    • Wenn Kombinationen anderer Modalitäten wie Sprache, Bild und Tonfall abgefragt werden, hat die sprachliche Komponente offenbar ein größeres Gewicht als erwartet
    • Es wird auf Forschungsarbeiten verwiesen, nach denen nichtsprachliche Informationen teils nahezu vollständig ignoriert werden könnten

Höchststand bei KI-Investitionen im Jahr 2025

  • Parallel zu den Leistungssteigerungen der KI-Modelle stiegen auch die KI-Investitionen
  • Laut Daten des KI-Analyseunternehmens Quid erreichten die KI-Investitionen 2025 mit mehr als 581 Milliarden US-Dollar einen neuen Rekord
    • Das ist mehr als doppelt so viel wie 2024 mit 253 Milliarden US-Dollar
    • und liegt deutlich über dem bisherigen Höchststand von 360 Milliarden US-Dollar im Jahr 2021
  • Anders als 2021 wurde der Rekord von 2025 nicht durch M&A, sondern durch private Investitionen in KI-Unternehmen getragen
  • Der Großteil des Kapitals floss in die USA
    • Im vergangenen Jahr lagen die KI-Investitionen in den USA bei mehr als 344 Milliarden US-Dollar

Stärkere Fokussierung von Software-Ingenieuren auf KI

  • Die Zahl KI-bezogener Projekte auf GitHub stieg bis 2025 auf 5,58 Millionen
    • Das entspricht etwa dem Fünffachen von 2020
    • und einem Anstieg um 23,7 Prozent gegenüber 2024
  • Dieser Zuwachs wirkt nicht nur wie eine Flut rein KI-generierter Projekte
    • Auch die Zahl der Projekte mit mindestens 10 Stars stieg in ähnlichem Tempo
    • Ebenso nahm die gesamte Star-Zahl aller KI-Projekte in ähnlichem Tempo zu
    • Das deutet auf menschliche Beteiligung hin
  • Als prominentes Beispiel wird die Open-Source-Software für agentic AI OpenClaw genannt
    • Sie erreichte auf GitHub 352.000 Stars
  • Ray Perrault räumt ein, dass KI-Bots oder Agentenprojekte teilweise zur Dynamik beitragen könnten
    • “probably the intensity of GitHub use is highly correlated with the intensity of AI use”
    • Unter Verweis auf die im Stanford-Bericht nicht genannte Aktivitäts-Tracking-Website Agents in the Wild heißt es jedoch, dass ein Großteil der GitHub-Aktivität weiterhin von Menschen auszugehen scheint
  • Auch bei Informatik-Publikationen ist der KI-Boom klar sichtbar
    • Die Zahl KI-bezogener Informatik-Publikationen stieg in den vergangenen zehn Jahren von 102.000 auf 258.000 und damit auf mehr als das Doppelte
    • 2024 stammten davon mehr als 68 Prozent aus der Wissenschaft
    • Auf Regierung und Industrie entfielen jeweils etwa 11,5 Prozent bzw. 12,5 Prozent
    • Das Wachstum wurde vor allem von machine learning, computer vision und generative AI getragen

Unsicherheit über die Auswirkungen von KI auf Beschäftigung

  • Mit der Verbreitung generativer KI ist auch die Sorge um Arbeitsplätze gewachsen, doch die derzeitigen Daten zeichnen ein gemischtes Bild
  • Es wird eine Grafik mit altersbezogenen normalisierten Beschäftigtenzahlen für software developers und customer support agents gezeigt, die als Berufe mit hohem Risiko für KI-Substitution gelten
    • Einstiegsjobs gehen zurück
    • mittlere und Senior-Positionen bleiben stabil oder nehmen zu
  • Diese Veränderungen lassen sich nur schwer isoliert von breiteren wirtschaftlichen Entwicklungen interpretieren
    • Der Bericht erwähnt steigende Arbeitslosenquoten über viele Berufsgruppen hinweg
    • Entgegen den Erwartungen fiel der Anstieg der Arbeitslosigkeit bei Beschäftigten mit der geringsten KI-Exposition stärker aus als bei jenen mit der höchsten KI-Exposition

Wandel der öffentlichen Wahrnehmung von KI

  • In einer Ipsos-Umfrage ist der Optimismus gegenüber KI in den vergangenen Jahren leicht, aber erkennbar gestiegen
    • Der Anteil der Antworten „benefits outweigh the drawbacks“ stieg von 55 Prozent im Jahr 2024 auf 59 Prozent
    • Der Anteil der Befragten, die angaben, KI „good understanding“ zu verstehen, stieg leicht von 67 Prozent auf 68 Prozent
  • Auch bei ähnlichen Fragen überwiegt insgesamt die positive gegenüber der negativen Haltung, zugleich nehmen einige negative Gefühle zu
    • 52 Prozent der Befragten gaben an, dass Produkte und Dienste mit KI sie „nervous“ machen
  • Die Unterschiede zwischen Ländern sind groß
    • China und Länder in Südostasien wie Malaysia, Thailand, Indonesien und Singapur zeigen eine positivere Richtung
    • Die größten positiven Verschiebungen im Jahresvergleich verzeichneten Deutschland mit 12 Prozent, Frankreich mit 10 Prozent und die Niederlande mit 10 Prozent
    • Kolumbien verzeichnete mit -6 Prozent die größte negative Verschiebung

Länderspezifische Unterschiede beim Vertrauen in KI-Regulierung

  • Parallel zur wachsenden Überzeugung, dass KI positive Auswirkungen haben kann, zeigt sich in manchen Ländern auch tiefes Misstrauen gegenüber der staatlichen Regulierung
  • Besonders die USA gehören trotz ihrer Führungsrolle bei KI-Investitionen beim Vertrauen in Regulierung zu den Schlusslichtern
    • In der Ipsos-Umfrage sagten nur 31 Prozent der US-Befragten, dass sie der staatlichen Regulierung von KI vertrauen
  • Auch viele europäische Länder und Japan weisen ein niedriges Vertrauensniveau auf
  • Das größte Vertrauen in die Fähigkeit von Regierungen zur KI-Regulierung findet sich in Asien und Südamerika
  • Der Kontrast zwischen den USA und Kolumbien sticht besonders hervor
    • In den USA besteht tiefes Misstrauen gegenüber KI-Regulierung, zugleich meint eine Mehrheit, dass die Vorteile von KI ihre Nachteile überwiegen werden
    • In Kolumbien ist das Vertrauen in KI-Regulierung hoch, während sich die allgemeine Stimmung gegenüber KI verschlechtert hat
  • Wie in einer komprimierten Fassung der KI-Erzählung von 2025 unterscheiden sich die Qualität der Modellleistung und die Wahrnehmung gesellschaftlicher Auswirkungen je nach Aufgabe und Fragestellung erheblich

1 Kommentare

 
GN⁺ 9 일 전
Hacker-News-Kommentare
  • Ich möchte darauf hinweisen, dass die Wahrnehmung von AI in jüngeren Altersgruppen weniger positiv ist, als man denken könnte. Laut der Gallup-Umfrage ist die Skepsis ziemlich deutlich erkennbar

    • Ich sehe das als einen Prozess, in dem man die inhärenten Grenzen von AI nach und nach erkennt
    • Ich halte diese Stimmung für vorübergehend. Wie bei jedem historischen Technologieschub werden sich die Menschen am Ende anpassen und Nutzungsweisen dafür finden
  • Selbst wenn beim Training eines aktuellen Frontier-LLM mehr als 72.000 Tonnen CO2 ausgestoßen werden, erscheint mir das im Vergleich zu den weltweiten 38 Milliarden Tonnen pro Jahr relativ gering

    • Ich finde es überhaupt nicht belanglos, dass die Emissionen für das Training eines einzelnen LLM dem Jahresausstoß von 17.000 Menschen entsprechen. Laut Artikel ist das 8-mal höher als im Vorjahr, und möglicherweise wurde es um etwa den Faktor 2 unterschätzt. Außerdem fehlen dabei Hardware, Bots zum Sammeln von Trainingsdaten und die gesamte Nutzung wie Prompt-Verarbeitung. Solche großen Modelle gibt es mehrere, kleinere sogar zehntausende. Die Schätzung, dass die gesamten AI-Emissionen in diesem Jahr über 80 Millionen Tonnen CO2e liegen, wäre größer als die Gesamtemissionen von Ländern wie Austria oder Israel und ist daher keineswegs leicht abzutun
    • Man kann es auch so betrachten: Wenn das Training eines Modells 72.000 Tonnen kostet und dieses Modell von 100 Millionen Menschen genutzt wird, dann sind das pro Person 0,00072 Tonnen. Dem Artikel zufolge liegt der durchschnittliche jährliche Ausstoß eines Menschen bei über 5 Tonnen, bei US-Amerikanern bei etwa 18 Tonnen, daher würde ein Plus von 0,00072 kaum ins Gewicht fallen. Natürlich kommen Inferenzkosten noch dazu
    • Selbst wenn man berücksichtigt, dass xAI die CO2-Intensität unnötig erhöht zu haben scheint, halte ich diese Zahl faktisch für vernachlässigbar. Außerdem wirkt es etwas lächerlich, für 2025 zwei führende Modelle auszuwählen und beide Male Grok zu nehmen — also ausgerechnet ein Modell, das in diesem Jahr zu den am wenigsten nützlichen, am wenigsten genutzten und am wenigsten interessanten gehörte
  • Ich glaube letztlich nicht, dass irgendjemand einen Burggraben moat haben wird, daher lese ich diese Grafiken eher als Verstärkung von Fehlvorstellungen bei Investoren

    • Ich denke schon, dass ein Burggraben entstehen kann. Man kann das Budget auf Token-Qualität konzentrieren oder auch bei geringerer Menge bessere Tokens einsetzen. Wenn dazu noch eine Nutzerbasis und Engagement kommen, entsteht ein Flywheel, das Neueinsteiger nur schwer einholen können. Der Markt ist komplex, und mit zu starker Vereinfachung übersieht man vieles
    • Ich halte auch Kapital und Momentum selbst für einen Burggraben. Es stimmt, dass chinesische Modelle Distillation nutzen, aber bisher sieht man noch nicht oft, dass sie große Modelle von Grund auf trainieren. Wenn Chips jedoch billiger werden und chinesische Chips richtig in den Markt kommen, könnte sich die Lage ändern
  • Chinas Führungsrolle in der Robotik fällt zwar auf, aber was mir sofort ins Auge sprang, war das Diagramm zu den Grok-Emissionen

    • Wenn ich im Artikel die Formulierung lese, dass „diese Schätzung mit Vorsicht zu interpretieren ist und im Fall von Grok stark von Eingabewerten abhängt, die aus öffentlichen Berichten abgeleitet wurden“, dann wirkt dieses Diagramm in Bezug auf die Zuverlässigkeit etwas fragwürdig
  • Nur weil die Zahl der neu erstellten GitHub-Projekte gestiegen ist, zu sagen, dass „Software Engineers all-in auf AI gegangen sind“, wirkt ziemlich komisch. Nur weil jemand ein Repository erstellt, wird er noch nicht automatisch zum Software Engineer; wäre das so, hätte ich mir ja anderes Lernen sparen können

    • Ich stimme zu, dass diese Metrik nicht gut ist, und würde sie lieber durch etwas wie Claude Code GitHub Commits Over Time ersetzen. Perfekt ist das natürlich auch nicht, aber es ist zumindest eine etwas weniger unvollkommene Metrik und zeigt sinnvolle Trends meiner Meinung nach besser
  • Der Teil „China liegt in der Robotik vorn“ scheint mit AI nicht viel zu tun zu haben. Die China-Grafik folgt seit 2012 fast derselben Entwicklung, deshalb wirkt dieses Diagramm im Kontext des Artikels etwas deplatziert

    • Auch wenn es ChatGPT damals noch nicht gab, waren die ML-Technologien, die Robotik angetrieben haben, meiner Ansicht nach schon zu dieser Zeit ausreichend funktionsfähig
  • Die Aussage „Das Training von AI-Modellen kann massive CO2-Emissionen verursachen“ stimmt, aber was ich wirklich sehen möchte, ist eine Grafik dazu, wie viel CO2 weltweit beim Betrieb dieser Modelle als Dienste entsteht

  • Der Satz „Die Leistung von AI-Modellen hat sich in den letzten 10 Jahren mit erstaunlicher Geschwindigkeit verbessert, und dieser Fortschritt beschleunigt sich“ überzeugt mich nicht. Meiner Ansicht nach geraten fast alle Bereiche bereits in eine Plateauphase. Felder wie Competition Math, die erst vor Kurzem begonnen haben, wirken vielleicht noch weniger so, aber wenn man sich frühere Graphenmuster ansieht, ist es gut möglich, dass auch sie letztlich ähnlich stagnieren

  • Ich verstehe immer noch nicht so recht, was mit State of AI in 2026 gemeint ist

  • Dieser Beitrag wirkt wie ein Duplikat. Das Original ist dieser Thread, die Quelle ist der 2026 AI Index Report von Stanford HAI