10 Punkte von GN⁺ 2025-07-01 | 1 Kommentare | Auf WhatsApp teilen
  • Die jüngsten Fortschritte in der KI beruhen eher auf der Einführung neuer Datensätze als auf neuen Ideen
  • Die meisten großen Durchbrüche entstanden dadurch, dass bereits vorhandene Techniken auf neue Datenquellen angewendet wurden
  • Veränderungen bei den Daten beeinflussen die Modellleistung stärker als Innovationen in der KI-Technik
  • Der nächste Paradigmenwechsel wird voraussichtlich dann möglich, wenn neue Datenquellen wie YouTube oder Roboter genutzt werden
  • Obwohl sich die meisten Forschenden auf neue Methoden konzentrieren, sind in Wirklichkeit Daten der Schlüssel zum Fortschritt

Der aktuelle Stand und das Muster der KI-Entwicklung

  • KI hat in den vergangenen 15 Jahren, besonders in den letzten 5 Jahren, sprunghafte Fortschritte gemacht
  • Einige Forschende behaupten, KI entwickle sich bei der Fähigkeit zur Lösung bestimmter Aufgaben exponentiell, ähnlich einem 'Mooreschen Gesetz für KI'
  • Tatsächlich treten große Durchbrüche jedoch nicht häufig auf; stattdessen setzt sich langsamer, aber stetiger Fortschritt fort

Woher kommt Innovation

  • Viele Menschen glauben, dass die KI-Entwicklung aus Ideen aus Wissenschaft und Industrie wie MIT, Stanford oder Google stammt
  • Durch Forschung gehen Systeminnovationen weiter, die Trainingskosten senken und die Effizienz verbessern
    • 2022 optimierte Stanfords FlashAttention die Speicherauslastung
    • 2023 verbesserte Googles speculative decoding die Inferenzgeschwindigkeit
    • 2024 stellte das Muon-Projekt einen neuen Optimizer-Ansatz vor
    • 2025 bot DeepSeek-R1 als Open Source ein Modell auf dem Niveau großer KI-Labore
  • Forschende veröffentlichen ihre Ergebnisse über arXiv, Konferenzen und Social Media schnell und offen, wodurch globale verteilte wissenschaftliche Experimente aktiv vorangetrieben werden

Warum es sich so anfühlt, als sei die KI-Innovation langsamer geworden

  • Bei aktuellen Modellen wie Grok 3 und GPT-4.5 nimmt das Ausmaß der Leistungssteigerungen ab
  • Es gibt auch Kritik, dass Ankündigungen übertrieben seien, da die Ergebnisse in Praxistests wie Mathematik-Olympiaden schwach ausfallen
  • Große Paradigmenwechsel wie Deep Learning, Transformer, RLHF und Reasoning treten selten und eher im Abstand von etwa zehn Jahren auf

Der gemeinsame Nenner großer Durchbrüche: neue Datensätze

  • Vier große Durchbrüche fallen mit dem Zeitpunkt zusammen, an dem neue Datenquellen erstmals in großem Maßstab genutzt wurden
    • AlexNet: ImageNet (großer gelabelter Bilddatensatz)
    • Transformers: Textdaten aus dem gesamten Web (Internet)
    • RLHF: von Menschen rückgemeldete Daten über 'guten Text'
    • Reasoning: Ergebnisse externer Verifikationswerkzeuge wie Taschenrechner oder Compiler
  • Nachdem jeder dieser Datensätze erstmals in großem Umfang eingeführt wurde, folgten Wettbewerb um verbleibende Daten und die Entwicklung von Techniken zu ihrer effizienteren Nutzung

Neue Ideen vs. die Rolle von Daten

  • Auch ohne eine bestimmte Modellarchitektur können bei denselben Daten Modelle auf ähnlichem Niveau entwickelt werden
  • Tatsächlich hat der Austausch des trainierten Datensatzes mehr Einfluss auf die Leistung als technische Innovationen
    • Selbst wenn statt AlexNet eine andere Struktur gekommen wäre, wäre Fortschritt dank ImageNet möglich gewesen
    • Auch ohne Transformer erreichen LSTM, SSM usw. mit denselben Daten eine ähnliche Leistung
  • Datensätze bestimmen die Obergrenze der Lernergebnisse, und diese Grenze lässt sich allein durch Verbesserungen an Modellen oder Algorithmen nicht überwinden
  • Wie auch in The Bitter Lesson betont wird, sind am Ende nicht neue Methoden, sondern Daten wirklich entscheidend

Kandidaten für den nächsten KI-Paradigmenwechsel

  • Der nächste große Sprung der KI wird mit hoher Wahrscheinlichkeit nicht durch neue Networks oder RL-Methoden entstehen, sondern durch bislang ungenutzte neue Datenquellen
  • Anders gesagt: Ein Paradigmenwechsel ist besonders dann wahrscheinlich, wenn neue Datensätze in großem Maßstab gesichert werden
    • Der am meisten beachtete Kandidat: Videodaten von YouTube und anderen Plattformen
      • Auf YouTube werden pro Minute 500 Stunden Video hochgeladen
      • Sie enthalten ein Vielfaches der Informationsmenge von Text und ermöglichen das Lernen sprachlicher Nuancen sowie physischer und kultureller Kontexte
      • Es ist sehr wahrscheinlich, dass Big Tech wie Google bald ernsthaft mit dem Training auf diesem Datensatz beginnt
    • Eine weitere Möglichkeit: Datensammlung aus der physischen Welt über Roboter (embodied systems)
      • Sobald die Infrastruktur vorhanden ist, um Kamera- und Sensordaten im großen Maßstab auf GPUs zu verarbeiten und zu trainieren, dürften auch diese Daten mit hoher Wahrscheinlichkeit zur Quelle von KI-Innovationen werden
  • Textdaten nähern sich ihren Grenzen, daher ist es sehr wahrscheinlich, dass neue Datenquellen wie Video und Robotik die Zukunft der KI bestimmen

Fazit

  • Der nächste Fortschritt der KI wird nicht aus neuen Ideen oder Algorithmen kommen, sondern aus neuen Datenquellen
  • Obwohl sich 95 % der Forschenden auf neue Methoden konzentrieren, entstehen die eigentlichen Innovationen durch Veränderungen bei den Datensätzen
  • Wer Fortschritte in der KI will, sollte sich nicht auf neue Ideen, sondern auf die Beschaffung neuer Daten konzentrieren

1 Kommentare

 
GN⁺ 2025-07-01
Hacker-News-Kommentare
  • Es wird gesagt, dass John Carmacks Art der Untersuchung ziemlich interessant ist.
    Er teilte die Erfahrung, ein Modell darauf zu trainieren, 2D-Videospiele übermenschlich gut zu spielen, und dann zu testen, ob es sich auch in zuvor nie gesehenen 2D-Spielen oder neuen Levels gut schlägt.
    Er betonte anhand des Ergebnisses, dass die Leistung des Modells bei Spielen ohne vorherige Erfahrung sogar schlechter ausfiel, dass es sich dabei nicht um Intelligenz, sondern nur um eine auf eine bestimmte Aufgabe bezogene Fertigkeit handelt.
    Statt Angst vor Superintelligenz (ASI) zu schüren, sei es viel schwieriger, eine allgemeine Intelligenz zu bauen, die neue 2D-Spiele schneller als Menschen lernt.

    • Es wird darauf hingewiesen, dass das Modell, das John Carmack tatsächlich für diese Schlussfolgerung verwendet hat, nicht dem Stand der Technik entspricht und eher ein spaßorientiertes Projekt ohne teures Foundational Model war.
      Für tiefgehende Video-/Vision-AI-Forschung sei ein Ansatz geeigneter, der einen probabilistischen Latent Space manipuliert, der sich auf Spiele allgemein anwenden lässt.
      Anhand der Fähigkeit von veo3, unter Prompt-Beschränkungen Videos zu erzeugen, wird erklärt, dass AI 2D- und 3D-Spiele verallgemeinern könne.
      Es wird behauptet, dass veo3 tatsächlich Ergebnisse zeigen könne, die so wirken, als würde es jedes beliebige Spiel vernünftig spielen, auch ohne Fine-Tuning auf ein bestimmtes Spiel.

    • Es wird gesagt, dass schwer nachzuvollziehen ist, warum Menschen die Diskussion unbedingt auf diese Weise führen wollen.
      Es gebe offensichtlich mehrere Wege, ein gegebenes Ziel zu erreichen, und es werde infrage gestellt, warum John Carmacks Experiment als Standard akzeptiert werde, obwohl er nicht einmal AI-Experte sei.

    • Es wird vermutet, dass das Modell vielleicht zu stark vergrößert wurde, sodass Overfitting auftrat, also ein Zustand, in dem es nur auf einen bestimmten Datensatz passt.
      Es wird gefragt, ob man das Modell durch Einschränkungen dazu bringen könnte, allgemeinere Heuristiken zu lernen.
      Wenn die AI keine Beschränkungen habe, werde sie am Ende wohl nur noch den optimalen Speedrun nachspielen; bei neuen Inhalten seien jedoch vielfältige Heuristiken viel wichtiger.

    • Es wird klargestellt, dass das angesprochene Thema zum Bereich Meta-Reinforcement Learning gehört.
      Dass John Carmack dieses Feld erforscht, sei sinnvoll, aber keineswegs ein völlig neues Forschungsthema.
      Kurze Einführung in Meta-Reinforcement Learning

    • Die Frage, ob ein Modell über „echte Intelligenz“ verfügt, sei aus Sicht der Wissenschaft, die über AGI nachdenkt, zwar interessant, für die vielen Nutzer, die LLMs tatsächlich nützlich einsetzen, aber nicht besonders wichtig.
      Es wird die Haltung geäußert, dass man sich nicht darum kümmere, ob die heutige Entwicklung zu AGI führt.
      Selbst wenn es bei Claude 4 stehen bliebe, würde man es weiterhin nützlich einsetzen.
      Statt AGI-Debatten sei viel interessanter, wie Menschen AI derzeit tatsächlich nutzen.

  • Es wird selbstbewusst gesagt, dass wir gerade in der Frühzeit der AI leben.
    Anhand von Sprache (LLM: GPT-4, Claude) und Sehen (CLIP, DALL·E) wird erläutert, dass AI in zwei Bereichen erstaunliche Fortschritte gemacht hat.
    Computer erzeugen Gedichte und Code, beschreiben Fotos und führen Gespräche auf menschlichem Niveau, doch in Wahrheit wurden nur zwei Modalitäten erweitert: Text und Bild.
    Menschliche Intelligenz ist dagegen multimodal und reich mit verschiedenen Sinnen wie Tastsinn, Geschmack, Geruch, Bewegung und Emotion verflochten.
    LLMs oder Vision Transformer bilden diese Elemente kaum ab.
    Die wahre Frontlinie echter AI sei die komplexe und reichhaltige sensorische Welt des Alltagslebens.
    Dafür brauche es neue Sensoren, Datenrepräsentationen jenseits von Tokens und neue Trainingsmethoden für Modelle, die auf Erfahrung basieren.

    • Der Ansicht, Sprache oder Sehen seien nur der Ausgangspunkt des Wesens von Intelligenz, wird höflich widersprochen.
      Tastsinn sei zwar interessant, aber für alle Interaktionen online reichten Audio, Video und Sprache aus.
      Der entscheidende Unterschied zwischen Menschen und Tieren liege nicht in den „übrigen Sinnen“, sondern in Stimme, Bild und Sprache.
      Für Handlungen in der realen Welt sei die Integration von Tastsinn, Propriozeption und Geruch wichtig, doch im Kern von Intelligenz stünden Sprache und Sehen.

    • Es wird angenommen, dass organische Anpassungsfähigkeit und Beständigkeit des Gedächtnisses die zwei Aspekte sind, die am stärksten vorankommen müssen.
      Das menschliche Gehirn verändere seine Struktur dynamisch, während LLMs fest seien und erst dann „lernen“, wenn sie gegebene Informationen wiederholt trainieren.
      Um intelligente Maschinen zu bauen, müssten sie selbst in Echtzeit lernen und Informationen speichern können.

    • Es gibt die Sichtweise, dass Sprache und Sehen bei den derzeitigen AI-Architekturen bereits das Ende sein könnten.
      In den letzten Jahren habe es zwar viele Nachrichten zu LLMs gegeben, aber in anderen AI-Bereichen kaum auffällige Durchbrüche.

    • Es wird betont, dass die Zukunft echter AI-Entwicklung im sensorisch reichen, wie beim Menschen mit der physischen Welt verflochtenen Leben selbst liegt.
      Wie schon in Dr. Who gesagt worden sei, dass ein Dalek nicht eine Maschine mit einem Gehirn, sondern die Maschine selbst ist, so sei auch der Mensch durch seinen ganzen Körper er selbst.

    • Zu der Aussage über „kaum glaubhafte Fortschritte“ wird zynisch angemerkt, dass lediglich eine in den 1970er-Jahren gescheiterte Technik auf Computer angewendet werde, die eine Million Mal leistungsfähiger sind.
      Es heißt, es seien keine grundlegenden Innovationen bei Modellstrukturen oder Rechenverfahren in Sicht, die künftig exponentielle Leistungssteigerungen erwarten ließen.

  • Es wird die Verwechslung von wissenschaftlichem und technologischem Fortschritt angesprochen.
    Wenn Wissenschaft Fortschritte mache, entwickle sie sich oft entlang einer S-Kurve: erst schnell, dann mit abnehmenden Erträgen.
    Es wird darauf hingewiesen, dass viele den schnellen Optimierungsabschnitt nicht von der Phase der Verlangsamung unterscheiden.

    • Es wird angemerkt, dass es zu großzügig sei, bloße Übertreibung oder Erwartungshaltung schon als „technologischen Fortschritt“ zu bezeichnen.

    • Es wird ergänzt, dass viele den Unterschied zwischen S-Kurven und Exponentialfunktionen nicht gut verstehen.
      In bestimmten Abschnitten könnten beide fast gleich aussehen.

  • Es wird gefragt, warum DeepSeek besonders erwähnt wird.

  • Aus der Perspektive von jemandem, der Forschung und Papers zu Modellarchitekturen liest, wird darauf hingewiesen, dass derzeit unzählige neue Ideen entstehen.
    Allerdings lieferten nur einige davon wirklich interessante Ergebnisse.
    Es wird vermutet, dass Bibliotheken wie PyTorch experimentelle Entwicklung auch behindern könnten.
    Dadurch, dass grundlegende Bausteine einfach übernommen werden, sei es zu selbstverständlich geworden, sie nur zu verwenden, statt über jedes Element tief nachzudenken.
    Die Tendenz, nur um in einer „Model Card“ Häkchen setzen zu können, unbedingt Tokenizer oder Vision-Modelle anderer Leute anzuhängen, wird skeptisch gesehen.

    • Es wird erklärt, dass ein solcher Trend auch in der Menschenwelt ein sehr häufiges und natürliches Muster ist.
      Wenn der ROI intellektueller Erkundung in der aktuellen Basistechnologie sinkt, verlagern sich personelle Ressourcen vorübergehend an andere Stellen.
      Wenn jedoch Grenzen erreicht werden, würden innovative Talente am Ende wieder in grundlegenden Bereichen große Fortschritte hervorbringen.
      Auch die nächste Generation von Foundational Tech wie PyTorch werde sich wohl auf diese Weise weiterentwickeln.

    • Es wird darauf hingewiesen, dass es in den letzten zwei bis drei Jahren zwar selten große Architekturverbesserungen gab, die wirklich viele Menschen kennen und im Alltag nutzen, dass aber auch die sehr kurze Perspektive von nur drei Jahren oft übersehen werde.
      Neben LLMs laufe weiterhin viel interessante und nützliche Forschung, und auch wenn man selbst kein Experte auf dem Gebiet sei, wirke es so, als kämen enorm viele neue Versuche auf.

    • Es wird gesagt, dass Menschen, die auch ohne PyTorch nicht experimentieren wollten, wohl ohnehin dieselbe Haltung gehabt hätten.

  • Wenn man sich ein System vorstellt, das Intelligenz auf menschlichem Niveau repliziert, könne man zu der Sichtweise kommen, dass der Kern der Modellunterschiede in „Veränderungen des Datensatzes“ liegt.
    Tatsächlich spielen Gedächtnis, Bildung und Hintergrund eines Menschen eine große Rolle für seine Problemlösungsfähigkeit, was eine gewisse Ähnlichkeit aufweist.

  • Es wird nach der Möglichkeit gefragt, dass Modelle aktiv Daten beschaffen, also selbstständig nach Daten suchen und daraus lernen.
    Es wird vorgeschlagen, dass ein Ansatz nötig ist, bei dem wie bei menschlichen Babys durch vielfältige Handlungen und direkte Erfahrung gelernt wird.
    Man müsse vom derzeitigen Zustand wegkommen, in dem nur immer weiter Daten eingespeist werden; da Modelle etwa 3D-Objekte erzeugen können, sei auch eine Kopplung mit Physiksimulatoren ein guter Weg.
    Am Beispiel von Cursor wird vorgeschlagen, dass man nach dem Festlegen von Regeln ein Reasoning Model die Gründe dafür ableiten und in Trainingsdaten einfließen lassen könnte, um den Wert der Daten weiter zu erhöhen.
    Wenn man die Gründe hinter den Verhaltensentscheidungen von Nutzern reflektiere und als Trainingsdaten aufbereite, könne das tiefere Einsichten ermöglichen.

    • Es wird darauf hingewiesen, dass Simulation, Robotikarme, Autos und andere Formen von „embodied AI“ bereits aktiv erforscht werden.

    • Es wird erwähnt, dass dieser Ansatz im Grunde Reinforcement Learning ist und in der Praxis kein leichtes Feld darstellt.

  • Es wird die Meinung geäußert, dass neue Ideen meist aus früheren Ideen hervorgehen.
    AI sei ein Werkzeug, das alte Ideen schneller und aus neuen Blickwinkeln angeht.
    Es wird betont, dass Innovation aus Lücken oder Schnittpunkten alter Ideen entsteht und letztlich immer auf den Leistungen früherer Generationen aufbaut.
    AI könne man als Aufzug sehen, der einen direkt auf die Schultern von Giganten bringt, und am Ende hänge alles davon ab, wie man dieses Werkzeug nutzt.

    • Dem Zugang zu alten Ideen wird zugestimmt, aber es wird argumentiert, dass der Zugang mit wirklich neuen Perspektiven selbst Grenzen habe.
      LLMs könnten zwar bei der Interpretation von Daten helfen, seien aber noch nicht gut darin, im Vergleich zur bestehenden Forschung wirklich völlig neue Ideen hervorzubringen.
      Der Einsatz von LLMs könne manche speziellen Bereiche der Forschung beschleunigen, stoße darüber hinaus aber an Grenzen.

    • Es wird als schwer vorstellbar beschrieben, dass ein Mensch, der sich das gesamte Wissen angeeignet hat, dennoch keine völlig neue Idee hervorbringen könnte.

    • Es wird betont, dass der Kern des Textes eine Diskussion über Innovation in AI selbst sowie über die Menge und Qualität von Daten ist.
      Es habe zwar grundlegende Innovationen gegeben, aber die beste Methode für Leistungsverbesserungen sei weiterhin, mehr und qualitativ bessere Daten zu haben.
      Als Beispiel wird der Kreislauf der AI-Entwicklung genannt: „mehr Daten → tiefere Modelle → Wiederholung“.
      Es wird gesagt, es sei unklar, wie die eigene Meinung mit dieser Perspektive zusammenhängt.

    • Der Behauptung, alle neuen Ideen gingen nur aus alten hervor, wird mit der Geschichte der Entdeckung des Benzolrings widersprochen.
      Die Idee der Benzolring-Struktur sei erstmals aus dem Bild einer Schlange entstanden, die im Traum ihren eigenen Schwanz beißt („Ouroboros“), und diene als Beispiel dafür, dass zuvor nicht dagewesene Vorstellungskraft oft Quelle von Innovation ist.

  • Es wird gesagt, dass moderne LLMs letztlich nur Zahlen addieren und multiplizieren.
    In extremer Form wird das mit dem verglichen, was Babylonier schon vor 4000 Jahren getan hätten.

    • Es wird erklärt, dass auch der Mensch letztlich nur das Ergebnis von Wechselwirkungen von Wellen sei und dass alle Bedeutung am Ende zugeschrieben werde.
      Wenn es nur eine Möglichkeit gebe, den Konzept-Raum zu indizieren, seien die Möglichkeiten zur Erforschung von Überraschendem unbegrenzt.

    • Es wird darauf hingewiesen, dass die Babylonier dies auf Tontafeln taten, während es heute in Halbleitern mit atomdünnen Wänden geschieht.
      In der Methode gebe es also durchaus einen großen Unterschied.

  • Es gibt die Auffassung, dass heutiges AI-Training in Wirklichkeit eher dem Auswendiglernen von Datensätzen ähnelt.
    Es wird betont, dass es nicht darum gehe, selbst über Daten nachzudenken und daraus Schlussfolgerungen abzuleiten und sie zu behalten.
    Zwar könnten Modelle über ein gegebenes Thema mehr „Fakten“ wissen als ein PhD, beim Denken über diesen Inhalt seien Menschen aber weiterhin überlegen.

    • Deshalb hätten auch Doktoren vermutlich ihre Lehrbücher griffbereit, wird spekuliert.
      Es wird zurückgefragt, ob ein AI-Modell wirklich alle bereits aufgezeichneten Fakten auswendig wissen müsse.

    • Es wird erklärt, dass der Prozess in Wirklichkeit etwas komplexer ist.
      Er bestehe darin, Daten in Form von Heuristiken zu internalisieren, damit auf Eingaben passend reagiert werden kann.
      Diese Heuristiken überraschten Menschen manchmal und führten gelegentlich auch zu neuartigen Problemlösungen.
      Der Begriff „Denken“ sei selbst zu weit gefasst, um ihn leicht zu beurteilen, doch bis zu AGI sei es noch weit.

    • Die Aussage, dass ein Modell zu einem gegebenen Thema mehr Fakten als ein PhD speichere, wird mit einem Notebook verglichen.
      Ein Notebook könne schließlich auch mehr Fakten enthalten, wird angemerkt.