5 Punkte von GN⁺ 2025-01-30 | 1 Kommentare | Auf WhatsApp teilen
  • Die ARC Prize Foundation hat das Ziel, AGI (Artificial General Intelligence) zu definieren, zu messen und neue Ideen anzustoßen
  • AGI wurde bislang noch nicht erreicht, und die bloße Skalierung des Vortrainings reiner LLMs (Large Language Models) ist nicht die Lösung
  • Während 2023–24 rund 20 Milliarden US-Dollar in LLM-Startups investiert wurden, flossen nur etwa 200 Millionen US-Dollar in AGI-Startups

Analyse von DeepSeeks R1-Zero und R1

  • Die von DeepSeek vorgestellten Systeme R1-Zero und R1 haben große Aufmerksamkeit erhalten, weil sie Ergebnisse auf einem Niveau nahe dem von OpenAIs o1-System gezeigt haben
  • Sowohl R1-Zero als auch R1 erreichten im ARC-AGI-1 etwa 15–20 %
  • Das ist deutlich höher als GPT-4o mit 5 %
  • Der Mainstream der KI-Industrie hat sich zuletzt auf die bloße Skalierung von LLMs (Large Language Models) konzentriert, doch dies gilt nicht als direkte Lösung zur Verwirklichung von AGI
  • Die ARC Prize Foundation fördert über den Benchmark ARC-AGI-1 die Forschung an KI-Systemen, die sich auch an neue Probleme anpassen können, ohne dafür eigens trainiert worden zu sein

R1-Zero ist wichtiger als R1

  • Aus den Forschungsergebnissen von DeepSeek gingen R1-Zero und R1 hervor
  • R1-Zero, R1 und OpenAIs o1 (low compute) erzielten im ARC-AGI-1 ähnliche Werte von 15–20 %
  • Das Ende 2024 von OpenAI vorgestellte System o3 steigerte den Wert im ARC-AGI-1 auf bis zu 88 % und zeigte damit, dass es neue Probleme adaptiv lösen kann
  • Allerdings ist o3 in vielen Punkten nicht öffentlich, weshalb es für Forschende schwierig ist, die technischen Details zu verstehen
  • R1-Zero wird im Vergleich zu R1 als zukunftsträchtiger angesehen, weil es kein direktes menschliches Labeling (SFT) durchlaufen hat

R1-Zero beseitigt den menschlichen Engpass

  • Bisherige Reasoning-Modelle wurden trainiert, indem menschliches Labeling (SFT) oder maschinelle Belohnung (RL) auf den Problemlösungsprozess (Chain-of-Thought, im Folgenden CoT) angewendet wurde

  • R1-Zero lernt CoT ohne SFT, also ohne menschliche Experten-Labels, ausschließlich mit Reinforcement Learning (RL)

  • Im ARC-AGI-1 erreichte R1-Zero 14 %, R1 kam auf 15 % und zeigte damit nahezu die gleiche Leistung

  • Auch in anderen Benchmarks wie MATH AIME 2024 fielen die Ergebnisse von R1-Zero und R1 ähnlich aus

  • Es gab Bedenken wegen Sprachmischung oder Lesbarkeit, doch in realen Tests arbeitete das Modell ohne größere Inkohärenzen gut in den Bereichen Mathematik und Coding

  • Daraus ergeben sich die folgenden zentralen Implikationen

    • Auch ohne menschliches Labeling ist in bestimmten Domänen präzises und verständliches Reasoning möglich
    • R1-Zero kann allein durch Reinforcement Learning eine eigene domänenspezifische Token-Repräsentation (DSL) erzeugen
    • SFT kann weiterhin nötig sein, um die Breite des Reasoning zu erweitern
  • Letztlich zeigt R1-Zero das Skalierungspotenzial eines „ohne menschlichen Engpass“-Ansatzes, bei dem es selbstständig Trainingsdaten ohne menschliche Abhängigkeit erzeugen kann

  • Nachfolgend eine kurze Übersicht über die von verschiedenen Systemen im ARC-AGI-1 erreichten Werte, die durchschnittliche Token-Zahl und die Inferenzkosten

    • r1-zero: 14 %, ohne SFT, keine sequentielle Reasoning-Suche, durchschnittlich 11K Token, Kosten ca. $0.11
    • r1: 15.8 %, mit SFT, keine sequentielle Reasoning-Suche, durchschnittlich 6K Token, Kosten ca. $0.06
    • o1(low): 20.5 %, mit SFT, keine sequentielle Reasoning-Suche, durchschnittlich 7K Token, Kosten ca. $0.43
    • o1(med): 31 %, mit SFT, keine sequentielle Reasoning-Suche, durchschnittlich 13K Token, Kosten ca. $0.79
    • o1(high): 35 %, mit SFT, keine sequentielle Reasoning-Suche, durchschnittlich 22K Token, Kosten ca. $1.31
    • o3(low): 75.7 %, mit SFT, mit Suche und Sampling, durchschnittlich 335K Token, Kosten ca. $20
    • o3(high): 87.5 %, mit SFT, mit Suche und Sampling, durchschnittlich 57M Token, Kosten ca. $3,400

Kosten für Verlässlichkeit

  • Eine große Veränderung im aktuellen KI-Markt besteht darin, dass sich mit höherem Aufwand auch Genauigkeit und Verlässlichkeit steigern lassen
  • Zudem verlagert sich das Gewicht von den Trainingskosten hin zu den Inferenzkosten
  • Wenn in der Inferenzphase viele Rechenressourcen eingesetzt werden, lassen sich genauere und stabilere Ergebnisse erzielen
  • Die meisten Unternehmen konnten wegen der Verlässlichkeitsprobleme von KI-Systemen bislang keine groß angelegte Automatisierung einführen
  • Es wird erwartet, dass Fortschritte im ARC-AGI-Bereich die Verlässlichkeit von KI-Agenten erhöhen werden; auch Anthropic, OpenAI und Apple bereiten agentische Dienste vor
  • Nutzer werden tendenziell bereit sein, für die benötigte Genauigkeit mehr zu bezahlen
  • Daher wird ein deutlich steigender Bedarf an KI-Inferenz erwartet, was wiederum zu mehr Nachfrage nach Rechenressourcen führen dürfte

Reasoning ist Lernen

  • Früher wurden große Datenmengen gesammelt oder mit bestehenden LLMs synthetische Daten erzeugt und dann fürs Training genutzt
  • Nun können Nutzer oder Systeme im Reasoning-Prozess tatsächlich neue, gültige Daten erzeugen
  • Das bedeutet einen neuen ökonomischen Wandel, bei dem „Reasoning zugleich Lernen ist“
  • KI-Modelle mit vielen Nutzern sammeln mehr Inferenzdaten, und genau das führt wiederum zu Verbesserungen des Modells
  • Falls sogar der SFT-Prozess (menschliches Labeling) überflüssig wird, könnte effizientes Lernen auch mit Systemen möglich werden, die einfach mit hohem Kostenaufwand Suche, Synthese und Verifikation wiederholen

Fazit

  • Mit dem steigenden Bedarf an Reasoning in KI-Systemen dürfte die Neubewertung des Marktes anhalten
  • Da mit R1 ein Open-Source-System erschienen ist, das CoT-Ansätze mit Suchtechniken kombiniert, wird erwartet, dass mehr Forschende und Entwickler Grenzen austesten und Innovationen beschleunigen können
  • Die Veröffentlichung von R1-Zero und R1 dürfte einen großen Beitrag zur weltweiten Weiterentwicklung von KI leisten
  • Mehrere Teams haben bereits signalisiert, für den ARC Prize 2025 Systeme wie R1 einsetzen zu wollen, weshalb die künftigen Ergebnisse mit Spannung erwartet werden
  • Das von DeepSeek veröffentlichte R1 wird positiv bewertet, weil es als wichtiger Hinweis auf dem Weg zu AGI zum wissenschaftlichen Fortschritt beigetragen hat

1 Kommentare

 
GN⁺ 2025-01-30
Hacker-News-Kommentare
  • Entwickler von AI-Systemen könnten wirtschaftliche Veränderungen auslösen, indem sie neue Daten erzeugen. Kunden könnten die Kosten für die Datenerzeugung tragen und so die Qualität der Modelle verbessern

    • Es gibt jedoch eine skeptische Sicht darauf, ob diese Daten tatsächlich von hoher Qualität sind
    • Der aktuelle SOTA-Stand liegt bei Modellen auf GPT-4-Niveau, mit der Möglichkeit weiterer Fortschritte in den nächsten 2–3 Jahren
    • Es erscheint vielversprechend, mit Reasoning-Modellen Daten zu erzeugen und damit Nicht-Reasoning-Modelle zu trainieren
    • Unklar ist jedoch, wie gut sich Schlussfolgerungsvermögen in die Modellgewichte übertragen lässt
    • Es gibt die Ansicht, dass OpenAI bereits mit den Trainingsdaten von o3 neue Modelle hätte trainieren sollen
  • Möglicherweise sind Verbesserungen des Basismodells gar nicht nötig, und ein allgemeines Modell könnte ausreichen

    • Wichtig ist, die Preise für Reasoning-Modelle zu senken und ihre Qualität zu verbessern
  • Das o3-System zeigt die erste praktische Umsetzung eines Computers, der sich an neue Probleme anpasst

    • OpenAI hat jedoch bekannt gegeben, o3 mit einem zu 75 % öffentlichen Trainingssatz trainiert zu haben, und der Leistungsbeitrag der ARC-AGI-Daten ist noch nicht getestet
  • Es wird zwar behauptet, menschliche Engpässe würden beseitigt, doch außerhalb von Mathematik und Informatik ist es in den meisten Bereichen schwierig, verifizierbare Belohnungen zu definieren

  • In der AI-Ökonomie finden zwei wesentliche Veränderungen statt

    • Man kann mehr bezahlen, um höhere Genauigkeit und Zuverlässigkeit zu erhalten
    • Die Kosten verlagern sich vom Training auf die Inferenz
    • Das wird die Nachfrage nach Inferenz und damit auch den Bedarf an Rechenleistung erhöhen
  • o3 erreichte 75 % bei AGI-1, während R1 und o1 nur auf 25 % kamen

  • Dass sich viel Rechenaufwand auf die Inferenz verlagert, hat große Auswirkungen auf die aktuellen AI-Investitionen

    • Für NVDA sind das schlechte Nachrichten, und Inferenz-zentrierte Lösungen haben die bessere Wirtschaftlichkeit
  • Mike von Baseten erklärte, er sei stolz darauf, diese Arbeit zu unterstützen

  • R1-Zero zeigt ein potenziell skalierbares System ohne menschliche Engpässe

    • Es gibt jedoch die Frage, ob der RL-Ansatz nicht weiterhin viele menschliche Daten benötigt
  • R1 zeigt eine hervorragende Leistung im Verhältnis zu den Kosten

    • Es gilt als vielversprechend, R1 als Datengenerator für komplexe Probleme einzusetzen
  • Es wird prognostiziert, dass die Zukunft der LLMs in maßgeschneiderten Einzel-Apps liegt

    • Man sagt einem AI-Agenten, welche App und Anforderungen man möchte, und er baut alles vom Backend bis zum Frontend
    • Er testet die Software, behebt Fehler und stellt sie in Produktion bereit
    • Aktuelle LLMs sind noch nicht perfekt, aber Systeme und Workflows, die Code automatisch ausführen, kompilieren und Fehler an das LLM zurückmelden, existieren bereits