Was wir 2024 über LLMs gelernt haben

(simonwillison.net)

22 Punkte von GN⁺ 2025-01-01 | 1 Kommentare | Auf WhatsApp teilen

Zusammenfassung von Simon Willisons Überblick über alle Entwicklungen rund um LLMs im Jahr 2024

GPT-4 klar übertroffen
Einige GPT-4-Modelle laufen auf meinem Laptop
Absturz der LLM-Preise, verursacht durch Wettbewerb und Effizienz
Verbreitung multimodaler Vision, Audio und Video treten neu hinzu
Sprach- und Live-Kameramodus, Science-Fiction wird Realität
Prompt-basierte App-Erstellung, bereits Alltagstechnologie
Kostenloser Zugang zu den besten Modellen, nach wenigen Monaten wieder beendet
„Agenten“, weiterhin ein nicht realisiertes Konzept
Die Bedeutung von Evals
Apple Intelligence ist enttäuschend, aber die MLX-Bibliothek ist hervorragend
Skalierung des Schlussfolgerns und der Aufstieg von „Reasoning“-Modellen
Wurde das aktuell beste LLM in China für weniger als 6 Millionen Dollar trainiert?
Verbesserte Umweltauswirkungen
Umweltauswirkungen, weiter verschlechtert
2024, das Jahr des „Slop“
Die erstaunliche Wirkung synthetischer Trainingsdaten
2024 wurde die Nutzung von LLMs schwieriger
Die ungleiche Verteilung von Wissen
Wir brauchen bessere Kritik an LLMs

# GPT-4 klar übertroffen

Stand 2023: GPT-4 galt als bestes Sprachmodell, und andere AI-Labore konnten es nicht übertreffen. Die technologischen Geheimnisse von OpenAI standen im Mittelpunkt.
Veränderung 2024: 18 Organisationen veröffentlichten Modelle, die GPT-4 übertreffen. Im Chatbot-Arena-Leaderboard sind derzeit 70 Modelle gelistet, die GPT-4-0314 (veröffentlicht im März 2023) hinter sich lassen.
Wichtige Modelle und technologische Fortschritte
- Google Gemini 1.5 Pro: veröffentlicht im Februar 2024
  - Bietet Ausgaben auf GPT-4-Niveau und neue Funktionen
  - Unterstützt eine Eingabekontextlänge von 1 Million (später 2 Millionen) Token
  - Einführung von Videoeingaben
  - Kann durch Verarbeitung sehr langer Eingaben Coding-Probleme lösen und ganze Bücher analysieren
  - Wurde in der Google-I/O-2024-Keynote als wichtige Ankündigung behandelt
- Anthropic Claude 3-Serie:
  - Claude 3 Opus: veröffentlicht im März 2024, fiel durch hohe Leistung auf
  - Claude 3.5 Sonnet: veröffentlicht im Juni, Upgrade-Version am 22. Oktober angekündigt
  - Auch nach dem Upgrade blieb die Versionsnummer 3.5 bestehen, unter Fans als Claude 3.6 bezeichnet
Erweiterung der Kontextlänge
- 2023: Die meisten Modelle unterstützten 4.096 bis 8.192 Token. Claude 2.1 war mit 200.000 Token eine Ausnahme
- 2024: Wichtige Modelle unterstützen mehr als 100.000 Token, die Google-Gemini-Serie sogar bis zu 2 Millionen Token
- Lange Eingabedaten können verarbeitet werden, um vielfältige Probleme zu lösen
- Vorteilhaft für die Analyse ganzer Bücher oder das Lösen von Problemen auf Basis von Beispielcode
Modelle und Organisationen, die GPT-4 übertroffen haben
- Organisationen mit Modellen, die laut Chatbot-Arena-Leaderboard besser abschneiden als GPT-4-0314:
  - Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI und weitere, insgesamt 18 Organisationen
- Im Leaderboard liegt GPT-4-0314 derzeit im Bereich um Platz 70

# Einige GPT-4-Modelle laufen auf meinem Laptop

Verwendete Hardware: ein M2 MacBook Pro mit 64 GB RAM, veröffentlicht 2023. Ein rund zwei Jahre altes Gerät, derselbe Laptop, auf dem im März 2023 erstmals LLMs ausgeführt wurden.
Leistungswandel: Anfangs liefen darauf gerade so Modelle auf GPT-3-Niveau, inzwischen aber auch Modelle auf GPT-4-Niveau.
- Qwen2.5-Coder-32B: Im November 2024 veröffentlichtes, auf Coding spezialisiertes Modell unter Apache-2.0-Lizenz.
- Meta Llama 3.3 70B: Im Dezember 2024 veröffentlichtes Modell auf GPT-4-Niveau.
Bedeutung: Überraschend ist, dass Modelle auf GPT-4-Niveau nicht nur auf Data-Center-Servern mit GPUs für über 40.000 Dollar laufen, sondern auch auf einem Laptop.
- Dabei wird fast der gesamte 64-GB-RAM genutzt, sodass andere Arbeiten kaum möglich sind.
- Möglich wird das durch verbesserte Modelleffizienz. Das lässt sich als Ergebnis der Optimierungen des vergangenen Jahres sehen.
- Es ist zu erwarten, dass sich die Effizienz noch deutlich weiter verbessern lässt.
Meta Llama 3.2-Modelle: Nicht auf GPT-4-Niveau, aber die Modelle mit 1B und 3B liefern trotz ihrer geringen Größe starke Leistung.
- Llama 3.2 3B: Lässt sich mit der kostenlosen iOS-App MLC Chat ausführen.
- Läuft mit weniger als 2 GB Größe auf dem iPhone und erzeugt 20 Token pro Sekunde.
- Beispiel: Auf die Anfrage „Handlung eines Netflix-Weihnachtsfilms, in dem sich eine Datenjournalistin in einen lokalen Töpfer verliebt“ wird eine einfache, aber passende Antwort erzeugt.
  - Titel: „Love in the Clay“
  - Handlung: Die Protagonistin Jessica kehrt in ihre Heimatstadt Willow Creek zurück und untersucht die lokale Geschichte sowie die Auswirkungen der Gentrifizierung; daraus entwickelt sich die Geschichte.
- Das Ergebnis ist gewöhnlich, aber dass so etwas auf einem iPhone möglich ist, bleibt bemerkenswert.

# Absturz der LLM-Preise, verursacht durch Wettbewerb und Effizienz

Preise Ende 2023: Die wichtigsten OpenAI-Modelle kosteten damals:
- GPT-4: $30/million input tokens
- GPT-4 Turbo: $10/mTok
- GPT-3.5 Turbo: $1/mTok
Preisänderungen 2024:
- OpenAI o1: mit $30/mTok das teuerste Modell
- GPT-4o: $2.50/mTok (12-mal günstiger als GPT-4)
- GPT-4o Mini: $0.15/mTok (etwa 7-mal günstiger als GPT-3.5 bei besserer Leistung)
- Anthropic Claude 3 Haiku: $0.25/mTok (im März veröffentlicht, das günstigste Modell von Anthropic)
- Google Gemini 1.5 Flash: $0.075/mTok
- Google Gemini 1.5 Flash 8B: $0.0375/mTok (27-mal günstiger als GPT-3.5 Turbo)
Gründe für den Preisverfall:
- Mehr Wettbewerb: Zahlreiche Modellanbieter traten in den Markt ein und verschärften den Preiswettbewerb.
- Höhere Effizienz: Optimierungen bei Training und Inferenz der Modelle senkten den Energieverbrauch.
  - Die Sorge über die Energiekosten einzelner Prompt-Ausführungen nahm ab.
Effizienz und Umweltkosten:
- Höhere Energieeffizienz reduziert Umweltbedenken.
- Die Umweltauswirkungen des Ausbaus von Rechenzentren bleiben jedoch problematisch.
Berechnung realer Nutzungskosten:
- Berechnung der Kosten für das Erzeugen von Beschreibungen für eine persönliche Fotobibliothek mit 68.000 Bildern mithilfe von Google Gemini 1.5 Flash 8B.
  - Pro Foto werden 260 Input-Token und 100 Output-Token benötigt.
  - Insgesamt 17.680.000 Input-Token * $0.0375/million = $0.66
  - Insgesamt 6.800.000 Output-Token * $0.15/million = $1.02
  - Gesamtkosten: Mit $1.68 lassen sich 68.000 Fotos verarbeiten.
Beispielbeschreibung:
- Foto: Zwei Schmetterlinge fressen von einem roten Tablett in der California Academy of Sciences.
- Erzeugte Beschreibung:
  - Foto von zwei Schmetterlingen, die auf einem roten Tablett Obst fressen.
  - Auch Farben und Muster der Schmetterlinge werden detailliert beschrieben.
- Kosten: etwa 0,0024 Cent, also weniger als ein Vierhundertstel eines Cents.
Eine der größten Veränderungen 2024:
- Durch sinkende Preise und geringere Energiekosten steigt der praktische Nutzen von LLMs stark an.

# Verbreitung multimodaler Vision, Audio und Video treten neu hinzu

Wichtige Trends 2024: Multimodale LLMs, die neben Text auch Bilder, Audio und Video sowie andere Eingaben verarbeiten, wurden zum Standard.
- Beispiele aus 2023:
  - OpenAI GPT-4 Vision: auf dem DevDay im November 2023 veröffentlicht.
  - Google Gemini 1.0: am 7. Dezember 2023 angekündigt.
- Wichtige Releases 2024:
  - Anthropic Claude 3-Serie: im März veröffentlicht.
  - Google Gemini 1.5 Pro: im April veröffentlicht (mit Unterstützung für Bild-, Audio- und Videoverarbeitung).
  - Qwen2-VL: im September veröffentlicht.
  - Mistral Pixtral 12B: im September veröffentlicht.
  - Meta Llama 3.2: im September veröffentlicht (Vision-Modelle mit 11B und 90B).
  - OpenAI Audio-Ein- und -Ausgabefunktionen: im Oktober hinzugefügt.
  - Hugging Face SmolVLM: im November veröffentlicht.
  - Amazon Nova Bild- und Videomodelle: im Dezember veröffentlicht.
Tools und Multimodal-Unterstützung:
- Im Oktober 2024 wurde das persönlich genutzte LLM-CLI-Tool auf Unterstützung für multimodale Modelle aktualisiert.
- Es wurden Plugins hinzugefügt, die Anhänge wie Bilder, Audio und Video verarbeiten können.
Die Bedeutung multimodaler Modelle:
- Die Kritik, dass sich LLMs kaum noch verbessern, scheint die Fortschritte bei multimodalen Modellen zu übersehen.
- Prompts mit Bildern, Audio und Video auszuführen, ist eine spannende Entwicklung, die neue Einsatzmöglichkeiten eröffnet.

# Sprachmodus und Live-Kameramodus, Science-Fiction wird Realität

Das Aufkommen früher Sprachmodi:
- Im September 2023 wurde in der mobilen ChatGPT-App eine Sprachkonversationsfunktion hinzugefügt.
- Dabei kamen die Modelle Whisper (Speech-to-Text) und tts-1 (Text-to-Speech) zum Einsatz, das Modell selbst verarbeitete jedoch tatsächlich nur Text.
GPT-4o-Sprachmodus:
- Im neuen Sprachmodus, der am 13. Mai 2024 angekündigt wurde, unterstützt das GPT-4o-Modell als echtes multimodales Modell Audioeingaben und natürliche Sprachausgabe.
- In der Demo wurde eine Scarlett Johansson ähnliche Stimme verwendet, nach der Kontroverse wurde diese Stimme jedoch nicht in das kommerzielle Produkt aufgenommen.
- Verzögerungen beim Start des Sprachmodus sorgten für Verwirrung, doch im August und September wurde er schrittweise als ChatGPT Advanced Voice eingeführt.
  - Nutzungserfahrung: Gespräche im Sprachmodus beim Spazierengehen verbesserten die Qualität der Inhalte deutlich.
  - Experimente mit der OpenAI Audio API bestätigten verschiedene Sprachfunktionen.
Eigenschaften des Sprachmodus:
- Advanced Voice kann verschiedene Akzente umsetzen.
- Beispiel: die Aufforderung, mit starkem russischem Akzent eines kalifornischen Braunpelikans auf Spanisch zu sprechen.
Multimodale Sprachmodelle anderer Unternehmen:
- Google Gemini: unterstützt Audioeingaben und ermöglicht Sprachgespräche ähnlich wie ChatGPT.
- Amazon Nova: Sprachmodus vorab angekündigt (Veröffentlichung für Q1 2025 geplant).
- Google NotebookLM (veröffentlicht im September 2024): erzeugt auf Basis der Eingaben ein Gespräch zwischen zwei „Podcast-Moderatoren“. Auch benutzerdefinierte Anweisungen sind möglich.
Das Aufkommen des Live-Videomodus:
- Im Dezember 2024 wurde im ChatGPT-Sprachmodus die Funktion zum Teilen des Kamerafeeds hinzugefügt.
- Dadurch sind Gespräche über den Kamerafeed in Echtzeit möglich.
- Google Gemini bot zur gleichen Zeit eine ähnliche Funktion als Preview an.
API-Zugänglichkeit:
- Sowohl OpenAI als auch Google bieten APIs für diese Funktionen an.
- OpenAI kündigte im Dezember die WebRTC API an, um die Entwicklung sprachbasierter Web-Apps zu vereinfachen.

# Prompt-basierte App-Erstellung, längst Alltag geworden

Die Möglichkeiten von GPT-4 im Jahr 2023:
- Mit GPT-4 konnten vollständige interaktive Apps in HTML, CSS und JavaScript erzeugt werden.
- Auch Tools wie React konnten über zusätzliche Build-Mechanismen integriert werden.
Einführung von Claude Artifacts im Jahr 2024:
- Eine neue Funktion, die Mitte der Ankündigung von Anthropic Claude 3.5 Sonnet vorgestellt wurde.
- Nutzer konnten damit On-Demand-Apps erzeugen, die direkt in der Claude-Oberfläche ausführbar sind.
- Beispiel: ein mit Claude erzeugtes URL-Extraktionstool.
  - Gibt man eine URL ein, wird sofort die extrahierte Liste angezeigt.
- Es wurde die Erfahrung geteilt, innerhalb einer Woche mit Claude Artifacts 14 kleine Tools erstellt zu haben.
Einführung ähnlicher Funktionen bei Wettbewerbern:
- GitHub Spark: im Oktober 2024 angekündigt.
- Mistral Chat Canvas: im November 2024 hinzugefügt.
- Steve Krause von Val Town: implementierte mit Cerebras-Modellen Echtzeit-App-Bearbeitung bei einer Verarbeitungsgeschwindigkeit von 2.000 Tokens pro Sekunde.
- Das Team von Chatbot Arena: führte im Dezember ein neues Leaderboard ein, bei dem dieselbe App mit zwei Modellen erzeugt und anschließend darüber abgestimmt wird.
Eigene Projekte:
- Im Datasette-Projekt wird daran gearbeitet, mithilfe von Prompts benutzerdefinierte Widgets und Datenvisualisierungen zu erzeugen und iterative Arbeit zu ermöglichen.
- Mit uv wurde ein ähnliches Muster umgesetzt, um ein einzelnes Python-Programm zu schreiben.
Ausblick auf 2025:
- Sobald Browser-Sandboxing-Probleme gelöst sind, ist es sehr wahrscheinlich, dass diese Funktion standardmäßig in vielen Produkten eingebaut wird.

# Kostenloser Zugang zu den besten Modellen, nach wenigen Monaten vorbei

Frühe kostenlose Verfügbarkeit 2024:
- GPT-4o, Claude 3.5 Sonnet und Gemini 1.5 Pro — die damals drei besten Modelle — wurden den meisten Nutzern kostenlos angeboten.
- OpenAI stellte GPT-4o im Mai 2024 kostenlos bereit.
- Claude 3.5 Sonnet war ab seiner Veröffentlichung im Juni kostenlos nutzbar.
- Zuvor hatten kostenlose Nutzer meist nur Zugang zu Modellen auf dem Niveau von GPT-3.5, doch in diesem Zeitraum bot sich die Gelegenheit, die echten Fähigkeiten leistungsstarker LLMs zu erleben.
Ende des kostenlosen Zugangs:
- Mit der Einführung von ChatGPT Pro durch OpenAI endete der kostenlose Zugang.
- ChatGPT Pro verlangt eine monatliche Gebühr von 200 US-Dollar und bietet Zugriff auf das leistungsstärkste Modell, o1 Pro.
Ausblick:
- Das Hauptmerkmal der o1-Serie ist, mit mehr Rechenressourcen bessere Ergebnisse zu liefern.
- Aufgrund dieser Kostenstruktur ist es unwahrscheinlich, dass die Zeit des kostenlosen Zugangs zu den besten Modellen zurückkehrt.

# „Agenten“, weiterhin ein Konzept ohne Realisierung

Unschärfe des Begriffs:
- Dem Begriff „Agent“ fehlt weiterhin eine einheitliche, klare Definition, und jeder versteht etwas anderes darunter.
- Im Allgemeinen lässt er sich in zwei Kategorien einteilen:
  - Agenten wie ein Reisebüromodell, die Aufgaben im Namen des Nutzers erledigen.
  - LLM-basierte Agenten, die auf Tools zugreifen, wiederholte Aufgaben ausführen und Probleme lösen.
- Der Begriff „Autonomie“ wird ebenfalls häufig verwendet, verstärkt ohne klare Definition jedoch nur die Verwirrung.
Konzeptionelle Grenzen:
- „Agenten“ bleiben weiterhin ein Konzept, das eher nach „demnächst“ aussieht als nach Realität.
- Es wurden 211 Definitionen gesammelt (über eine Umfrage auf Twitter) und mit dem Modell Gemini-exp-1206 zusammengefasst, doch ein klarer Konsens wurde weiterhin nicht erreicht.
Zweifel an der Nützlichkeit:
- Die praktische Nutzbarkeit von Agenten ist durch das Problem der „Leichtgläubigkeit“ von LLMs eingeschränkt.
- Wenn sie Wahrheit und Fiktion nicht unterscheiden können, ist es für Reisebüros, digitale Assistenten oder Recherchetools schwer, sinnvolle Entscheidungen zu treffen.
- Beispiel: der Fall, in dem die Google-Suche fälschlich einen nicht existierenden Film namens „Encanto 2“ auf Basis eines fiktiven Fan-Fiction-Wikis zusammenfasste.
Prompt Injection:
- Dieses Problem entsteht ebenfalls aus dieser Leichtgläubigkeit; darüber wird seit September 2022 diskutiert, doch auch 2024 gab es keine großen Fortschritte.
Fazit:
- Die populäre Vorstellung von Agenten scheint letztlich praktisch von AGI selbst abzuhängen.
- Die Entwicklung von Modellen mit gesicherter Zuverlässigkeit bleibt eine äußerst schwierige Aufgabe.

# Die Bedeutung von Evals

Evaluierung wird zur Schlüsselkompetenz:
- 2024 wurde das Schreiben guter automatischer Evaluierungen (Evals) für LLM-basierte Systeme zur wichtigsten Kompetenz.
- Mit starken Evaluierungstools lassen sich neue Modelle schnell einführen, bessere Iterationen durchführen und verlässliche Funktionen entwickeln.
Anthropics Ansatz:
- Amanda Askell: Das Geheimnis guter System-Prompts ist testgetriebene Entwicklung.
  - „Man schreibt nicht den System-Prompt und sucht dann nach Tests, sondern man schreibt die Tests und sucht dann nach einem System-Prompt, der sie besteht.“
- Dieser Ansatz spielte eine Schlüsselrolle bei der Entwicklung von Claude.
Das Beispiel von Vercel:
- Malte Ubl: Anfangs nutzte man komplexe Vor- und Nachverarbeitung, um den Prompt zu schützen.
  - Später erkannte man, dass die Einfachheit des Prompts sowie Evaluierung, Modell und UX wichtiger sind, und änderte den Kurs.
  - „Ein Prompt ohne Evaluierung ist wie eine kaputte Maschine ohne Bedienungsanleitung.“
Persönliche Untersuchung:
- Es wird weiter erforscht, welches das beste Muster zur Umsetzung effektiver Evaluierungen ist.
- Bislang wird zwar die Bedeutung von Evaluierungen betont, doch es fehlen hervorragende Leitfäden zur konkreten Umsetzung.
- Persönlich wurde der Benchmark „SVG-Pelikan auf einem Fahrrad“ verwendet, aber das ist kein Ersatz für ein richtiges Evaluierungstool.

# Apple Intelligence ist enttäuschend, aber die MLX-Bibliothek ist hervorragend

Verbesserte Erfahrung mit ML auf dem Mac:
- Ein Mac mit 64 GB RAM ist theoretisch gut für die Modellausführung geeignet, da CPU und GPU sich den Speicher teilen können.
- Wegen Modellen und Bibliotheken, die NVIDIA CUDA bevorzugen, waren Mac-Nutzer jedoch stark eingeschränkt.
Die Innovation der MLX-Bibliothek:
- Apples MLX (ein Array-Framework für Apple Silicon) ermöglicht es, auf dem Mac viele MLX-kompatible Modelle mit hervorragender Leistung auszuführen.
- mlx-lm für Python: unterstützt MLX-kompatible Modelle und bietet starke Performance.
- mlx-community von Hugging Face: bietet mehr als 1.000 Modelle, die in das benötigte Format konvertiert wurden.
- Prince Canumas Projekt mlx-vlm: ermöglicht die Ausführung von Vision-LLMs auf Apple Silicon.
  - Kürzlich wurde es verwendet, um Qwens QvQ auszuführen.
Die Enttäuschung über Apple Intelligence:
- Bei der Vorstellung im Juni 2024 weckte der Fokus auf LLM-Anwendungen mit starkem Schutz der Privatsphäre große Erwartungen.
- Die tatsächlich veröffentlichten Funktionen sind jedoch schwach und bleiben hinter den Fähigkeiten moderner LLMs zurück.
  - Beispiele:
    - Benachrichtigungszusammenfassungen, die Nachrichtenüberschriften falsch zusammenfassen.
    - Schreibassistenten mit geringem praktischen Nutzen.
  - Immerhin wird Genmoji als leicht unterhaltsame Funktion bewertet.
Die veränderte Haltung von Mac-Nutzern:
- Dank Tools wie MLX ist die Zufriedenheit mit der Wahl der Mac-Plattform deutlich gestiegen.
- Besonders die Umgebung zum Ausführen von LLMs auf Apple Silicon hat sich verbessert.

# Der Aufstieg von Reasoning-Modellen mit Inference-Scaling

Das Auftauchen einer neuen Form von LLMs:
- Im vierten Quartal 2024 wurde OpenAIs o1-Modell (o1-preview, o1-mini) erstmals am 12. September vorgestellt.
- Es entwickelt die Chain-of-Thought-Technik weiter, die darauf ausgelegt ist, dass das Modell Probleme beim „Denken“ löst.
Eigenschaften des o1-Modells:
- Es nutzt „Reasoning tokens“, um Probleme zu durchdenken; dieser Prozess ist für Nutzer nicht direkt sichtbar, kann aber in zusammengefasster Form in der ChatGPT-UI eingesehen werden.
- Leistungssteigerungen sind nicht nur durch mehr Rechenleistung beim Training möglich, sondern auch durch den Einsatz zusätzlicher Rechenleistung zur Inferenzzeit.
Die Skalierbarkeit des Modells:
- Um schwierigere Probleme zu verarbeiten, werden zum Zeitpunkt der Inferenz zusätzliche Rechenressourcen eingesetzt.
- Das ist eine neue Art, die bestehende LLM-Modellarchitektur zu skalieren.
Das Nachfolgemodell o3:
- Am 20. Dezember 2024 vorgestellt, mit beeindruckenden Ergebnissen im ARC-AGI-Benchmark.
- Möglicherweise fielen dabei Rechenkosten von über $1,000,000 an.
- Geplante Veröffentlichung im Januar 2025. Wegen der extrem hohen Rechenkosten dürfte der praktische Einsatz begrenzt sein.
Weitere wichtige Modellankündigungen:
- Google: Am 19. Dezember erschien gemini-2.0-flash-thinking-exp.
- Alibaba: Am 28. November wurde das QwQ-Modell (Apache-2.0-Lizenz) vorgestellt, das lokal ausgeführt werden kann.
  - Am 24. Dezember folgte das visuelle Reasoning-Modell QvQ, das ebenfalls lokal läuft.
- DeepSeek: Am 20. November stellte das Unternehmen das Modell DeepSeek-R1-Lite-Preview über eine Chat-Oberfläche bereit.
Zugehörige Forschung und Erwartungen:
- Anthropic und Meta haben noch keine offiziellen Modelle angekündigt, arbeiten aber wahrscheinlich an ähnlichen Inference-Scaling-Modellen.
- Meta veröffentlichte im Dezember die zugehörige Arbeit „Training Large Language Models to Reason in a Continuous Latent Space“.
- Weitere Informationen: Empfehlenswert ist Is AI progress slowing down? von Arvind Narayanan und Sayash Kapoor.

# Wurde das derzeit beste LLM in China für weniger als 6 Millionen Dollar trainiert?

Wichtige Nachricht:
- Zu Weihnachten 2024 wurde DeepSeek v3 auf Hugging Face veröffentlicht (zunächst ohne README-Datei, am nächsten Tag kamen Dokumentation und Paper hinzu).
- Es handelt sich um ein riesiges Modell mit 685B Parametern, deutlich größer als Metas Llama 3.1 405B.
- Es ist das größte Modell unter offener Lizenz.
Leistung:
- Benchmark-Leistung auf dem Niveau von Claude 3.5 Sonnet.
- Platz 7 in der Chatbot Arena, direkt hinter Gemini 2.0 und OpenAIs 4o/o1-Modellen.
- Bestplatzierte Modellreihe unter offener Lizenz.
Trainingskosten:
- DeepSeek v3: 2.788.000 H800-GPU-Stunden, Kosten von etwa $5,576,000.
- Meta Llama 3.1 405B: 30.840.000 GPU-Stunden und damit 11-mal mehr Aufwand als DeepSeek v3, bei leicht schwächerer Benchmark-Leistung.
Auswirkungen der chinesischen GPU-Exportbeschränkungen:
- Die GPU-Exportbeschränkungen der USA scheinen die Trainingsoptimierung stark beschleunigt zu haben.
- Das kosteneffiziente Training von DeepSeek v3 wird als Ergebnis dieser Optimierungen bewertet.

# Verbesserte Umweltauswirkungen

Weniger Energieverbrauch durch höhere Effizienz:
- Mit der stark gestiegenen Effizienz von Modellen sind Energieverbrauch und Umweltauswirkungen bei der Ausführung von Prompts in den vergangenen Jahren deutlich gesunken.
- OpenAI hat die Prompt-Kosten seit der Zeit von GPT-3 um das Hundertfache gesenkt.
- Auch Anbieter günstiger Modelle wie Google Gemini und Amazon Nova können Prompts ohne Verlust betreiben.
Aus Sicht einzelner Nutzer:
- Der Energieverbrauch der meisten Prompt-Ausführungen ist in der Praxis minimal.
- Die Umweltauswirkungen dürften geringer sein als bei einer kurzen Autofahrt oder dem Ansehen eines YouTube-Videos.
Sinkende Trainingskosten:
- Die Trainingskosten von unter 6 Millionen Dollar für DeepSeek v3 zeigen, dass die Trainingskosten weiter sinken könnten.
- Effizientes Training wird mit weniger Ressourcen möglich.
Vergleich mit ineffizienten Modellen:
- Die Trainingskosten des größten Llama-3-Modells entsprechen ungefähr den Energiekosten einiger voll besetzter kommerzieller Passagierflüge von New York nach London.
- Nach Abschluss des Trainings kann es jedoch von Millionen Menschen ohne zusätzliche Trainingskosten genutzt werden und ist damit langfristig effizient.

# Umweltauswirkungen verschlechtern sich weiter

Wettlauf um den Bau großer Rechenzentren:
- Große Unternehmen wie Google, Meta, Microsoft und Amazon investieren Milliardenbeträge in den Bau von Rechenzentren, um die Nachfrage nach künftigen Modellen zu decken.
- Dieser Ausbau der Infrastruktur hat erhebliche Auswirkungen auf Stromnetze und Umwelt.
- Es gibt auch Diskussionen über den Bau neuer Kernkraftwerke, doch das könnte Jahrzehnte dauern.
Kontroverse um die Notwendigkeit der Infrastruktur:
- Die Trainingskosten von DeepSeek v3 in Höhe von 6 Millionen US-Dollar und sinkende LLM-Preise deuten darauf hin, dass diese Expansion nicht zwingend notwendig sein könnte.
- Allerdings gibt es kaum Führungskräfte, die das Risiko eingehen würden, „die Infrastruktur nicht zu bauen und später festzustellen, dass das eine Fehlentscheidung war“.
Historische Parallele:
- Vergleichbar mit der Zeit des weltweiten Aufbaus von Eisenbahnnetzen im 19. Jahrhundert.
- Auch damals ging es mit enormen Investitionen und Umwelteinwirkungen einher, wobei viele Strecken redundant waren und sich im Nachhinein als unnötig erwiesen.
- Das führte letztlich zu mehreren Finanzkrisen:
  - Panik von 1873, Panik von 1893, Panik von 1901, Railway Mania in Großbritannien.
- Die Infrastruktur blieb bestehen, wurde aber von Masseninsolvenzen und Umweltschäden begleitet.
Lehren für die Gegenwart:
- Der Wettlauf um Rechenzentren könnte nützliche Infrastruktur hinterlassen, birgt aber auch das Risiko unnötiger Expansion und ökologischer Schäden.

# 2024, das Jahr des „Slop“

Definition von „Slop“:
- Der Begriff hat sich als Bezeichnung für unerwünschte und ungeprüfte Inhalte etabliert, die von KI erzeugt werden.
- So wie „Spam“ für unerwünschte E-Mails steht, ist auch „Slop“ so verbreitet geworden, dass es reif für die Aufnahme ins Wörterbuch ist.
Ursprung des Begriffs:
- Die Diskussion begann mit einem Tweet von @deepfates:
  - „In Echtzeit dabei zuzusehen, wie sich ‚Slop‘ als Begriff etabliert.“
- Im Mai 2024 wurde das Konzept weiter ausgearbeitet und als „nicht angeforderte und ungeprüfte KI-generierte Inhalte“ definiert.
Reaktion der Medien:
- Die NY Times und der Guardian zitierten Interviews zum Thema „slop“:
  - „Wir brauchen ein kurzes Wort für das, was mit moderner KI passiert. ‚Ignorier diese E-Mail, das ist Spam.‘ und ‚Ignorier diesen Artikel, das ist Slop.‘ sind beides nützliche Lektionen.“
Warum Slop wichtig ist:
- Der Begriff ist nützlich, um knappe Worte für missbräuchliche Anwendungen generativer KI zu haben.
- Er trägt dazu bei, dass KI effizient und verantwortungsvoll eingesetzt wird.
Kulturelle Wirkung im Jahr 2024:
- „Slop“ stand auf der Shortlist für das Oxford-Wort des Jahres, verlor jedoch gegen „brain rot“.

# Der überraschende Effekt synthetischer Trainingsdaten

Das Konzept des „Model Collapse“:
- Erstmals erwähnt im Mai-2023-Paper The Curse of Recursion, erhielt es im Juli 2024 in Nature mehr Aufmerksamkeit.
- Die Behauptung: Wenn KI-generierte Inhalte das Internet überschwemmen, würden Modelle wiederholt auf ihren eigenen Ausgaben trainieren und dadurch schlechter werden.
- Die Realität: Dieser Zusammenbruch ist nicht eingetreten; stattdessen wird das Training mit synthetischen Daten immer üblicher.
Vorteile synthetischer Daten:
- Erläutert im Phi-4 Technical Report:
  - Synthetische Daten sind kein Ersatz für organische Daten, sondern bieten direkte Vorteile, darunter:
    - Strukturiertes und schrittweises Lernen:
      - Bei organischen Daten sind die Beziehungen zwischen Tokens komplex und indirekt, was das Lernen erschwert.
      - Synthetische Daten hingegen werden von Sprachmodellen auf Basis vorheriger Tokens erzeugt, wodurch sich Denkmuster leichter erlernen lassen.
    - Der Lernprozess ist systematischer und vorhersehbarer.
Wie große Modelle kleineren Modellen helfen:
- Große Modelle erzeugen synthetische Daten für kleinere Modelle:
  - DeepSeek v3: nutzt von DeepSeek-R1 erzeugte „Reasoning“-Daten.
  - Meta Llama 3.3 70B: mit mehr als 25 Millionen synthetischen Beispielen feinabgestimmt.
Die Bedeutung von Datendesign:
- Datendesign entwickelt sich zum wichtigsten Faktor beim LLM-Training.
- Der frühere Ansatz, einfach wahllos das gesamte Internet zu scrapen und damit zu trainieren, wird nicht mehr verwendet.

# 2024 wurde die Nutzung von LLMs schwieriger

LLMs sind komplexe Werkzeuge:
- Oberflächlich wirken sie einfach, in Wirklichkeit sind sie jedoch „Power-User-Tools“, die tiefes Verständnis und Erfahrung erfordern.
- Beschrieben mit der Metapher, sie seien „komplizierte Werkzeuge wie eine Kettensäge, getarnt als Küchenmesser“.
Verschärfung des Problems im Jahr 2024:
- Die Modelle wurden leistungsfähiger, haben aber weiterhin ihre bisherigen Grenzen und Einschränkungen.
- Es wurden vielfältige Systeme eingeführt, die unterschiedliche Werkzeuge unterstützen, etwa Python, JavaScript, Websuche und Bildgenerierung.
- Nutzer müssen die Möglichkeiten und Grenzen jedes Werkzeugs verstehen, um sie effektiv einsetzen zu können.
Zunehmende Komplexität zwischen Systemen:
- Beispiel: In ChatGPT kann Python auf zwei verschiedene Arten ausgeführt werden.
- Um ein Claude Artifact zu erstellen, das mit externen APIs kommuniziert, braucht man Verständnis für CSP- und CORS-HTTP-Header.
- OpenAIs o1 läuft mit eingeschränkten Funktionen, während GPT-4o Websuche und Code Interpreter unterstützt.
  - Innerhalb derselben ChatGPT-UI muss man die Funktionsunterschiede dieser beiden Modelle verstehen.
Grenzen der User Experience:
- Die grundlegende Chat-UI von LLMs bietet eine User Experience, die sich anfühlt, als würde man Anfänger in ein Linux-Terminal setzen.
- Viele Nutzer entwickeln falsche mentale Modelle darüber, wie LLMs funktionieren und was sie leisten können.
  - Beispiel: Die Zahl irrationaler Fälle nimmt zu, in denen ChatGPT-Screenshots als Beleg in Debatten verwendet werden.
Ein doppeltes Problem:
- Fehlgebrauch: Nutzer halten LLMs trotz ihrer Unvollkommenheit für Universalwerkzeuge.
- Vermeidung: Selbst gut informierte Menschen verzichten wegen der Schwächen von LLMs vollständig auf ihren Einsatz.
- Wer LLMs effektiv nutzen will, muss mit einer unvollkommenen, aber leistungsstarken Technologie zusammenarbeiten können.
Bedarf an Bildungsinhalten:
- Nutzerbildung ist wichtig, derzeit fehlt sie jedoch.
- Statt sich auf überzogene Twitter-Threads über KI zu verlassen, braucht es verlässlichere Lernmaterialien.

# Die ungleiche Verteilung von Wissen

Was bekannt ist und was nicht:
- Die meisten Menschen kennen ChatGPT, aber nur sehr wenige haben überhaupt von Claude gehört.
- Die Wissenslücke zwischen Menschen, die das Feld aktiv verfolgen, und den übrigen 99 % ist enorm.
Das Tempo des Wandels:
- Die Geschwindigkeit technologischer Veränderungen verschärft diese Wissenslücke zusätzlich.
- Im vergangenen Monat wurden Live-Interfaces eingeführt:
  - Man kann mit der Stimme sprechen, während man mit der Handykamera auf etwas zeigt.
  - Man kann sogar eine Funktion auswählen, die das Auftreten des Weihnachtsmanns nachahmt.
- Selbst manche selbsternannten Technikbegeisterten haben solche Funktionen noch nie ausprobiert.
Gesellschaftliche Auswirkungen und Notwendigkeit:
- Angesichts der Auswirkungen dieser Technologien auf die heutige und künftige Gesellschaft ist das Ausmaß dieser Wissenslücke nicht gesund.
- Es braucht mehr Anstrengungen, um das zu verbessern.

# Wir brauchen bessere Kritik an LLMs

Abneigung gegenüber der Technologie:
- In einigen Communities wie Mastodon, Bluesky, Lobste.rs und Hacker News löst bereits die Aussage „LLMs sind nützlich“ Kontroversen aus.
- Gründe für die Ablehnung der Technologie:
  - Auswirkungen auf die Umwelt.
  - Ethische Probleme bei den Trainingsdaten.
  - Mangelnde Zuverlässigkeit.
  - Negative Anwendungsfälle.
  - Potenzielle Auswirkungen auf Arbeitsplätze.
Notwendigkeit von Kritik:
- LLMs verdienen Kritik, und es ist wichtig, Probleme zu diskutieren, Lösungen zu finden und einen verantwortungsvollen Umgang damit zu vermitteln.
- Das Ziel ist, dazu beizutragen, dass die positiven Einsatzmöglichkeiten die negativen Auswirkungen überwiegen.
Wert einer skeptischen Perspektive:
- Überzogener Hype hat die Probleme in den vergangenen zwei Jahren verschärft:
  - Fehlinformationen und übersteigerte Erwartungen waren weit verbreitet.
  - Falsche Entscheidungen wurden häufig getroffen.
- Kritisches Denken ist unverzichtbar, um diese Technologie richtig zu verstehen und sinnvoll einzusetzen.
Gespräche mit Entscheidungsträgern:
- Man sollte gute Anwendungsbeispiele anerkennen und zugleich erklären, wie sich nicht offensichtliche Fallstricke vermeiden lassen.
- Zu behaupten, es gebe keine guten Anwendungsfälle, übersieht den potenziellen Wert der Technologie.
Die richtige Botschaft vermitteln:
- Die verkürzte Kritik, es handle sich um „umweltzerstörerische Plagiatsmaschinen, die ständig lügen“, hilft nicht dabei, Probleme zu lösen.
- Um den tatsächlichen Wert von LLMs zu entdecken und zu realisieren, braucht es nicht offensichtliche Leitlinien und Aufklärung.
Verantwortungsvolle Rolle:
- Menschen, die diese Technologie verstehen, tragen die Verantwortung, anderen zu helfen, sie richtig einzusetzen.

1 Kommentare

GN⁺ 2025-01-01

Hacker-News-Kommentare

Viele Leute neigen dazu, LLMs für nutzlos zu halten, nachdem sie ChatGPT 4 verwendet haben. Claude Sonnet 3.5 kann jedoch weiterhin nützlich sein
- Die Nützlichkeit von LLMs hängt stark von den Kommunikationsfähigkeiten der Nutzer ab
- Durch präzise Fragen und Hintergrunderklärungen lässt sich die Leistung von LLMs maximieren
- Sie sind nützlich, um langweilige Aufgaben schnell zu erledigen
Der Begriff "Agent" hat keine klare Bedeutung und sorgt daher für Verwirrung
- Das Buzzword "agentic" kann unangenehm wirken
Es gibt Bedenken wegen sinkender LLM-Preise
- Die kostenlose Stufe von Gemini ist weiterhin attraktiv, aber schwer vertrauenswürdig
- Es besteht die Sorge, dass die Preise in der ersten Hälfte des Jahres 2025 wieder steigen könnten
Das Konzept des "Agenten" ist noch immer nicht klar definiert
- Ein echter "Agent" sollte nach dieser Ansicht Autonomie beinhalten
Der Behauptung, dass die Nutzung von LLMs schwieriger geworden sei, wird nicht zugestimmt
- Es gibt zwar mehr Optionen, aber die Nutzung selbst ist nicht schwieriger geworden
- Für Anfänger gelten weiterhin dieselben Hinweise
Es ist schwieriger geworden zu beurteilen, was "gut" ist
- Durch viel Benchmark-Manipulation ist die Lage verwirrend geworden
- Es besteht die Absicht, persönlich ein Test-Framework aufzubauen
Manche Menschen haben die Nutzung wegen der Mängel von LLMs aufgegeben
- Um LLMs bestmöglich zu nutzen, muss man lernen, mit instabiler, aber leistungsstarker Technologie zu arbeiten
Einige GPT-4-Modelle lassen sich sogar auf einem Laptop ausführen
- Das bedeutet, dass keine riesigen Rechenzentren nötig sind
- Der Wert von OpenAI könnte überschätzt worden sein
Es ist unklar, warum Apples Nutzung von 64 GB DRAM etwas Besonderes sein soll
- Es stellt sich die Frage, wie Apple DRAM beschafft, obwohl Rechenzentren den Großteil der RAM-Produktionskapazität beanspruchen
Es gibt Verwirrung über die Kostenstruktur von Google Gemini und Amazon Nova
- Es gibt sowohl die Behauptung, sie würden unterhalb der Energiekosten angeboten, als auch die gegenteilige Behauptung
Es gibt die Ansicht, dass LLMs für alltägliche Aufgaben nicht nützlich sind
- Es wird behauptet, neue LLM-Modelle seien nur überbewertete Verbesserungen
Es wurde erkannt, dass die moralischen Maßstäbe und Exzellenzstandards in dieser Branche niedrig sind
Es gibt Fragen zum aktuellen Stand, bei dem "Reasoning" in den latenten/neuronalen Raum verlagert wird
- Dass Modelle mit sich selbst sprechen, steht nur in geringem Bezug zur endgültigen Ausgabe und ist ineffizient

Was wir 2024 über LLMs gelernt haben

# GPT-4 klar übertroffen

# Einige GPT-4-Modelle laufen auf meinem Laptop

# Absturz der LLM-Preise, verursacht durch Wettbewerb und Effizienz

# Verbreitung multimodaler Vision, Audio und Video treten neu hinzu

# Sprachmodus und Live-Kameramodus, Science-Fiction wird Realität

# Prompt-basierte App-Erstellung, längst Alltag geworden

# Kostenloser Zugang zu den besten Modellen, nach wenigen Monaten vorbei

# „Agenten“, weiterhin ein Konzept ohne Realisierung

# Die Bedeutung von Evals

# Apple Intelligence ist enttäuschend, aber die MLX-Bibliothek ist hervorragend

# Der Aufstieg von Reasoning-Modellen mit Inference-Scaling

# Wurde das derzeit beste LLM in China für weniger als 6 Millionen Dollar trainiert?

# Verbesserte Umweltauswirkungen

# Umweltauswirkungen verschlechtern sich weiter

# 2024, das Jahr des „Slop“

# Der überraschende Effekt synthetischer Trainingsdaten

# 2024 wurde die Nutzung von LLMs schwieriger

# Die ungleiche Verteilung von Wissen

# Wir brauchen bessere Kritik an LLMs

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare