22 Punkte von GN⁺ 2025-01-01 | 1 Kommentare | Auf WhatsApp teilen

Zusammenfassung von Simon Willisons Überblick über alle Entwicklungen rund um LLMs im Jahr 2024

  • GPT-4 klar übertroffen
  • Einige GPT-4-Modelle laufen auf meinem Laptop
  • Absturz der LLM-Preise, verursacht durch Wettbewerb und Effizienz
  • Verbreitung multimodaler Vision, Audio und Video treten neu hinzu
  • Sprach- und Live-Kameramodus, Science-Fiction wird Realität
  • Prompt-basierte App-Erstellung, bereits Alltagstechnologie
  • Kostenloser Zugang zu den besten Modellen, nach wenigen Monaten wieder beendet
  • „Agenten“, weiterhin ein nicht realisiertes Konzept
  • Die Bedeutung von Evals
  • Apple Intelligence ist enttäuschend, aber die MLX-Bibliothek ist hervorragend
  • Skalierung des Schlussfolgerns und der Aufstieg von „Reasoning“-Modellen
  • Wurde das aktuell beste LLM in China für weniger als 6 Millionen Dollar trainiert?
  • Verbesserte Umweltauswirkungen
  • Umweltauswirkungen, weiter verschlechtert
  • 2024, das Jahr des „Slop“
  • Die erstaunliche Wirkung synthetischer Trainingsdaten
  • 2024 wurde die Nutzung von LLMs schwieriger
  • Die ungleiche Verteilung von Wissen
  • Wir brauchen bessere Kritik an LLMs

# GPT-4 klar übertroffen

  • Stand 2023: GPT-4 galt als bestes Sprachmodell, und andere AI-Labore konnten es nicht übertreffen. Die technologischen Geheimnisse von OpenAI standen im Mittelpunkt.
  • Veränderung 2024: 18 Organisationen veröffentlichten Modelle, die GPT-4 übertreffen. Im Chatbot-Arena-Leaderboard sind derzeit 70 Modelle gelistet, die GPT-4-0314 (veröffentlicht im März 2023) hinter sich lassen.
  • Wichtige Modelle und technologische Fortschritte
    • Google Gemini 1.5 Pro: veröffentlicht im Februar 2024
      • Bietet Ausgaben auf GPT-4-Niveau und neue Funktionen
      • Unterstützt eine Eingabekontextlänge von 1 Million (später 2 Millionen) Token
      • Einführung von Videoeingaben
      • Kann durch Verarbeitung sehr langer Eingaben Coding-Probleme lösen und ganze Bücher analysieren
      • Wurde in der Google-I/O-2024-Keynote als wichtige Ankündigung behandelt
    • Anthropic Claude 3-Serie:
      • Claude 3 Opus: veröffentlicht im März 2024, fiel durch hohe Leistung auf
      • Claude 3.5 Sonnet: veröffentlicht im Juni, Upgrade-Version am 22. Oktober angekündigt
      • Auch nach dem Upgrade blieb die Versionsnummer 3.5 bestehen, unter Fans als Claude 3.6 bezeichnet
  • Erweiterung der Kontextlänge
    • 2023: Die meisten Modelle unterstützten 4.096 bis 8.192 Token. Claude 2.1 war mit 200.000 Token eine Ausnahme
    • 2024: Wichtige Modelle unterstützen mehr als 100.000 Token, die Google-Gemini-Serie sogar bis zu 2 Millionen Token
    • Lange Eingabedaten können verarbeitet werden, um vielfältige Probleme zu lösen
    • Vorteilhaft für die Analyse ganzer Bücher oder das Lösen von Problemen auf Basis von Beispielcode
  • Modelle und Organisationen, die GPT-4 übertroffen haben
    • Organisationen mit Modellen, die laut Chatbot-Arena-Leaderboard besser abschneiden als GPT-4-0314:
      • Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI und weitere, insgesamt 18 Organisationen
    • Im Leaderboard liegt GPT-4-0314 derzeit im Bereich um Platz 70

# Einige GPT-4-Modelle laufen auf meinem Laptop

  • Verwendete Hardware: ein M2 MacBook Pro mit 64 GB RAM, veröffentlicht 2023. Ein rund zwei Jahre altes Gerät, derselbe Laptop, auf dem im März 2023 erstmals LLMs ausgeführt wurden.
  • Leistungswandel: Anfangs liefen darauf gerade so Modelle auf GPT-3-Niveau, inzwischen aber auch Modelle auf GPT-4-Niveau.
    • Qwen2.5-Coder-32B: Im November 2024 veröffentlichtes, auf Coding spezialisiertes Modell unter Apache-2.0-Lizenz.
    • Meta Llama 3.3 70B: Im Dezember 2024 veröffentlichtes Modell auf GPT-4-Niveau.
  • Bedeutung: Überraschend ist, dass Modelle auf GPT-4-Niveau nicht nur auf Data-Center-Servern mit GPUs für über 40.000 Dollar laufen, sondern auch auf einem Laptop.
    • Dabei wird fast der gesamte 64-GB-RAM genutzt, sodass andere Arbeiten kaum möglich sind.
    • Möglich wird das durch verbesserte Modelleffizienz. Das lässt sich als Ergebnis der Optimierungen des vergangenen Jahres sehen.
    • Es ist zu erwarten, dass sich die Effizienz noch deutlich weiter verbessern lässt.
  • Meta Llama 3.2-Modelle: Nicht auf GPT-4-Niveau, aber die Modelle mit 1B und 3B liefern trotz ihrer geringen Größe starke Leistung.
    • Llama 3.2 3B: Lässt sich mit der kostenlosen iOS-App MLC Chat ausführen.
    • Läuft mit weniger als 2 GB Größe auf dem iPhone und erzeugt 20 Token pro Sekunde.
    • Beispiel: Auf die Anfrage „Handlung eines Netflix-Weihnachtsfilms, in dem sich eine Datenjournalistin in einen lokalen Töpfer verliebt“ wird eine einfache, aber passende Antwort erzeugt.
      • Titel: „Love in the Clay“
      • Handlung: Die Protagonistin Jessica kehrt in ihre Heimatstadt Willow Creek zurück und untersucht die lokale Geschichte sowie die Auswirkungen der Gentrifizierung; daraus entwickelt sich die Geschichte.
    • Das Ergebnis ist gewöhnlich, aber dass so etwas auf einem iPhone möglich ist, bleibt bemerkenswert.

# Absturz der LLM-Preise, verursacht durch Wettbewerb und Effizienz

  • Preise Ende 2023: Die wichtigsten OpenAI-Modelle kosteten damals:
    • GPT-4: $30/million input tokens
    • GPT-4 Turbo: $10/mTok
    • GPT-3.5 Turbo: $1/mTok
  • Preisänderungen 2024:
    • OpenAI o1: mit $30/mTok das teuerste Modell
    • GPT-4o: $2.50/mTok (12-mal günstiger als GPT-4)
    • GPT-4o Mini: $0.15/mTok (etwa 7-mal günstiger als GPT-3.5 bei besserer Leistung)
    • Anthropic Claude 3 Haiku: $0.25/mTok (im März veröffentlicht, das günstigste Modell von Anthropic)
    • Google Gemini 1.5 Flash: $0.075/mTok
    • Google Gemini 1.5 Flash 8B: $0.0375/mTok (27-mal günstiger als GPT-3.5 Turbo)
  • Gründe für den Preisverfall:
    • Mehr Wettbewerb: Zahlreiche Modellanbieter traten in den Markt ein und verschärften den Preiswettbewerb.
    • Höhere Effizienz: Optimierungen bei Training und Inferenz der Modelle senkten den Energieverbrauch.
      • Die Sorge über die Energiekosten einzelner Prompt-Ausführungen nahm ab.
  • Effizienz und Umweltkosten:
    • Höhere Energieeffizienz reduziert Umweltbedenken.
    • Die Umweltauswirkungen des Ausbaus von Rechenzentren bleiben jedoch problematisch.
  • Berechnung realer Nutzungskosten:
    • Berechnung der Kosten für das Erzeugen von Beschreibungen für eine persönliche Fotobibliothek mit 68.000 Bildern mithilfe von Google Gemini 1.5 Flash 8B.
      • Pro Foto werden 260 Input-Token und 100 Output-Token benötigt.
      • Insgesamt 17.680.000 Input-Token * $0.0375/million = $0.66
      • Insgesamt 6.800.000 Output-Token * $0.15/million = $1.02
      • Gesamtkosten: Mit $1.68 lassen sich 68.000 Fotos verarbeiten.
  • Beispielbeschreibung:
    • Foto: Zwei Schmetterlinge fressen von einem roten Tablett in der California Academy of Sciences.
    • Erzeugte Beschreibung:
      • Foto von zwei Schmetterlingen, die auf einem roten Tablett Obst fressen.
      • Auch Farben und Muster der Schmetterlinge werden detailliert beschrieben.
    • Kosten: etwa 0,0024 Cent, also weniger als ein Vierhundertstel eines Cents.
  • Eine der größten Veränderungen 2024:
    • Durch sinkende Preise und geringere Energiekosten steigt der praktische Nutzen von LLMs stark an.

# Verbreitung multimodaler Vision, Audio und Video treten neu hinzu

  • Wichtige Trends 2024: Multimodale LLMs, die neben Text auch Bilder, Audio und Video sowie andere Eingaben verarbeiten, wurden zum Standard.
    • Beispiele aus 2023:
      • OpenAI GPT-4 Vision: auf dem DevDay im November 2023 veröffentlicht.
      • Google Gemini 1.0: am 7. Dezember 2023 angekündigt.
    • Wichtige Releases 2024:
      • Anthropic Claude 3-Serie: im März veröffentlicht.
      • Google Gemini 1.5 Pro: im April veröffentlicht (mit Unterstützung für Bild-, Audio- und Videoverarbeitung).
      • Qwen2-VL: im September veröffentlicht.
      • Mistral Pixtral 12B: im September veröffentlicht.
      • Meta Llama 3.2: im September veröffentlicht (Vision-Modelle mit 11B und 90B).
      • OpenAI Audio-Ein- und -Ausgabefunktionen: im Oktober hinzugefügt.
      • Hugging Face SmolVLM: im November veröffentlicht.
      • Amazon Nova Bild- und Videomodelle: im Dezember veröffentlicht.
  • Tools und Multimodal-Unterstützung:
    • Im Oktober 2024 wurde das persönlich genutzte LLM-CLI-Tool auf Unterstützung für multimodale Modelle aktualisiert.
    • Es wurden Plugins hinzugefügt, die Anhänge wie Bilder, Audio und Video verarbeiten können.
  • Die Bedeutung multimodaler Modelle:
    • Die Kritik, dass sich LLMs kaum noch verbessern, scheint die Fortschritte bei multimodalen Modellen zu übersehen.
    • Prompts mit Bildern, Audio und Video auszuführen, ist eine spannende Entwicklung, die neue Einsatzmöglichkeiten eröffnet.

# Sprachmodus und Live-Kameramodus, Science-Fiction wird Realität

  • Das Aufkommen früher Sprachmodi:
    • Im September 2023 wurde in der mobilen ChatGPT-App eine Sprachkonversationsfunktion hinzugefügt.
    • Dabei kamen die Modelle Whisper (Speech-to-Text) und tts-1 (Text-to-Speech) zum Einsatz, das Modell selbst verarbeitete jedoch tatsächlich nur Text.
  • GPT-4o-Sprachmodus:
    • Im neuen Sprachmodus, der am 13. Mai 2024 angekündigt wurde, unterstützt das GPT-4o-Modell als echtes multimodales Modell Audioeingaben und natürliche Sprachausgabe.
    • In der Demo wurde eine Scarlett Johansson ähnliche Stimme verwendet, nach der Kontroverse wurde diese Stimme jedoch nicht in das kommerzielle Produkt aufgenommen.
    • Verzögerungen beim Start des Sprachmodus sorgten für Verwirrung, doch im August und September wurde er schrittweise als ChatGPT Advanced Voice eingeführt.
      • Nutzungserfahrung: Gespräche im Sprachmodus beim Spazierengehen verbesserten die Qualität der Inhalte deutlich.
      • Experimente mit der OpenAI Audio API bestätigten verschiedene Sprachfunktionen.
  • Eigenschaften des Sprachmodus:
    • Advanced Voice kann verschiedene Akzente umsetzen.
    • Beispiel: die Aufforderung, mit starkem russischem Akzent eines kalifornischen Braunpelikans auf Spanisch zu sprechen.
  • Multimodale Sprachmodelle anderer Unternehmen:
    • Google Gemini: unterstützt Audioeingaben und ermöglicht Sprachgespräche ähnlich wie ChatGPT.
    • Amazon Nova: Sprachmodus vorab angekündigt (Veröffentlichung für Q1 2025 geplant).
    • Google NotebookLM (veröffentlicht im September 2024): erzeugt auf Basis der Eingaben ein Gespräch zwischen zwei „Podcast-Moderatoren“. Auch benutzerdefinierte Anweisungen sind möglich.
  • Das Aufkommen des Live-Videomodus:
    • Im Dezember 2024 wurde im ChatGPT-Sprachmodus die Funktion zum Teilen des Kamerafeeds hinzugefügt.
    • Dadurch sind Gespräche über den Kamerafeed in Echtzeit möglich.
    • Google Gemini bot zur gleichen Zeit eine ähnliche Funktion als Preview an.
  • API-Zugänglichkeit:
    • Sowohl OpenAI als auch Google bieten APIs für diese Funktionen an.
    • OpenAI kündigte im Dezember die WebRTC API an, um die Entwicklung sprachbasierter Web-Apps zu vereinfachen.

# Prompt-basierte App-Erstellung, längst Alltag geworden

  • Die Möglichkeiten von GPT-4 im Jahr 2023:
    • Mit GPT-4 konnten vollständige interaktive Apps in HTML, CSS und JavaScript erzeugt werden.
    • Auch Tools wie React konnten über zusätzliche Build-Mechanismen integriert werden.
  • Einführung von Claude Artifacts im Jahr 2024:
    • Eine neue Funktion, die Mitte der Ankündigung von Anthropic Claude 3.5 Sonnet vorgestellt wurde.
    • Nutzer konnten damit On-Demand-Apps erzeugen, die direkt in der Claude-Oberfläche ausführbar sind.
    • Beispiel: ein mit Claude erzeugtes URL-Extraktionstool.
      • Gibt man eine URL ein, wird sofort die extrahierte Liste angezeigt.
    • Es wurde die Erfahrung geteilt, innerhalb einer Woche mit Claude Artifacts 14 kleine Tools erstellt zu haben.
  • Einführung ähnlicher Funktionen bei Wettbewerbern:
    • GitHub Spark: im Oktober 2024 angekündigt.
    • Mistral Chat Canvas: im November 2024 hinzugefügt.
    • Steve Krause von Val Town: implementierte mit Cerebras-Modellen Echtzeit-App-Bearbeitung bei einer Verarbeitungsgeschwindigkeit von 2.000 Tokens pro Sekunde.
    • Das Team von Chatbot Arena: führte im Dezember ein neues Leaderboard ein, bei dem dieselbe App mit zwei Modellen erzeugt und anschließend darüber abgestimmt wird.
  • Eigene Projekte:
    • Im Datasette-Projekt wird daran gearbeitet, mithilfe von Prompts benutzerdefinierte Widgets und Datenvisualisierungen zu erzeugen und iterative Arbeit zu ermöglichen.
    • Mit uv wurde ein ähnliches Muster umgesetzt, um ein einzelnes Python-Programm zu schreiben.
  • Ausblick auf 2025:
    • Sobald Browser-Sandboxing-Probleme gelöst sind, ist es sehr wahrscheinlich, dass diese Funktion standardmäßig in vielen Produkten eingebaut wird.

# Kostenloser Zugang zu den besten Modellen, nach wenigen Monaten vorbei

  • Frühe kostenlose Verfügbarkeit 2024:
    • GPT-4o, Claude 3.5 Sonnet und Gemini 1.5 Pro — die damals drei besten Modelle — wurden den meisten Nutzern kostenlos angeboten.
    • OpenAI stellte GPT-4o im Mai 2024 kostenlos bereit.
    • Claude 3.5 Sonnet war ab seiner Veröffentlichung im Juni kostenlos nutzbar.
    • Zuvor hatten kostenlose Nutzer meist nur Zugang zu Modellen auf dem Niveau von GPT-3.5, doch in diesem Zeitraum bot sich die Gelegenheit, die echten Fähigkeiten leistungsstarker LLMs zu erleben.
  • Ende des kostenlosen Zugangs:
    • Mit der Einführung von ChatGPT Pro durch OpenAI endete der kostenlose Zugang.
    • ChatGPT Pro verlangt eine monatliche Gebühr von 200 US-Dollar und bietet Zugriff auf das leistungsstärkste Modell, o1 Pro.
  • Ausblick:
    • Das Hauptmerkmal der o1-Serie ist, mit mehr Rechenressourcen bessere Ergebnisse zu liefern.
    • Aufgrund dieser Kostenstruktur ist es unwahrscheinlich, dass die Zeit des kostenlosen Zugangs zu den besten Modellen zurückkehrt.

# „Agenten“, weiterhin ein Konzept ohne Realisierung

  • Unschärfe des Begriffs:
    • Dem Begriff „Agent“ fehlt weiterhin eine einheitliche, klare Definition, und jeder versteht etwas anderes darunter.
    • Im Allgemeinen lässt er sich in zwei Kategorien einteilen:
      • Agenten wie ein Reisebüromodell, die Aufgaben im Namen des Nutzers erledigen.
      • LLM-basierte Agenten, die auf Tools zugreifen, wiederholte Aufgaben ausführen und Probleme lösen.
    • Der Begriff „Autonomie“ wird ebenfalls häufig verwendet, verstärkt ohne klare Definition jedoch nur die Verwirrung.
  • Konzeptionelle Grenzen:
    • „Agenten“ bleiben weiterhin ein Konzept, das eher nach „demnächst“ aussieht als nach Realität.
    • Es wurden 211 Definitionen gesammelt (über eine Umfrage auf Twitter) und mit dem Modell Gemini-exp-1206 zusammengefasst, doch ein klarer Konsens wurde weiterhin nicht erreicht.
  • Zweifel an der Nützlichkeit:
    • Die praktische Nutzbarkeit von Agenten ist durch das Problem der „Leichtgläubigkeit“ von LLMs eingeschränkt.
    • Wenn sie Wahrheit und Fiktion nicht unterscheiden können, ist es für Reisebüros, digitale Assistenten oder Recherchetools schwer, sinnvolle Entscheidungen zu treffen.
    • Beispiel: der Fall, in dem die Google-Suche fälschlich einen nicht existierenden Film namens „Encanto 2“ auf Basis eines fiktiven Fan-Fiction-Wikis zusammenfasste.
  • Prompt Injection:
    • Dieses Problem entsteht ebenfalls aus dieser Leichtgläubigkeit; darüber wird seit September 2022 diskutiert, doch auch 2024 gab es keine großen Fortschritte.
  • Fazit:
    • Die populäre Vorstellung von Agenten scheint letztlich praktisch von AGI selbst abzuhängen.
    • Die Entwicklung von Modellen mit gesicherter Zuverlässigkeit bleibt eine äußerst schwierige Aufgabe.

# Die Bedeutung von Evals

  • Evaluierung wird zur Schlüsselkompetenz:
    • 2024 wurde das Schreiben guter automatischer Evaluierungen (Evals) für LLM-basierte Systeme zur wichtigsten Kompetenz.
    • Mit starken Evaluierungstools lassen sich neue Modelle schnell einführen, bessere Iterationen durchführen und verlässliche Funktionen entwickeln.
  • Anthropics Ansatz:
    • Amanda Askell: Das Geheimnis guter System-Prompts ist testgetriebene Entwicklung.
      • „Man schreibt nicht den System-Prompt und sucht dann nach Tests, sondern man schreibt die Tests und sucht dann nach einem System-Prompt, der sie besteht.“
    • Dieser Ansatz spielte eine Schlüsselrolle bei der Entwicklung von Claude.
  • Das Beispiel von Vercel:
    • Malte Ubl: Anfangs nutzte man komplexe Vor- und Nachverarbeitung, um den Prompt zu schützen.
      • Später erkannte man, dass die Einfachheit des Prompts sowie Evaluierung, Modell und UX wichtiger sind, und änderte den Kurs.
      • „Ein Prompt ohne Evaluierung ist wie eine kaputte Maschine ohne Bedienungsanleitung.“
  • Persönliche Untersuchung:
    • Es wird weiter erforscht, welches das beste Muster zur Umsetzung effektiver Evaluierungen ist.
    • Bislang wird zwar die Bedeutung von Evaluierungen betont, doch es fehlen hervorragende Leitfäden zur konkreten Umsetzung.
    • Persönlich wurde der Benchmark „SVG-Pelikan auf einem Fahrrad“ verwendet, aber das ist kein Ersatz für ein richtiges Evaluierungstool.

# Apple Intelligence ist enttäuschend, aber die MLX-Bibliothek ist hervorragend

  • Verbesserte Erfahrung mit ML auf dem Mac:
    • Ein Mac mit 64 GB RAM ist theoretisch gut für die Modellausführung geeignet, da CPU und GPU sich den Speicher teilen können.
    • Wegen Modellen und Bibliotheken, die NVIDIA CUDA bevorzugen, waren Mac-Nutzer jedoch stark eingeschränkt.
  • Die Innovation der MLX-Bibliothek:
    • Apples MLX (ein Array-Framework für Apple Silicon) ermöglicht es, auf dem Mac viele MLX-kompatible Modelle mit hervorragender Leistung auszuführen.
    • mlx-lm für Python: unterstützt MLX-kompatible Modelle und bietet starke Performance.
    • mlx-community von Hugging Face: bietet mehr als 1.000 Modelle, die in das benötigte Format konvertiert wurden.
    • Prince Canumas Projekt mlx-vlm: ermöglicht die Ausführung von Vision-LLMs auf Apple Silicon.
      • Kürzlich wurde es verwendet, um Qwens QvQ auszuführen.
  • Die Enttäuschung über Apple Intelligence:
    • Bei der Vorstellung im Juni 2024 weckte der Fokus auf LLM-Anwendungen mit starkem Schutz der Privatsphäre große Erwartungen.
    • Die tatsächlich veröffentlichten Funktionen sind jedoch schwach und bleiben hinter den Fähigkeiten moderner LLMs zurück.
      • Beispiele:
        • Benachrichtigungszusammenfassungen, die Nachrichtenüberschriften falsch zusammenfassen.
        • Schreibassistenten mit geringem praktischen Nutzen.
      • Immerhin wird Genmoji als leicht unterhaltsame Funktion bewertet.
  • Die veränderte Haltung von Mac-Nutzern:
    • Dank Tools wie MLX ist die Zufriedenheit mit der Wahl der Mac-Plattform deutlich gestiegen.
    • Besonders die Umgebung zum Ausführen von LLMs auf Apple Silicon hat sich verbessert.

# Der Aufstieg von Reasoning-Modellen mit Inference-Scaling

  • Das Auftauchen einer neuen Form von LLMs:
    • Im vierten Quartal 2024 wurde OpenAIs o1-Modell (o1-preview, o1-mini) erstmals am 12. September vorgestellt.
    • Es entwickelt die Chain-of-Thought-Technik weiter, die darauf ausgelegt ist, dass das Modell Probleme beim „Denken“ löst.
  • Eigenschaften des o1-Modells:
    • Es nutzt „Reasoning tokens“, um Probleme zu durchdenken; dieser Prozess ist für Nutzer nicht direkt sichtbar, kann aber in zusammengefasster Form in der ChatGPT-UI eingesehen werden.
    • Leistungssteigerungen sind nicht nur durch mehr Rechenleistung beim Training möglich, sondern auch durch den Einsatz zusätzlicher Rechenleistung zur Inferenzzeit.
  • Die Skalierbarkeit des Modells:
    • Um schwierigere Probleme zu verarbeiten, werden zum Zeitpunkt der Inferenz zusätzliche Rechenressourcen eingesetzt.
    • Das ist eine neue Art, die bestehende LLM-Modellarchitektur zu skalieren.
  • Das Nachfolgemodell o3:
    • Am 20. Dezember 2024 vorgestellt, mit beeindruckenden Ergebnissen im ARC-AGI-Benchmark.
    • Möglicherweise fielen dabei Rechenkosten von über $1,000,000 an.
    • Geplante Veröffentlichung im Januar 2025. Wegen der extrem hohen Rechenkosten dürfte der praktische Einsatz begrenzt sein.
  • Weitere wichtige Modellankündigungen:
    • Google: Am 19. Dezember erschien gemini-2.0-flash-thinking-exp.
    • Alibaba: Am 28. November wurde das QwQ-Modell (Apache-2.0-Lizenz) vorgestellt, das lokal ausgeführt werden kann.
      • Am 24. Dezember folgte das visuelle Reasoning-Modell QvQ, das ebenfalls lokal läuft.
    • DeepSeek: Am 20. November stellte das Unternehmen das Modell DeepSeek-R1-Lite-Preview über eine Chat-Oberfläche bereit.
  • Zugehörige Forschung und Erwartungen:
    • Anthropic und Meta haben noch keine offiziellen Modelle angekündigt, arbeiten aber wahrscheinlich an ähnlichen Inference-Scaling-Modellen.
    • Meta veröffentlichte im Dezember die zugehörige Arbeit „Training Large Language Models to Reason in a Continuous Latent Space“.
    • Weitere Informationen: Empfehlenswert ist Is AI progress slowing down? von Arvind Narayanan und Sayash Kapoor.

# Wurde das derzeit beste LLM in China für weniger als 6 Millionen Dollar trainiert?

  • Wichtige Nachricht:
    • Zu Weihnachten 2024 wurde DeepSeek v3 auf Hugging Face veröffentlicht (zunächst ohne README-Datei, am nächsten Tag kamen Dokumentation und Paper hinzu).
    • Es handelt sich um ein riesiges Modell mit 685B Parametern, deutlich größer als Metas Llama 3.1 405B.
    • Es ist das größte Modell unter offener Lizenz.
  • Leistung:
    • Benchmark-Leistung auf dem Niveau von Claude 3.5 Sonnet.
    • Platz 7 in der Chatbot Arena, direkt hinter Gemini 2.0 und OpenAIs 4o/o1-Modellen.
    • Bestplatzierte Modellreihe unter offener Lizenz.
  • Trainingskosten:
    • DeepSeek v3: 2.788.000 H800-GPU-Stunden, Kosten von etwa $5,576,000.
    • Meta Llama 3.1 405B: 30.840.000 GPU-Stunden und damit 11-mal mehr Aufwand als DeepSeek v3, bei leicht schwächerer Benchmark-Leistung.
  • Auswirkungen der chinesischen GPU-Exportbeschränkungen:
    • Die GPU-Exportbeschränkungen der USA scheinen die Trainingsoptimierung stark beschleunigt zu haben.
    • Das kosteneffiziente Training von DeepSeek v3 wird als Ergebnis dieser Optimierungen bewertet.

# Verbesserte Umweltauswirkungen

  • Weniger Energieverbrauch durch höhere Effizienz:
    • Mit der stark gestiegenen Effizienz von Modellen sind Energieverbrauch und Umweltauswirkungen bei der Ausführung von Prompts in den vergangenen Jahren deutlich gesunken.
    • OpenAI hat die Prompt-Kosten seit der Zeit von GPT-3 um das Hundertfache gesenkt.
    • Auch Anbieter günstiger Modelle wie Google Gemini und Amazon Nova können Prompts ohne Verlust betreiben.
  • Aus Sicht einzelner Nutzer:
    • Der Energieverbrauch der meisten Prompt-Ausführungen ist in der Praxis minimal.
    • Die Umweltauswirkungen dürften geringer sein als bei einer kurzen Autofahrt oder dem Ansehen eines YouTube-Videos.
  • Sinkende Trainingskosten:
    • Die Trainingskosten von unter 6 Millionen Dollar für DeepSeek v3 zeigen, dass die Trainingskosten weiter sinken könnten.
    • Effizientes Training wird mit weniger Ressourcen möglich.
  • Vergleich mit ineffizienten Modellen:
    • Die Trainingskosten des größten Llama-3-Modells entsprechen ungefähr den Energiekosten einiger voll besetzter kommerzieller Passagierflüge von New York nach London.
    • Nach Abschluss des Trainings kann es jedoch von Millionen Menschen ohne zusätzliche Trainingskosten genutzt werden und ist damit langfristig effizient.

# Umweltauswirkungen verschlechtern sich weiter

  • Wettlauf um den Bau großer Rechenzentren:
    • Große Unternehmen wie Google, Meta, Microsoft und Amazon investieren Milliardenbeträge in den Bau von Rechenzentren, um die Nachfrage nach künftigen Modellen zu decken.
    • Dieser Ausbau der Infrastruktur hat erhebliche Auswirkungen auf Stromnetze und Umwelt.
    • Es gibt auch Diskussionen über den Bau neuer Kernkraftwerke, doch das könnte Jahrzehnte dauern.
  • Kontroverse um die Notwendigkeit der Infrastruktur:
    • Die Trainingskosten von DeepSeek v3 in Höhe von 6 Millionen US-Dollar und sinkende LLM-Preise deuten darauf hin, dass diese Expansion nicht zwingend notwendig sein könnte.
    • Allerdings gibt es kaum Führungskräfte, die das Risiko eingehen würden, „die Infrastruktur nicht zu bauen und später festzustellen, dass das eine Fehlentscheidung war“.
  • Historische Parallele:
    • Vergleichbar mit der Zeit des weltweiten Aufbaus von Eisenbahnnetzen im 19. Jahrhundert.
    • Auch damals ging es mit enormen Investitionen und Umwelteinwirkungen einher, wobei viele Strecken redundant waren und sich im Nachhinein als unnötig erwiesen.
    • Das führte letztlich zu mehreren Finanzkrisen:
      • Panik von 1873, Panik von 1893, Panik von 1901, Railway Mania in Großbritannien.
    • Die Infrastruktur blieb bestehen, wurde aber von Masseninsolvenzen und Umweltschäden begleitet.
  • Lehren für die Gegenwart:
    • Der Wettlauf um Rechenzentren könnte nützliche Infrastruktur hinterlassen, birgt aber auch das Risiko unnötiger Expansion und ökologischer Schäden.

# 2024, das Jahr des „Slop“

  • Definition von „Slop“:
    • Der Begriff hat sich als Bezeichnung für unerwünschte und ungeprüfte Inhalte etabliert, die von KI erzeugt werden.
    • So wie „Spam“ für unerwünschte E-Mails steht, ist auch „Slop“ so verbreitet geworden, dass es reif für die Aufnahme ins Wörterbuch ist.
  • Ursprung des Begriffs:
    • Die Diskussion begann mit einem Tweet von @deepfates:
      • „In Echtzeit dabei zuzusehen, wie sich ‚Slop‘ als Begriff etabliert.“
    • Im Mai 2024 wurde das Konzept weiter ausgearbeitet und als „nicht angeforderte und ungeprüfte KI-generierte Inhalte“ definiert.
  • Reaktion der Medien:
    • Die NY Times und der Guardian zitierten Interviews zum Thema „slop“:
      • „Wir brauchen ein kurzes Wort für das, was mit moderner KI passiert. ‚Ignorier diese E-Mail, das ist Spam.‘ und ‚Ignorier diesen Artikel, das ist Slop.‘ sind beides nützliche Lektionen.“
  • Warum Slop wichtig ist:
    • Der Begriff ist nützlich, um knappe Worte für missbräuchliche Anwendungen generativer KI zu haben.
    • Er trägt dazu bei, dass KI effizient und verantwortungsvoll eingesetzt wird.
  • Kulturelle Wirkung im Jahr 2024:
    • „Slop“ stand auf der Shortlist für das Oxford-Wort des Jahres, verlor jedoch gegen „brain rot“.

# Der überraschende Effekt synthetischer Trainingsdaten

  • Das Konzept des „Model Collapse“:
    • Erstmals erwähnt im Mai-2023-Paper The Curse of Recursion, erhielt es im Juli 2024 in Nature mehr Aufmerksamkeit.
    • Die Behauptung: Wenn KI-generierte Inhalte das Internet überschwemmen, würden Modelle wiederholt auf ihren eigenen Ausgaben trainieren und dadurch schlechter werden.
    • Die Realität: Dieser Zusammenbruch ist nicht eingetreten; stattdessen wird das Training mit synthetischen Daten immer üblicher.
  • Vorteile synthetischer Daten:
    • Erläutert im Phi-4 Technical Report:
      • Synthetische Daten sind kein Ersatz für organische Daten, sondern bieten direkte Vorteile, darunter:
        • Strukturiertes und schrittweises Lernen:
          • Bei organischen Daten sind die Beziehungen zwischen Tokens komplex und indirekt, was das Lernen erschwert.
          • Synthetische Daten hingegen werden von Sprachmodellen auf Basis vorheriger Tokens erzeugt, wodurch sich Denkmuster leichter erlernen lassen.
        • Der Lernprozess ist systematischer und vorhersehbarer.
  • Wie große Modelle kleineren Modellen helfen:
    • Große Modelle erzeugen synthetische Daten für kleinere Modelle:
      • DeepSeek v3: nutzt von DeepSeek-R1 erzeugte „Reasoning“-Daten.
      • Meta Llama 3.3 70B: mit mehr als 25 Millionen synthetischen Beispielen feinabgestimmt.
  • Die Bedeutung von Datendesign:
    • Datendesign entwickelt sich zum wichtigsten Faktor beim LLM-Training.
    • Der frühere Ansatz, einfach wahllos das gesamte Internet zu scrapen und damit zu trainieren, wird nicht mehr verwendet.

# 2024 wurde die Nutzung von LLMs schwieriger

  • LLMs sind komplexe Werkzeuge:
    • Oberflächlich wirken sie einfach, in Wirklichkeit sind sie jedoch „Power-User-Tools“, die tiefes Verständnis und Erfahrung erfordern.
    • Beschrieben mit der Metapher, sie seien „komplizierte Werkzeuge wie eine Kettensäge, getarnt als Küchenmesser“.
  • Verschärfung des Problems im Jahr 2024:
    • Die Modelle wurden leistungsfähiger, haben aber weiterhin ihre bisherigen Grenzen und Einschränkungen.
    • Es wurden vielfältige Systeme eingeführt, die unterschiedliche Werkzeuge unterstützen, etwa Python, JavaScript, Websuche und Bildgenerierung.
    • Nutzer müssen die Möglichkeiten und Grenzen jedes Werkzeugs verstehen, um sie effektiv einsetzen zu können.
  • Zunehmende Komplexität zwischen Systemen:
    • Beispiel: In ChatGPT kann Python auf zwei verschiedene Arten ausgeführt werden.
    • Um ein Claude Artifact zu erstellen, das mit externen APIs kommuniziert, braucht man Verständnis für CSP- und CORS-HTTP-Header.
    • OpenAIs o1 läuft mit eingeschränkten Funktionen, während GPT-4o Websuche und Code Interpreter unterstützt.
      • Innerhalb derselben ChatGPT-UI muss man die Funktionsunterschiede dieser beiden Modelle verstehen.
  • Grenzen der User Experience:
    • Die grundlegende Chat-UI von LLMs bietet eine User Experience, die sich anfühlt, als würde man Anfänger in ein Linux-Terminal setzen.
    • Viele Nutzer entwickeln falsche mentale Modelle darüber, wie LLMs funktionieren und was sie leisten können.
      • Beispiel: Die Zahl irrationaler Fälle nimmt zu, in denen ChatGPT-Screenshots als Beleg in Debatten verwendet werden.
  • Ein doppeltes Problem:
    • Fehlgebrauch: Nutzer halten LLMs trotz ihrer Unvollkommenheit für Universalwerkzeuge.
    • Vermeidung: Selbst gut informierte Menschen verzichten wegen der Schwächen von LLMs vollständig auf ihren Einsatz.
    • Wer LLMs effektiv nutzen will, muss mit einer unvollkommenen, aber leistungsstarken Technologie zusammenarbeiten können.
  • Bedarf an Bildungsinhalten:
    • Nutzerbildung ist wichtig, derzeit fehlt sie jedoch.
    • Statt sich auf überzogene Twitter-Threads über KI zu verlassen, braucht es verlässlichere Lernmaterialien.

# Die ungleiche Verteilung von Wissen

  • Was bekannt ist und was nicht:
    • Die meisten Menschen kennen ChatGPT, aber nur sehr wenige haben überhaupt von Claude gehört.
    • Die Wissenslücke zwischen Menschen, die das Feld aktiv verfolgen, und den übrigen 99 % ist enorm.
  • Das Tempo des Wandels:
    • Die Geschwindigkeit technologischer Veränderungen verschärft diese Wissenslücke zusätzlich.
    • Im vergangenen Monat wurden Live-Interfaces eingeführt:
      • Man kann mit der Stimme sprechen, während man mit der Handykamera auf etwas zeigt.
      • Man kann sogar eine Funktion auswählen, die das Auftreten des Weihnachtsmanns nachahmt.
    • Selbst manche selbsternannten Technikbegeisterten haben solche Funktionen noch nie ausprobiert.
  • Gesellschaftliche Auswirkungen und Notwendigkeit:
    • Angesichts der Auswirkungen dieser Technologien auf die heutige und künftige Gesellschaft ist das Ausmaß dieser Wissenslücke nicht gesund.
    • Es braucht mehr Anstrengungen, um das zu verbessern.

# Wir brauchen bessere Kritik an LLMs

  • Abneigung gegenüber der Technologie:
    • In einigen Communities wie Mastodon, Bluesky, Lobste.rs und Hacker News löst bereits die Aussage „LLMs sind nützlich“ Kontroversen aus.
    • Gründe für die Ablehnung der Technologie:
      • Auswirkungen auf die Umwelt.
      • Ethische Probleme bei den Trainingsdaten.
      • Mangelnde Zuverlässigkeit.
      • Negative Anwendungsfälle.
      • Potenzielle Auswirkungen auf Arbeitsplätze.
  • Notwendigkeit von Kritik:
    • LLMs verdienen Kritik, und es ist wichtig, Probleme zu diskutieren, Lösungen zu finden und einen verantwortungsvollen Umgang damit zu vermitteln.
    • Das Ziel ist, dazu beizutragen, dass die positiven Einsatzmöglichkeiten die negativen Auswirkungen überwiegen.
  • Wert einer skeptischen Perspektive:
    • Überzogener Hype hat die Probleme in den vergangenen zwei Jahren verschärft:
      • Fehlinformationen und übersteigerte Erwartungen waren weit verbreitet.
      • Falsche Entscheidungen wurden häufig getroffen.
    • Kritisches Denken ist unverzichtbar, um diese Technologie richtig zu verstehen und sinnvoll einzusetzen.
  • Gespräche mit Entscheidungsträgern:
    • Man sollte gute Anwendungsbeispiele anerkennen und zugleich erklären, wie sich nicht offensichtliche Fallstricke vermeiden lassen.
    • Zu behaupten, es gebe keine guten Anwendungsfälle, übersieht den potenziellen Wert der Technologie.
  • Die richtige Botschaft vermitteln:
    • Die verkürzte Kritik, es handle sich um „umweltzerstörerische Plagiatsmaschinen, die ständig lügen“, hilft nicht dabei, Probleme zu lösen.
    • Um den tatsächlichen Wert von LLMs zu entdecken und zu realisieren, braucht es nicht offensichtliche Leitlinien und Aufklärung.
  • Verantwortungsvolle Rolle:
    • Menschen, die diese Technologie verstehen, tragen die Verantwortung, anderen zu helfen, sie richtig einzusetzen.

1 Kommentare

 
GN⁺ 2025-01-01
Hacker-News-Kommentare
  • Viele Leute neigen dazu, LLMs für nutzlos zu halten, nachdem sie ChatGPT 4 verwendet haben. Claude Sonnet 3.5 kann jedoch weiterhin nützlich sein

    • Die Nützlichkeit von LLMs hängt stark von den Kommunikationsfähigkeiten der Nutzer ab
    • Durch präzise Fragen und Hintergrunderklärungen lässt sich die Leistung von LLMs maximieren
    • Sie sind nützlich, um langweilige Aufgaben schnell zu erledigen
  • Der Begriff "Agent" hat keine klare Bedeutung und sorgt daher für Verwirrung

    • Das Buzzword "agentic" kann unangenehm wirken
  • Es gibt Bedenken wegen sinkender LLM-Preise

    • Die kostenlose Stufe von Gemini ist weiterhin attraktiv, aber schwer vertrauenswürdig
    • Es besteht die Sorge, dass die Preise in der ersten Hälfte des Jahres 2025 wieder steigen könnten
  • Das Konzept des "Agenten" ist noch immer nicht klar definiert

    • Ein echter "Agent" sollte nach dieser Ansicht Autonomie beinhalten
  • Der Behauptung, dass die Nutzung von LLMs schwieriger geworden sei, wird nicht zugestimmt

    • Es gibt zwar mehr Optionen, aber die Nutzung selbst ist nicht schwieriger geworden
    • Für Anfänger gelten weiterhin dieselben Hinweise
  • Es ist schwieriger geworden zu beurteilen, was "gut" ist

    • Durch viel Benchmark-Manipulation ist die Lage verwirrend geworden
    • Es besteht die Absicht, persönlich ein Test-Framework aufzubauen
  • Manche Menschen haben die Nutzung wegen der Mängel von LLMs aufgegeben

    • Um LLMs bestmöglich zu nutzen, muss man lernen, mit instabiler, aber leistungsstarker Technologie zu arbeiten
  • Einige GPT-4-Modelle lassen sich sogar auf einem Laptop ausführen

    • Das bedeutet, dass keine riesigen Rechenzentren nötig sind
    • Der Wert von OpenAI könnte überschätzt worden sein
  • Es ist unklar, warum Apples Nutzung von 64 GB DRAM etwas Besonderes sein soll

    • Es stellt sich die Frage, wie Apple DRAM beschafft, obwohl Rechenzentren den Großteil der RAM-Produktionskapazität beanspruchen
  • Es gibt Verwirrung über die Kostenstruktur von Google Gemini und Amazon Nova

    • Es gibt sowohl die Behauptung, sie würden unterhalb der Energiekosten angeboten, als auch die gegenteilige Behauptung
  • Es gibt die Ansicht, dass LLMs für alltägliche Aufgaben nicht nützlich sind

    • Es wird behauptet, neue LLM-Modelle seien nur überbewertete Verbesserungen
  • Es wurde erkannt, dass die moralischen Maßstäbe und Exzellenzstandards in dieser Branche niedrig sind

  • Es gibt Fragen zum aktuellen Stand, bei dem "Reasoning" in den latenten/neuronalen Raum verlagert wird

    • Dass Modelle mit sich selbst sprechen, steht nur in geringem Bezug zur endgültigen Ausgabe und ist ineffizient