Wie der OpenAI-Mitgründer AI im Alltag und bei der Arbeit nutzt

(stdy.blog)

46 Punkte von spilist2 2025-03-04 | 3 Kommentare | Auf WhatsApp teilen

Zusammenfassung des am 28.2. veröffentlichten Vortrags How I use LLMs aus Andrej Karpathys AI-Kurs für die Allgemeinheit, ergänzt um Screenshots
Erstellt, weil die vielen Visualisierungen und Karpathys praktische Beispiele so wertvoll sind, dass eine reine Textzusammenfassung den Charakter des Videos nicht wirklich transportiert

Es gibt verschiedene Arten von LLMs

ChatGPT ist am bekanntesten und hat die meisten Funktionen. Daneben sind unter anderem diese bekannt:

Googles Gemini
Metas Meta AI
MSs Copilot
Anthropics Claude
xAIs Grok
Perplexity
Chinas DeepSeek
Le Chat von Mistral aus Frankreich

Wie ChatGPT funktioniert

Ein LLM ist ähnlich wie eine verlustbehaftet komprimierte ZIP-Datei des gesamten Internets mit 1 TB. Darin steckt ein künstliches neuronales Netz mit Billionen Parametern, das probabilistisch das „nächste Zeichen“ ausgibt.

Diese komprimierte Datei entsteht grob durch zwei Arten des Trainings.

Vortraining: kostet mehrere zehn Millionen Dollar und dauert mehr als drei Monate. Weil das teuer ist, passiert es nicht oft, und deshalb gibt es einen Knowledge Cutoff.

Nachtraining: deutlich günstigeres Fine-Tuning. Dadurch gibt das Modell nicht einfach nur Internetdokumente aus, sondern verhält sich wie ein Assistant, der auf Fragen der Nutzer antwortet.

überwachte Feinabstimmung mit Musterantworten (Supervised Fine-Tuning)
Reinforcement Learning auf Basis menschlicher Präferenzen für generierte Antworten (Reinforcement Learning from Human Feedback)
Reinforcement Learning auf Basis idealer Assistant-Antworten auf menschliche Fragen (Reinforcement Learning on Conversation)

Wenn man in ChatGPT eine neue Sitzung startet und der Nutzer eine Nachricht eingibt, wird diese tokenisiert und als Input an das Modell gegeben. Darüber erzeugt das LLM das nächste Token. Dieser gesamte Dialog (Nutzereingaben und ChatGPT-Ausgaben) wird im Context Window gespeichert.

Das Context Window ähnelt dem menschlichen Arbeitsgedächtnis und hat wie dieses Grenzen. Je länger das Context Window wird, desto etwas wahrscheinlicher werden ungenaue Informationen, und desto teurer (= langsamer) wird auch die Erzeugung der nächsten Antwort.

Wenn es nicht unbedingt nötig ist, ist es daher keine besonders gute Wahl, eine Sitzung sehr lange beizubehalten.

Wann sollte man ein „Thinking“-Modell verwenden?

Ein Modell, das zusätzlich per Reinforcement Learning darauf trainiert wurde, auf komplexe STEM-Probleme (Wissenschaft, Technik, Ingenieurwesen, Mathematik) mit langen Denkprozessen zu antworten, aufbauend auf einem LLM, das bereits Vor- und Nachtraining durchlaufen hat.

Weil es beim „Denken“ viele Tokens ausgibt, kostet es mehr Zeit und Geld, dafür steigt die Antwortgenauigkeit bei komplexen Problemen stark an.

Wichtig ist: Ein „denkendes“ Modell löst ein Problem nicht zwangsläufig korrekt, und umgekehrt kann auch ein Modell ohne „Thinking“ Probleme richtig lösen. (Bei einem komplexen Debugging-Problem von Karpathy waren alle Thinking-Modelle erfolgreich und ChatGPT-4o scheiterte, aber Sonnet 3.5, Gemini 2.0 Pro und Grok 3 schafften es auch ohne Thinking.)

Karpathy sagt, er testet zunächst mit einem schnellen non-thinking-Modell, und wenn ihm die Antwort verdächtig vorkommt, probiert er Thinking aus.

Werkzeuge, die LLMs unterstützen

Websuche

Es gibt Modelle mit und ohne Websuche. (Nicht nur bei der Suche gilt:) Man sollte immer wissen, was ein Modell kann und was nicht.

Suche ist vor allem deshalb nötig, weil ein Modell wegen des Knowledge Cutoff nicht auf aktuelle Daten antworten kann. Beim frühen ChatGPT ging das nicht; Perplexity hat diese Hürde durchbrochen und damit viele Nutzer gewonnen.

Je nach Nutzeranfrage entscheidet das System: „Dafür muss gesucht werden“, tokenisiert die Suchergebnisse aus dem Web und legt sie in das Context Window, bevor es antwortet. (Manchmal muss man auch ausdrücklich sagen, dass gesucht werden soll.)

Karpathy fragt inzwischen oft eher Perplexity als zu googeln. Er hat sich angewöhnt zu denken: „Solche Informationen frage ich Perplexity.“

Wenn man glaubt, dass man es durch Googeln und Klicken auf ein paar Top-Links herausfinden könnte (zum Beispiel: Ist der Aktienmarkt heute geöffnet? Wann wurde Staffel 3 von The White Lotus gedreht?)
Wenn sich Informationen laufend ändern und man den neuesten Stand braucht (zum Beispiel: Unterstützt Vercel PostgreSQL? Was machen die Darsteller aus Single’s Inferno Staffel 4 heute?)

Deep Research

Kurz gesagt ist das Websuche + Thinking. Im längeren Fall sucht das System über viele Minuten hinweg, ordnet die gewonnenen Informationen per Thinking und erstellt daraus einen Bericht.

Eine Besonderheit von ChatGPT Deep Research ist, dass es vor dem Start fragt, was die Absicht des Fragestellers ist und worauf es sich konzentrieren soll, um einen besseren Bericht zu erstellen. Ähnliche Funktionen gibt es auch bei Perplexity und bei Grok3 als „Deep Search“. Geschwindigkeit und Qualität unterscheiden sich jeweils.

Wie bei der Websuche gilt auch hier: Die Antworten können ungenau sein. Man sollte die Quellen selbst prüfen, aber als „sehr nützlicher erster Entwurf“ taugt es allemal.

Karpathy hat ungefähr 20 Deep-Research-Anfragen ausprobiert, und die Antworten von ChatGPT gefielen ihm am besten, weil sie am längsten und inhaltlich am ergiebigsten waren. Themen, die er gestellt hat:

Verständnis bestimmter Inhaltsstoffe in Nahrungsergänzungsmitteln
Welcher Browser ist besser für Sicherheit und Privatsphäre: Brave oder Arc?
Was sind die neuesten Technologien zur Verlängerung der Lebensdauer von Mäusen? Welche Interventionsansätze wurden ausprobiert? Ich komme aus dem ML-Bereich und bin es gewohnt, Metriken zu definieren und zu verbessern. Bewertet man die Lebensdauer von Mäusen ähnlich?
Erstelle mir eine Tabelle aller großen LLM-Forschungslabore in den USA: Wann gegründet, wie viele Mitarbeitende, wie gut finanziert?

Code Interpreter

Dabei schreibt das LLM Code, führt ihn aus und nutzt die Ergebnisse des Codes im Kontext für seine Antwort. Es gibt Python und JavaScript. Gut eingesetzt ist das sehr mächtig. Man kann es sich wie einen schlauen Junior vorstellen.

Datenanalyse mit ChatGPT 4o
Mit Claude eine Flashcard-App bauen, die Buchinhalte zusammenfasst
Mit Claude Mermaid-Diagramme erstellen, die Buchinhalte visualisieren
Mit Cursor ein Tic-Tac-Toe-Spiel bauen und es allein per Chat um einen Sieg-Effekt erweitern

Modalitäten

Mit einem LLM tauscht man nicht nur Text aus, sondern auch Audio, Bilder und Video.

Audio-Ein- und Ausgabe

Für Audio-Eingaben nutzt Karpathy auf dem Mac Diktier-Apps wie SuperWhisper, WisprFlow und MacWhisper. Er sagt, ungefähr die Hälfte dessen, was er früher getippt hätte, spricht er heute.

Audio-Ausgabe wird meist direkt in der App angeboten. Auch Bildschirmvorlesen ist möglich.

Im Grunde wird dabei aber weiterhin Text ausgetauscht. Es muss zuerst Speech-to-Text und danach wieder Text-to-Speech passieren, deshalb ist es langsam.

Es ist aber auch möglich, wirklich nur über Audio mit einem LLM zu interagieren, also Audioinformationen zu tokenisieren. Karpathy nennt das True Audio, in ChatGPT heißt es Advanced Voice Mode.

Demo-Video eines Gesprächs, in dem verschiedene Akzente und Sprechgeschwindigkeiten ausprobiert werden und sogar Tiergeräusche nachgeahmt werden

Auch Grok3 bietet im Mobile-App den Advanced Voice Mode. Mit kompromisslosen Modi wie Sexy Mode oder Schimpfmodus ist es in mancher Hinsicht sogar unterhaltsamer und interessanter.

Karpathys Demo-Video zu einem Gespräch mit Grok3

Bei NotebookLM kann man Dateien hochladen, analysieren lassen und dann auf dieser Grundlage mehrere Hosts einen Podcast mit natürlicher Stimme führen lassen. Man kann zwischendurch auch selbst eingreifen und frei Fragen stellen (Interactive Mode).

Karpathy hat häufig Podcasts zu Themen erstellt und angehört, in denen seine eigene Fachkenntnis nicht tief ist, seine Neugier aber groß. Solche selbst erzeugten Podcasts hat er unter dem Namen Histories of Mysteris auch auf Spotify veröffentlicht

Bild-Ein- und Ausgabe

Beim OCR hat Karpathy die Gewohnheit, immer erst zu prüfen, ob der Text korrekt gelesen wurde, und erst danach nach dem Inhalt zu fragen. Denn es besteht immer die Möglichkeit, dass falsch gelesen wurde.

Praktische Beispiele: Nährwertangaben auf Nahrungsergänzungsmitteln prüfen, Bluttestwerte und deren Interpretation, LaTeX-Version einer Formel erhalten, Memes interpretieren usw.

Für Bildausgabe nutzt man DALL·E, IdeoGram und ähnliche Systeme. Bildgenerierung ist keine im LLM eingebaute Funktion, sondern läuft über ein separates Modell, dem ein Prompt gegeben wird und das anschließend das erzeugte Bild zurückliefert.

Video-Ein- und Ausgabe

Wie bei Audio kann man mit Advanced Voice + Video als Eingabe Antworten erhalten. Das geht in Mobile-Apps. Vermutlich verarbeitet das LLM dabei nicht wirklich das Video als direkten Input, sondern nimmt in bestimmten Abständen Frames und wandelt sie in Bildeingaben um.

Karpathy selbst nutzt das nicht oft, findet es aber gut, weil auch Menschen ohne technischen Hintergrund, etwa die Generation seiner Eltern, sofort Fragen stellen und Antworten bekommen können.

Demo-Video

Für Videoausgabe gibt es verschiedene Modelle, darunter Sora. Karpathy hat derzeit den Eindruck, dass Google Veo 2 am realistischsten ist.

Vergleich von 9 Videomodellen

Zusätzliche Funktionen

Memory

Dinge, bei denen das System während eines Dialogs denkt „Wenn ich mir das merke, kann ich künftig besser antworten“, oder Dinge, bei denen der Nutzer ausdrücklich darum bittet, werden mit dem Hinweis „Memory Updated“ gespeichert
= Man kann es so verstehen, dass diese Dinge bei jedem neuen Chat in das Context Window aufgenommen werden. Die gesamte Liste lässt sich auch ansehen und verwalten

Customize

Wenn man hinterlegt, wie man angesprochen werden möchte, was man beruflich macht, wie Antworten formuliert sein sollen usw., antwortet das System ebenfalls mit diesen Informationen im Context Window
Karpathy experimentiert derzeit damit, dort Informationen zu hinterlegen, weil er aktuell Koreanisch lernt

Custom GPTs

Karpathy erstellt und nutzt mehrere GPTs zum Koreanischlernen. Einfache Prompts mit Few-Shot-Beispielen.

Korean Vocabulary Extractor: zerlegt koreanische Sätze und extrahiert Vokabeln

Korean Detailed Translator: ähnlich wie oben, aber mit wortgenauer Zuordnung und Übersetzung

KoreanCap: nimmt Bildschnappschüsse, führt OCR und Übersetzung aus und zerlegt die Wörter zusätzlich mitsamt Aussprache

3 Kommentare

halfenif 2025-03-06

> Gibt probabilistisch das „nächste Wort“ aus

Ich glaube kaum, dass es eine treffendere Beschreibung geben könnte.

ned0909 2025-03-05

Es ist faszinierend, Koreanisch zu lernen.

stadia 2025-03-04

https://youtube.com/watch/… Schauen Sie es mit Untertiteln an