Erfahrener LLM-Nutzer – warum ich sie in der Praxis trotzdem nicht oft verwende

(minimaxir.com)

29 Punkte von GN⁺ 2025-05-06 | 2 Kommentare | Auf WhatsApp teilen

Der Autor erklärt, dass er seit mehr als 10 Jahren zu LLMs und Textgenerierungstechnologien forscht, sie im Alltag aber überraschend selten nutzt
Bei der Nutzung von LLMs legt er großen Wert auf fein abgestimmte Kontrolle wie Prompt Engineering, System-Prompts und Temperature-Einstellungen und bevorzugt einen API-basierten Zugriff statt gewöhnlicher Frontends
Bei BuzzFeed setzte er LLMs zur Lösung konkreter Probleme ein, etwa für Daten-Labeling, Cluster-Zusammenfassungen von Artikeln und die Prüfung von Styleguides, und konnte damit große Zeiteinsparungen nachweisen
Zum Schreiben nutzt er keine LLMs, verwendet sie aber zur Überprüfung der Argumentation, indem er fiktive Hacker-News-Kommentare zur kritischen Perspektivprüfung erzeugen lässt
LLMs sind als Coding-Hilfe nützlich, doch bei komplexen oder verlässlichkeitskritischen Aufgaben setzt er lieber auf eigene Implementierungen; gegenüber Agents und Vibe Coding bleibt er skeptisch

Die Distanz zwischen mir und LLMs

Der Autor ist ein Data Scientist mit umfangreicher Erfahrung im Einsatz generativer KI-Tools, darunter RNN-basierte Textgenerierung, GPT-2-Tuning sowie Experimente mit GPT-3/ChatGPT
Dennoch nutzt er sie nur selten direkt; ob er sie einsetzt, entscheidet er pragmatisch als Werkzeug je nach Art und Bedarf der Aufgabe

Wie er LLMs steuert

Prompt Engineering ist der Kern seiner LLM-Nutzung, um gewünschte Ausgaben gezielt hervorzubringen
Statt eines allgemeinen Frontends (ChatGPT.com) ruft er lieber direkt APIs auf oder nutzt ein Backend-UI; besonders bevorzugt er die Claude Sonnet API
Über System-Prompts und die Temperature-Steuerung balanciert er Kreativität und Determinismus aus; meist setzt er 0.0 ~ 0.3, um vorhersagbare Ausgaben sicherzustellen
Auf das Hallucination-Problem (Erzeugen nicht faktischer Inhalte) achtet er besonders, da es bei höheren Temperature-Werten tendenziell schlimmer wird

Beispiele aus der Praxis

Automatisierung der BuzzFeed-Artikelklassifizierung: Mit Claude API, einem JSON-basierten Klassifikationsschema und temperature 0.0 werden präzise Kategorien zugewiesen
Zusammenfassung von Artikelclustern: Fünf ähnliche Artikel werden übergeben, woraufhin ein gemeinsamer Titel und eine Beschreibung zurückgegeben werden; so lässt sich die Cluster-Zusammenfassung effizient automatisieren
Prüfung von Zeichensetzung und Styleguide: Der gesamte Styleguide wird als System-Prompt eingebunden, damit grammatische Entscheidungen auf Basis der Richtlinien getroffen werden
Für jede dieser Aufgaben lässt sich innerhalb weniger Stunden ein POC erstellen, was gegenüber bisherigen Verfahren mehrere Tage Zeit spart

Schreiben selbst, Kritik mit LLM

Blogbeiträge schreibt er selbst, da sein Stil Eigenheiten hat, die LLMs nur schwer reproduzieren können
Er bittet ein LLM jedoch, wie ein Hacker-News-Nutzer kritische Kommentare zu verfassen, und nutzt es so als Werkzeug zum Aufspüren logischer Schwächen
Diese Methode verbessert die Qualität des Textes, ersetzt das Schreiben selbst aber nicht

Einsatz von LLMs beim Coding

Bei komplexen, aber wiederkehrenden Aufgaben wie dem Schreiben regulärer Ausdrücke oder Bildkompositionen mit Pillow tragen LLMs deutlich zur Produktivität bei
Andererseits treten Probleme bei neueren Bibliotheken wie Polars auf, wenn das LLM sie etwa mit pandas-Funktionen verwechselt
Echtzeit-Codevorschläge wie bei Copilot lehnt er eher ab, weil häufige mentale Kontextwechsel die Konzentration eher stören
Er vertritt die Haltung, dass bei von LLMs vorgeschlagenen Ideen „Idee übernehmen + selbst anpassen“ besser ist

Sicht auf Agents, MCP und Vibe Coding

MCP und Agents sind konzeptionell zwar verbessert worden, liefern in der Praxis aber keine wirklich neuen Use Cases
Vibe Coding kann für Hobbyprojekte nützlich sein, ist aber für offizielle Produkte ungeeignet und sollte nicht als Mittel zur Verantwortungsflucht dienen
Er betont die Haltung, dass nur verlässlicher Code professionell ist

Gedanken zur LLM-Industrie und zu Ethik

Die Behauptung, „LLMs seien nutzlos“, spiegele die Realität praktischer Nutzung nicht wider; entscheidend seien vielmehr kurzfristiger ROI und Probleme der Industriestruktur
Open-Source-Modelle und alternative Infrastruktur (Cerebras, Groq usw.) könnten die Nachfrage nach LLMs auch dann decken, wenn OpenAI verschwände
Letztlich sind LLMs Werkzeuge, die passend zum Zweck eingesetzt werden sollten; sowohl bedingungslose Verherrlichung als auch pauschale Ablehnung sind riskant

Fazit

LLMs sind Werkzeuge, mit denen man versucht, einen quadratischen Stift in ein rundes Loch zu drücken – sie können also ineffizient sein, aber auch innovativ
Entscheidend ist das Urteilsvermögen von Fachleuten darüber, wann, wo und wie man sie einsetzt; genau darin liegt die eigentliche Kompetenz im Zeitalter der LLMs

2 Kommentare

ifmkl 2025-05-07

Der letzte Satz spricht mir besonders aus der Seele. Außerdem war mein Eindruck ähnlich: Letztlich sind AI und LLM nur in dem Maß nutzbar und einsetzbar, wie es die Fähigkeiten der Nutzerin oder des Nutzers erlauben.

GN⁺ 2025-05-06

Hacker-News-Kommentare

Es gibt Meinungen zu den verwirrenden Aspekten, wenn erfahrene Programmierer mit LLMs arbeiten
- pandas ist die Standardbibliothek zur Bearbeitung tabellarischer Daten in Python und wird seit 2008 verwendet
- In letzter Zeit wird die neue Bibliothek polars verwendet, und LLMs verwechseln polars-Funktionen häufig mit pandas-Funktionen, sodass ein Blick in die Dokumentation nötig wird
- Der Grund, warum keine Coding-Agenten verwendet werden, ist, dass sie „ablenkend“ seien; das ist eine Haltung, mit der man sich als jemand, der Autovervollständigung nicht mag, identifizieren kann
- „Reine“ LLMs verursachen bei Coding-Aufgaben Codefehler, aber Agenten-LLM-Konfigurationen enthalten auch Code, der die Interaktion mit dem LLM strukturiert
- Wenn ein LLM einen Funktionsfehler erzeugt, kompiliert das Programm nicht, und der Agent erkennt dies, woraufhin das LLM wiederholt Korrekturen vornimmt
Beim prototypischen Erstellen von UIs oder Websites wird Vibe Coding verwendet
- Es gibt zwar keine Frontend-Erfahrung, aber es ist wertvoll, eine zu 80 % fertige Live-Demo zu erstellen und anderen zu zeigen
- Für ein echtes Produkt ist es noch nicht bereit, aber für Mockups für interne Diskussionen ist es nützlich
Es wurden verschiedene Methoden verwendet, um die besten Ergebnisse aus LLMs herauszuholen
- Sich Szenarien auszudenken, um LLMs „auszutricksen“, ist ineffizient, und die Wirkung kann je nach Modellversion stark variieren
Bei komplexen Codefragen zu weniger populären Bibliotheken ist man beim Output von LLMs vorsichtiger
- In den letzten Monaten war es effektiv, über die ChatGPT-Oberfläche Codefragen zu aktuellen Bibliotheken zu lösen
- Die Arbeit, Code auf eine neue JavaScript-Bibliothek zu aktualisieren, wurde erfolgreich durchgeführt
Es wird die Methode verwendet, die Dokumentation einer neuen Bibliothek oder sogar die gesamte Codebasis direkt in ein Long-Context-Modell einzufügen
- Für Bibliotheken mit weniger als 50.000 Tokens ist das effektiv, und Gemini 2.5 Pro verarbeitet auch mehrere Hunderttausend Tokens gut
Es gefällt, dass der Autor Chat-Logs eingefügt hat
- Viele Menschen können solche Informationen wegen möglicher Offenlegung nicht teilen, aber wenn Leistungen von LLMs behauptet werden, ist es wichtig, diese zu untermauern
ChatGPT.com oder allgemeine Benutzeroberflächen werden nicht verwendet
- Stattdessen werden die Backend-UIs der einzelnen LLM-Dienste genutzt, um bessere Ergebnisse zu erzielen
- OpenAI neigt dazu, Modelle in der ChatGPT-UI einzuschränken
Moderne LLM-Oberflächen, in denen sich ein System-Prompt nicht explizit setzen lässt, verwenden ihren eigenen System-Prompt
- ChatGPT hat einen System-Prompt, Claude hingegen nicht
- Bei neuen Modellen nimmt der Nutzen des System-Prompts ab
Bestimmte Einschränkungen für generierten Text festzulegen, ist im System-Prompt effektiver als im User-Prompt
- LLMs verstehen das Konzept von 30 Wörtern, leisten bei solchen Aufgaben aber nicht immer gute Arbeit
Es werden die Backend-UIs der einzelnen LLM-Dienste verwendet
- Man fragt sich, ob dafür ein benutzerdefinierter Wrapper zur Anbindung an die API genutzt wird oder ein bereits etablierter Client
JSON-Antworten funktionieren nicht immer wie erwartet
- Um konsistentes JSON zurückzugeben, wird ein JSON-Schema definiert, damit immer dieselbe Struktur zurückgegeben wird
LLMs werden genutzt, um Neues zu lernen oder kurze Skripte zu schreiben
- Interessant ist die Technik, den Text eines Blogposts in ein LLM einzugeben und es zu bitten, so zu tun, als wäre es ein zynischer Hacker-News-Kommentator, und fünf Kommentare zu schreiben