- Der Autor erklärt, dass er seit mehr als 10 Jahren zu LLMs und Textgenerierungstechnologien forscht, sie im Alltag aber überraschend selten nutzt
- Bei der Nutzung von LLMs legt er großen Wert auf fein abgestimmte Kontrolle wie Prompt Engineering, System-Prompts und Temperature-Einstellungen und bevorzugt einen API-basierten Zugriff statt gewöhnlicher Frontends
- Bei BuzzFeed setzte er LLMs zur Lösung konkreter Probleme ein, etwa für Daten-Labeling, Cluster-Zusammenfassungen von Artikeln und die Prüfung von Styleguides, und konnte damit große Zeiteinsparungen nachweisen
- Zum Schreiben nutzt er keine LLMs, verwendet sie aber zur Überprüfung der Argumentation, indem er fiktive Hacker-News-Kommentare zur kritischen Perspektivprüfung erzeugen lässt
- LLMs sind als Coding-Hilfe nützlich, doch bei komplexen oder verlässlichkeitskritischen Aufgaben setzt er lieber auf eigene Implementierungen; gegenüber Agents und Vibe Coding bleibt er skeptisch
Die Distanz zwischen mir und LLMs
- Der Autor ist ein Data Scientist mit umfangreicher Erfahrung im Einsatz generativer KI-Tools, darunter RNN-basierte Textgenerierung, GPT-2-Tuning sowie Experimente mit GPT-3/ChatGPT
- Dennoch nutzt er sie nur selten direkt; ob er sie einsetzt, entscheidet er pragmatisch als Werkzeug je nach Art und Bedarf der Aufgabe
Wie er LLMs steuert
- Prompt Engineering ist der Kern seiner LLM-Nutzung, um gewünschte Ausgaben gezielt hervorzubringen
- Statt eines allgemeinen Frontends (ChatGPT.com) ruft er lieber direkt APIs auf oder nutzt ein Backend-UI; besonders bevorzugt er die Claude Sonnet API
- Über System-Prompts und die Temperature-Steuerung balanciert er Kreativität und Determinismus aus; meist setzt er
0.0 ~ 0.3, um vorhersagbare Ausgaben sicherzustellen
- Auf das Hallucination-Problem (Erzeugen nicht faktischer Inhalte) achtet er besonders, da es bei höheren Temperature-Werten tendenziell schlimmer wird
Beispiele aus der Praxis
- Automatisierung der BuzzFeed-Artikelklassifizierung: Mit Claude API, einem JSON-basierten Klassifikationsschema und
temperature 0.0 werden präzise Kategorien zugewiesen
- Zusammenfassung von Artikelclustern: Fünf ähnliche Artikel werden übergeben, woraufhin ein gemeinsamer Titel und eine Beschreibung zurückgegeben werden; so lässt sich die Cluster-Zusammenfassung effizient automatisieren
- Prüfung von Zeichensetzung und Styleguide: Der gesamte Styleguide wird als System-Prompt eingebunden, damit grammatische Entscheidungen auf Basis der Richtlinien getroffen werden
- Für jede dieser Aufgaben lässt sich innerhalb weniger Stunden ein POC erstellen, was gegenüber bisherigen Verfahren mehrere Tage Zeit spart
Schreiben selbst, Kritik mit LLM
- Blogbeiträge schreibt er selbst, da sein Stil Eigenheiten hat, die LLMs nur schwer reproduzieren können
- Er bittet ein LLM jedoch, wie ein Hacker-News-Nutzer kritische Kommentare zu verfassen, und nutzt es so als Werkzeug zum Aufspüren logischer Schwächen
- Diese Methode verbessert die Qualität des Textes, ersetzt das Schreiben selbst aber nicht
Einsatz von LLMs beim Coding
- Bei komplexen, aber wiederkehrenden Aufgaben wie dem Schreiben regulärer Ausdrücke oder Bildkompositionen mit Pillow tragen LLMs deutlich zur Produktivität bei
- Andererseits treten Probleme bei neueren Bibliotheken wie Polars auf, wenn das LLM sie etwa mit pandas-Funktionen verwechselt
- Echtzeit-Codevorschläge wie bei Copilot lehnt er eher ab, weil häufige mentale Kontextwechsel die Konzentration eher stören
- Er vertritt die Haltung, dass bei von LLMs vorgeschlagenen Ideen „Idee übernehmen + selbst anpassen“ besser ist
Sicht auf Agents, MCP und Vibe Coding
- MCP und Agents sind konzeptionell zwar verbessert worden, liefern in der Praxis aber keine wirklich neuen Use Cases
- Vibe Coding kann für Hobbyprojekte nützlich sein, ist aber für offizielle Produkte ungeeignet und sollte nicht als Mittel zur Verantwortungsflucht dienen
- Er betont die Haltung, dass nur verlässlicher Code professionell ist
Gedanken zur LLM-Industrie und zu Ethik
- Die Behauptung, „LLMs seien nutzlos“, spiegele die Realität praktischer Nutzung nicht wider; entscheidend seien vielmehr kurzfristiger ROI und Probleme der Industriestruktur
- Open-Source-Modelle und alternative Infrastruktur (Cerebras, Groq usw.) könnten die Nachfrage nach LLMs auch dann decken, wenn OpenAI verschwände
- Letztlich sind LLMs Werkzeuge, die passend zum Zweck eingesetzt werden sollten; sowohl bedingungslose Verherrlichung als auch pauschale Ablehnung sind riskant
Fazit
- LLMs sind Werkzeuge, mit denen man versucht, einen quadratischen Stift in ein rundes Loch zu drücken – sie können also ineffizient sein, aber auch innovativ
- Entscheidend ist das Urteilsvermögen von Fachleuten darüber, wann, wo und wie man sie einsetzt; genau darin liegt die eigentliche Kompetenz im Zeitalter der LLMs
2 Kommentare
Der letzte Satz spricht mir besonders aus der Seele. Außerdem war mein Eindruck ähnlich: Letztlich sind AI und LLM nur in dem Maß nutzbar und einsetzbar, wie es die Fähigkeiten der Nutzerin oder des Nutzers erlauben.
Hacker-News-Kommentare
Es gibt Meinungen zu den verwirrenden Aspekten, wenn erfahrene Programmierer mit LLMs arbeiten
Beim prototypischen Erstellen von UIs oder Websites wird Vibe Coding verwendet
Es wurden verschiedene Methoden verwendet, um die besten Ergebnisse aus LLMs herauszuholen
Bei komplexen Codefragen zu weniger populären Bibliotheken ist man beim Output von LLMs vorsichtiger
Es wird die Methode verwendet, die Dokumentation einer neuen Bibliothek oder sogar die gesamte Codebasis direkt in ein Long-Context-Modell einzufügen
Es gefällt, dass der Autor Chat-Logs eingefügt hat
ChatGPT.com oder allgemeine Benutzeroberflächen werden nicht verwendet
Moderne LLM-Oberflächen, in denen sich ein System-Prompt nicht explizit setzen lässt, verwenden ihren eigenen System-Prompt
Bestimmte Einschränkungen für generierten Text festzulegen, ist im System-Prompt effektiver als im User-Prompt
Es werden die Backend-UIs der einzelnen LLM-Dienste verwendet
JSON-Antworten funktionieren nicht immer wie erwartet
LLMs werden genutzt, um Neues zu lernen oder kurze Skripte zu schreiben