29 Punkte von GN⁺ 2025-05-06 | 2 Kommentare | Auf WhatsApp teilen
  • Der Autor erklärt, dass er seit mehr als 10 Jahren zu LLMs und Textgenerierungstechnologien forscht, sie im Alltag aber überraschend selten nutzt
  • Bei der Nutzung von LLMs legt er großen Wert auf fein abgestimmte Kontrolle wie Prompt Engineering, System-Prompts und Temperature-Einstellungen und bevorzugt einen API-basierten Zugriff statt gewöhnlicher Frontends
  • Bei BuzzFeed setzte er LLMs zur Lösung konkreter Probleme ein, etwa für Daten-Labeling, Cluster-Zusammenfassungen von Artikeln und die Prüfung von Styleguides, und konnte damit große Zeiteinsparungen nachweisen
  • Zum Schreiben nutzt er keine LLMs, verwendet sie aber zur Überprüfung der Argumentation, indem er fiktive Hacker-News-Kommentare zur kritischen Perspektivprüfung erzeugen lässt
  • LLMs sind als Coding-Hilfe nützlich, doch bei komplexen oder verlässlichkeitskritischen Aufgaben setzt er lieber auf eigene Implementierungen; gegenüber Agents und Vibe Coding bleibt er skeptisch

Die Distanz zwischen mir und LLMs

  • Der Autor ist ein Data Scientist mit umfangreicher Erfahrung im Einsatz generativer KI-Tools, darunter RNN-basierte Textgenerierung, GPT-2-Tuning sowie Experimente mit GPT-3/ChatGPT
  • Dennoch nutzt er sie nur selten direkt; ob er sie einsetzt, entscheidet er pragmatisch als Werkzeug je nach Art und Bedarf der Aufgabe

Wie er LLMs steuert

  • Prompt Engineering ist der Kern seiner LLM-Nutzung, um gewünschte Ausgaben gezielt hervorzubringen
  • Statt eines allgemeinen Frontends (ChatGPT.com) ruft er lieber direkt APIs auf oder nutzt ein Backend-UI; besonders bevorzugt er die Claude Sonnet API
  • Über System-Prompts und die Temperature-Steuerung balanciert er Kreativität und Determinismus aus; meist setzt er 0.0 ~ 0.3, um vorhersagbare Ausgaben sicherzustellen
  • Auf das Hallucination-Problem (Erzeugen nicht faktischer Inhalte) achtet er besonders, da es bei höheren Temperature-Werten tendenziell schlimmer wird

Beispiele aus der Praxis

  • Automatisierung der BuzzFeed-Artikelklassifizierung: Mit Claude API, einem JSON-basierten Klassifikationsschema und temperature 0.0 werden präzise Kategorien zugewiesen
  • Zusammenfassung von Artikelclustern: Fünf ähnliche Artikel werden übergeben, woraufhin ein gemeinsamer Titel und eine Beschreibung zurückgegeben werden; so lässt sich die Cluster-Zusammenfassung effizient automatisieren
  • Prüfung von Zeichensetzung und Styleguide: Der gesamte Styleguide wird als System-Prompt eingebunden, damit grammatische Entscheidungen auf Basis der Richtlinien getroffen werden
  • Für jede dieser Aufgaben lässt sich innerhalb weniger Stunden ein POC erstellen, was gegenüber bisherigen Verfahren mehrere Tage Zeit spart

Schreiben selbst, Kritik mit LLM

  • Blogbeiträge schreibt er selbst, da sein Stil Eigenheiten hat, die LLMs nur schwer reproduzieren können
  • Er bittet ein LLM jedoch, wie ein Hacker-News-Nutzer kritische Kommentare zu verfassen, und nutzt es so als Werkzeug zum Aufspüren logischer Schwächen
  • Diese Methode verbessert die Qualität des Textes, ersetzt das Schreiben selbst aber nicht

Einsatz von LLMs beim Coding

  • Bei komplexen, aber wiederkehrenden Aufgaben wie dem Schreiben regulärer Ausdrücke oder Bildkompositionen mit Pillow tragen LLMs deutlich zur Produktivität bei
  • Andererseits treten Probleme bei neueren Bibliotheken wie Polars auf, wenn das LLM sie etwa mit pandas-Funktionen verwechselt
  • Echtzeit-Codevorschläge wie bei Copilot lehnt er eher ab, weil häufige mentale Kontextwechsel die Konzentration eher stören
  • Er vertritt die Haltung, dass bei von LLMs vorgeschlagenen Ideen „Idee übernehmen + selbst anpassen“ besser ist

Sicht auf Agents, MCP und Vibe Coding

  • MCP und Agents sind konzeptionell zwar verbessert worden, liefern in der Praxis aber keine wirklich neuen Use Cases
  • Vibe Coding kann für Hobbyprojekte nützlich sein, ist aber für offizielle Produkte ungeeignet und sollte nicht als Mittel zur Verantwortungsflucht dienen
  • Er betont die Haltung, dass nur verlässlicher Code professionell ist

Gedanken zur LLM-Industrie und zu Ethik

  • Die Behauptung, „LLMs seien nutzlos“, spiegele die Realität praktischer Nutzung nicht wider; entscheidend seien vielmehr kurzfristiger ROI und Probleme der Industriestruktur
  • Open-Source-Modelle und alternative Infrastruktur (Cerebras, Groq usw.) könnten die Nachfrage nach LLMs auch dann decken, wenn OpenAI verschwände
  • Letztlich sind LLMs Werkzeuge, die passend zum Zweck eingesetzt werden sollten; sowohl bedingungslose Verherrlichung als auch pauschale Ablehnung sind riskant

Fazit

  • LLMs sind Werkzeuge, mit denen man versucht, einen quadratischen Stift in ein rundes Loch zu drücken – sie können also ineffizient sein, aber auch innovativ
  • Entscheidend ist das Urteilsvermögen von Fachleuten darüber, wann, wo und wie man sie einsetzt; genau darin liegt die eigentliche Kompetenz im Zeitalter der LLMs

2 Kommentare

 
ifmkl 2025-05-07

Der letzte Satz spricht mir besonders aus der Seele. Außerdem war mein Eindruck ähnlich: Letztlich sind AI und LLM nur in dem Maß nutzbar und einsetzbar, wie es die Fähigkeiten der Nutzerin oder des Nutzers erlauben.

 
GN⁺ 2025-05-06
Hacker-News-Kommentare
  • Es gibt Meinungen zu den verwirrenden Aspekten, wenn erfahrene Programmierer mit LLMs arbeiten

    • pandas ist die Standardbibliothek zur Bearbeitung tabellarischer Daten in Python und wird seit 2008 verwendet
    • In letzter Zeit wird die neue Bibliothek polars verwendet, und LLMs verwechseln polars-Funktionen häufig mit pandas-Funktionen, sodass ein Blick in die Dokumentation nötig wird
    • Der Grund, warum keine Coding-Agenten verwendet werden, ist, dass sie „ablenkend“ seien; das ist eine Haltung, mit der man sich als jemand, der Autovervollständigung nicht mag, identifizieren kann
    • „Reine“ LLMs verursachen bei Coding-Aufgaben Codefehler, aber Agenten-LLM-Konfigurationen enthalten auch Code, der die Interaktion mit dem LLM strukturiert
    • Wenn ein LLM einen Funktionsfehler erzeugt, kompiliert das Programm nicht, und der Agent erkennt dies, woraufhin das LLM wiederholt Korrekturen vornimmt
  • Beim prototypischen Erstellen von UIs oder Websites wird Vibe Coding verwendet

    • Es gibt zwar keine Frontend-Erfahrung, aber es ist wertvoll, eine zu 80 % fertige Live-Demo zu erstellen und anderen zu zeigen
    • Für ein echtes Produkt ist es noch nicht bereit, aber für Mockups für interne Diskussionen ist es nützlich
  • Es wurden verschiedene Methoden verwendet, um die besten Ergebnisse aus LLMs herauszuholen

    • Sich Szenarien auszudenken, um LLMs „auszutricksen“, ist ineffizient, und die Wirkung kann je nach Modellversion stark variieren
  • Bei komplexen Codefragen zu weniger populären Bibliotheken ist man beim Output von LLMs vorsichtiger

    • In den letzten Monaten war es effektiv, über die ChatGPT-Oberfläche Codefragen zu aktuellen Bibliotheken zu lösen
    • Die Arbeit, Code auf eine neue JavaScript-Bibliothek zu aktualisieren, wurde erfolgreich durchgeführt
  • Es wird die Methode verwendet, die Dokumentation einer neuen Bibliothek oder sogar die gesamte Codebasis direkt in ein Long-Context-Modell einzufügen

    • Für Bibliotheken mit weniger als 50.000 Tokens ist das effektiv, und Gemini 2.5 Pro verarbeitet auch mehrere Hunderttausend Tokens gut
  • Es gefällt, dass der Autor Chat-Logs eingefügt hat

    • Viele Menschen können solche Informationen wegen möglicher Offenlegung nicht teilen, aber wenn Leistungen von LLMs behauptet werden, ist es wichtig, diese zu untermauern
  • ChatGPT.com oder allgemeine Benutzeroberflächen werden nicht verwendet

    • Stattdessen werden die Backend-UIs der einzelnen LLM-Dienste genutzt, um bessere Ergebnisse zu erzielen
    • OpenAI neigt dazu, Modelle in der ChatGPT-UI einzuschränken
  • Moderne LLM-Oberflächen, in denen sich ein System-Prompt nicht explizit setzen lässt, verwenden ihren eigenen System-Prompt

    • ChatGPT hat einen System-Prompt, Claude hingegen nicht
    • Bei neuen Modellen nimmt der Nutzen des System-Prompts ab
  • Bestimmte Einschränkungen für generierten Text festzulegen, ist im System-Prompt effektiver als im User-Prompt

    • LLMs verstehen das Konzept von 30 Wörtern, leisten bei solchen Aufgaben aber nicht immer gute Arbeit
  • Es werden die Backend-UIs der einzelnen LLM-Dienste verwendet

    • Man fragt sich, ob dafür ein benutzerdefinierter Wrapper zur Anbindung an die API genutzt wird oder ein bereits etablierter Client
  • JSON-Antworten funktionieren nicht immer wie erwartet

    • Um konsistentes JSON zurückzugeben, wird ein JSON-Schema definiert, damit immer dieselbe Struktur zurückgegeben wird
  • LLMs werden genutzt, um Neues zu lernen oder kurze Skripte zu schreiben

    • Interessant ist die Technik, den Text eines Blogposts in ein LLM einzugeben und es zu bitten, so zu tun, als wäre es ein zynischer Hacker-News-Kommentator, und fünf Kommentare zu schreiben