18 Punkte von kciter1 24 일 전 | 17 Kommentare | Auf WhatsApp teilen
  • Durch die rasante Entwicklung von AI verspüren viele Entwickler eine psychische Niedergeschlagenheit, weil ihre Expertise ersetzt zu werden scheint
  • Da immer mehr Entwickler dieses Gefühl der Niedergeschlagenheit erleben, hat sich dafür der Name Claude Blue eingebürgert
  • Zudem verstärken die täglich neu auftauchenden Buzzwords die FOMO und Angst von Entwicklern
  • Der Schlüssel, um diese Angst zu überwinden, liegt im Verstehen
  • Die unzähligen Formen von „Engineering“ sind letztlich nur Varianten des „Sendens geeigneter Eingaben an eine API und der Verarbeitung der Antworten“, also etwas, das Entwickler schon immer gut beherrscht haben
  • Wer sich nicht von FOMO-auslösenden Inhalten treiben lässt und stattdessen das Wesentliche versteht, kann auch neue Begriffe in sein bestehendes Wissenssystem einordnen und nüchtern beurteilen

Struktur der Angst und wie man sie überwindet

  • Menschen empfinden Angst gegenüber Dingen, deren Wesen sie nicht kennen. Auch die Angst vor AI entsteht weniger durch AI selbst als durch die Tatsache, dass man nicht weiß, wie sie funktioniert
  • Sobald man ihr Wesen versteht, wirkt Magie wie Technik, und Technik ist etwas, das man lernen kann und das Grenzen hat
  • Es gibt auch Umfragen, laut denen sich bei 24 % der Beschäftigten die psychische Gesundheit durch die von AI verursachte Informationsüberflutung verschlechtert hat

Was ein LLM eigentlich ist

  • Ein LLM ist ein Modell zur Vorhersage des nächsten Wortes, das „für eine gegebene Eingabe die passendste Ausgabe erzeugt“
  • ChatGPT, Claude und Gemini funktionieren alle nach demselben Prinzip; der Kern des Dienstes ist ein HTTP-API-Aufruf, bei dem der Client eine Nachricht sendet und das Modell Tokens als Stream zurückgibt
  • Auch die starke Coding-Fähigkeit von AI-Agenten ist nur eine Hülle um diesen API-Aufruf

Wie AI-Agenten klüger geworden sind

  • Prompt Engineering: Rollenvergabe, Few-Shot, Chain-of-Thought usw. sind letztlich Methoden, den Kontext des Eingabetextes konkreter zu machen und so die Richtung der Ausgabe zu lenken
  • Steuerung des Ausgabeformats: Mit JSON Schema, Function Calling usw. wird die Ausgabe des Modells in eine Struktur gebracht, die ein Programm parsen kann. Durch Function Calling wird eine Struktur möglich, in der das Modell Tools aufruft und die Runtime sie ausführt. Auch MCP und RAG sind Formen von Tool-Aufrufen
  • Context Engineering: Es geht nicht darum, wie man fragt, sondern darum, was das Modell vor dem Schlussfolgern sehen soll. Da bei längeren Eingaben die Konzentration nachlässt, ist es entscheidend, die richtigen Informationen an die richtige Stelle zu setzen
  • Aufteilung von Prompts: Statt eines einzigen riesigen Prompts wird die Verarbeitung in mehrere kleine und fokussierte Prompts zerlegt. Sub-Agenten und Skills fallen in diese Kategorie
  • Harness Engineering: Dabei wird die gesamte Ausführungsumgebung rund um das Modell entworfen. Sie besteht aus Guides (Ausrichtung vor der Aktion) und Sensoren (Prüfung der Ergebnisse nach der Aktion)
    • Ralph Loop: Eine Technik, bei der derselbe Prompt wiederholt eingespeist wird, wenn die Abschlusskriterien nicht erfüllt sind. Der Fortschritt wird im Dateisystem und in git gespeichert, sodass selbst in einem neuen Kontext jedes Mal weitergearbeitet werden kann. Das ist nur eine Unterstrategie des Harness, nicht dasselbe wie Harness selbst

Aus der FOMO herauskommen

  • Selbst mit Wissen bleibt man oft verunsichert, weil FOMO-Erzeuger uns das Gefühl geben, als wüssten wir überhaupt nichts
  • Eine gute Methode, FOMO nicht zu verfallen, besteht darin, sich anzusehen, was diese FOMO-Erzeuger tatsächlich gelöst haben
    • Meist haben sie nur den Prozess komprimiert, nicht aber das Problem gelöst
  • Wer das Wesentliche versteht, kann bei neuen Informationen selbst beurteilen, ob es sich um ein neues Paradigma, eine Variante eines bestehenden Konzepts oder um Übertreibung handelt

Was man künftig tun sollte

  • Man muss nicht zwangsläufig etwas tun. Wenn AI für die eigenen Probleme keine Hilfe ist, kann man einfach weitermachen wie bisher. Letztlich ist es nur ein Werkzeug: Wenn man es braucht, nutzt man es; wenn nicht, dann eben nicht
  • Nicht für alles gibt es eine richtige Antwort. Deshalb muss man sich auch nicht darum bemühen, ein Lösungsheft zu finden
  • Wer Wissen hat, entwickelt auch bei neuen Begriffen künftig den Blick dafür, worum es dabei eigentlich geht

17 Kommentare

 
pjs102793 23 일 전

Eine gute Methode, kein FOMO zu verspüren, ist sich anzuschauen, was die FOMO-Auslöser mit AI tatsächlich gelöst haben.

Dem kann ich wirklich sehr zustimmen, haha

 
bluekai17 17 일 전

„Wenn KI mir bei meinem Problem nicht hilft, kann ich einfach weiterleben wie bisher. Am Ende ist es nur ein Werkzeug: Wenn man es braucht, nutzt man es, und wenn nicht, dann eben nicht.“ So einfach ist das nicht, seufz.

 
limhasic 23 일 전

Hehe, was mache ich jetzt?

 
savvykang 23 일 전

Ist nicht ohnehin nicht die gesamte Expertise ersetzbar? Schon der Wortbildungsprozess wirkt seltsam.

 
kciter1 23 일 전

Im Originaltext wurde nie behauptet, dass KI die gesamte Expertise ersetzen könne. Ich denke das auch nicht ...

 
brainer 24 일 전

> Ein LLM ist ein Modell zur Vorhersage des nächsten Wortes, das „für eine gegebene Eingabe die passendste Ausgabe erzeugt“

Da ist wohl von GPT-3 die Rede.

 
jmg008 23 일 전

Soweit ich weiß, sind mit Ausnahme einiger Modelle auf Basis von Diffusionsmodellen alle seit GPT veröffentlichten großen Sprachmodelle in einer Form aufgebaut, die das nächste Token vorhersagt. Falls es Modelle gibt, die auf andere Weise arbeiten, wäre ich dankbar, wenn Sie mich darauf hinweisen könnten.

 
kciter1 24 일 전

Dann ist das neueste Modell also ein anderes? Falls etwas daran falsch ist, wäre ich dankbar, wenn Sie mich darauf hinweisen könnten — das würde nicht nur mir, sondern auch anderen helfen, haha.

 
brainer 23 일 전

Wenn man moderne LLMs als „Vorhersage des nächsten Worts“ abtut, dann ist auch AlphaGo nichts weiter als „Vorhersage des nächsten Zugs“.

Seit ChatGPT ist die Vorhersage des nächsten Worts zudem nur ein einfaches Pre-Training.

Im Kern ist es ein Modell, das ein Ziel erreicht.

 
cafedead 23 일 전

Berechnet AlphaGo nicht auch einfach den nächsten Zug, für den die höchste Gewinnwahrscheinlichkeit vorhergesagt wird?????

 
cafedead 23 일 전

Das ist verwirrend. Ist das ein Scherz, oder gibt es eine neue Methode oder Technik, von der ich nichts weiß??

 
brainer 23 일 전

Die "Gewinnrate" ist der Kernpunkt.
Mit bloßer Vorhersage des nächsten Worts kann man nicht einmal brauchbare Sätze erzeugen, geschweige denn ordentlich programmieren oder Mathematik betreiben.
Solche Verfahren stammen aus den 60er- oder 70er-Jahren.

(Streng genommen sind es nicht einmal Wörter.)

 
kciter1 23 일 전

Hm … vielleicht wurde mein Beitrag anders verstanden, als ich es beabsichtigt hatte. Falls es so wirkte, als würde ich in diesem Text den technischen Wert von LLMs herabsetzen, bitte ich um Entschuldigung.

Die Absicht dieses Textes war jedoch, übertriebene Verpackung und Mystifizierung abzulegen und die Sache nüchtern zu betrachten. Deshalb empfinde ich persönlich die Formulierung „ein Modell, das ein Ziel erreicht“ als bereits mystifizierend. Letztlich dienen sowohl gewöhnliche Software als auch Modelle dazu, irgendein „Ziel“ zu erreichen.

Deshalb möchte ich mit ehrlichem persönlichem Interesse noch einmal nachfragen, ob die von Ihnen verwendete Formulierung technisch präziser ist.

 
h0422ys 23 일 전

GPT-3: Vorhersage des nächsten Wortes -> richtig
Transformatorbasierte Modelle nach GPT-3: Vorhersage des nächsten Wortes -> richtig.
AlphaGo, AlphaZero, MuZero, ...: Vorhersage des nächsten Zugs -> richtig.
Ein Modell, das ein (bestimmtes) Ziel erreicht -> richtig.

An dieser Aussage ist nichts falsch

 
rlaaudgjs5638 23 일 전

Das scheint wohl auch so zu sein.
Letztlich ist das Modell selbst aber nur eine Ein-/Ausgabefunktion.
Unter der Annahme, dass ein geeignetes Harness und eine Agenten-Loop gegeben sind, scheint die Aussage zu gelten, dass das Modell das Ziel erreicht.

 
blacksocks 23 일 전

Kann man das so zusammenfassen: „Nächste-Token-Vorhersage“ ist als Beschreibung auf Implementierungsebene zwar korrekt, aber als Erklärung der Fähigkeiten oder des Zwecks des Modells unvollständig?

 
ng0301 23 일 전

Dann sollte man sich wohl in der Mitte mit einem Modell treffen, das besser vorhersagt 😄