Ich habe eine Frage zu GPT-Modellen: Ich dachte, das Modell wählt das wahrscheinlichste Wort aus, aber wenn es eines der „wahrscheinlichen“ Wörter auswählt, würde dann die Liste der Vorhersagen für das nächste Wort nicht deutlich weniger wahrscheinlich werden? Wenn es rechnerisch machbar wäre, die Wahrscheinlichkeit von „zwei Wörtern zusammen“ zu berechnen, wäre das nützlicher, und das ließe sich auch auf 3, 4, n Wörter anwenden. Ich frage mich, ob es so etwas gibt.
Nach dem Anschauen des Videos und dem Lesen der Kommentare korrigiert: Zur Steuerung dieses Problems werden Beam Search und Temperatur verwendet.
Ich kann mir niemand Besseren vorstellen, um einer Gruppe den Attention-Mechanismus beizubringen. Das fühlt sich an wie ein wahr gewordener Traum.
Ein erstaunliches Heilmittel gegen Aprilscherz-Content. Ich würde mir das am liebsten direkt injizieren.
Auf Andrej Karpathys Kanal gibt es einige interessante Videos, die neuronale Netze und ihre interne Funktionsweise für Leute erklären, die programmieren können. Wenn dir das gefällt, ist das eine Empfehlung.
Der nächste Token wird ausgewählt, indem nach dem Unembedding aus der letzten Spalte Logits gesampelt werden. Aber ist das dann nicht einfach nur eine erneute Auswahl des letzten Tokens? Oder wird die Matrix an irgendeinem Punkt auf N+1 skaliert?
Ich kann das nächste Video kaum erwarten. Ich habe das Gefühl, dass ich endlich verinnerlichen und verstehen werde, wie diese Dinge funktionieren.
3B1B ist einer der besten STEM-Lehrenden auf YouTube.
1 Kommentare
Hacker-News-Kommentare