1 Punkte von GN⁺ 2023-08-06 | 1 Kommentare | Auf WhatsApp teilen
  • Artikel über die in GPT-4, dem von OpenAI entwickelten Sprachmodell, beobachtete Nichtdeterministik
  • GPT-4/GPT-3.5-turbo verhalten sich auch bei temp=0 nichtdeterministisch, obwohl dies bei dichten, rein decoderbasierten Modellen vollständige Deterministik bedeuten sollte
  • Anfangs wurde vermutet, dass die Nichtdeterministik auf einen potenziellen Bug oder auf die Nichtdeterministik optimierter Gleitkommaberechnungen zurückzuführen sei
  • Neue Hypothese des Autors: Die Nichtdeterministik von GPT-4 ist größtenteils darauf zurückzuführen, dass die Sparse-Mixture-of-Experts-(MoE-)Architektur keine Deterministik pro Sequenz erzwingen kann
  • Der Sparse-MoE-Ansatz verursacht Nichtdeterministik auf Sequenzebene, indem Tokens in Gruppen fester Größe geroutet und innerhalb dieser Gruppen ausbalanciert werden
  • Um diese Hypothese zu testen, bat der Autor GPT-4, ein Skript zu schreiben, und beobachtete bei GPT-4 viele einzigartige Vervollständigungen, was bestätigt, dass GPT-4 deutlich stärker nichtdeterministisch ist als andere Modelle
  • Der Autor vermutet außerdem, dass auch GPT-3.5-turbo wegen seiner Geschwindigkeit, seiner Nichtdeterministik und der Entfernung von logprobs ein MoE-Modell sein könnte
  • Die Implikationen dieser Erkenntnisse sind wichtig: Wenn Nichtdeterministik ein inhärentes Merkmal von Batch-Inferenz zusammen mit Sparse MoE ist, sollte diese Tatsache für alle, die mit solchen Modellen arbeiten, klar ersichtlich sein
  • Abschließend argumentiert der Autor, dass die Nichtdeterministik in den GPT-Modellen von OpenAI zwar üblicherweise auf die Ungenauigkeit nichtdeterministischer CUDA-optimierter Gleitkommaoperationen zurückgeführt wird, die eigentliche Ursache jedoch Batch-Inferenz in Sparse-MoE-Modellen sein könnte

1 Kommentare

 
GN⁺ 2023-08-06
Hacker-News-Kommentar
  • Die Nichtdeterministik von GPT-4 ist auf sein Sparse-Mixture-of-Experts-(MoE)-Modell zurückzuführen.
  • Ungenauigkeiten bei Gleitkommazahlen in AI/ML-Systemen sind größtenteils deterministisch; unterschiedliche Ergebnisse können auf andere Quellen von Zustand oder Entropie zurückzuführen sein.
  • Das Paper legt nahe, dass die effiziente Inferenz von GPT-4 davon abhängen könnte, Tokens aus separaten Eingaben zu mischen, was Nichtdeterministik einführt und die Qualität der Antworten beeinflussen kann.
  • Die Qualität der Antworten kann auch von der Anzahl gleichzeitiger Anfragen abhängen, die um dieselbe Zuweisung von „Experten“ konkurrieren.
  • Das könnte den wahrgenommenen Qualitätsverlust im Lauf der Zeit erklären, da mehr gleichzeitige Nutzung zu weniger verlässlichen Ergebnissen führen kann.
  • Der Einsatz von MoE in GPT-3.5 könnte Hoffnung für die Open-Source-Bewegung geben, da damit mit weniger mehr erreicht werden kann.
  • Wenn Sequenzen innerhalb eines Batches das Routing anderer beeinflussen können, eröffnet das die Möglichkeit von Side-Channel-Angriffen.
  • Der MoE-Ansatz führt Wahrscheinlichkeitscharakter oder Zufälligkeit in die Arbeitsweise des Modells ein, indem für verschiedene Teile der Eingabedaten unterschiedliche „Experten“ oder Modellteile ausgewählt werden.
  • Dieselben Eingabedaten, die zweimal in leicht unterschiedlichem Kontext verarbeitet werden, können leicht unterschiedliche Mengen von Experten konsultieren und dadurch leicht unterschiedliche Ausgaben erzeugen.
  • Unter hoher Last können sich die Ergebnisse verändern, weil Tokens um verfügbare Plätze im Expertenpuffer konkurrieren.
  • Diese Konkurrenz im Expertenpuffer könnte auch erklären, warum ChatGPT beim Anfordern von langem Code Platzhalter statt Funktionen schreibt.