- Artikel über die in GPT-4, dem von OpenAI entwickelten Sprachmodell, beobachtete Nichtdeterministik
- GPT-4/GPT-3.5-turbo verhalten sich auch bei
temp=0 nichtdeterministisch, obwohl dies bei dichten, rein decoderbasierten Modellen vollständige Deterministik bedeuten sollte
- Anfangs wurde vermutet, dass die Nichtdeterministik auf einen potenziellen Bug oder auf die Nichtdeterministik optimierter Gleitkommaberechnungen zurückzuführen sei
- Neue Hypothese des Autors: Die Nichtdeterministik von GPT-4 ist größtenteils darauf zurückzuführen, dass die Sparse-Mixture-of-Experts-(MoE-)Architektur keine Deterministik pro Sequenz erzwingen kann
- Der Sparse-MoE-Ansatz verursacht Nichtdeterministik auf Sequenzebene, indem Tokens in Gruppen fester Größe geroutet und innerhalb dieser Gruppen ausbalanciert werden
- Um diese Hypothese zu testen, bat der Autor GPT-4, ein Skript zu schreiben, und beobachtete bei GPT-4 viele einzigartige Vervollständigungen, was bestätigt, dass GPT-4 deutlich stärker nichtdeterministisch ist als andere Modelle
- Der Autor vermutet außerdem, dass auch GPT-3.5-turbo wegen seiner Geschwindigkeit, seiner Nichtdeterministik und der Entfernung von
logprobs ein MoE-Modell sein könnte
- Die Implikationen dieser Erkenntnisse sind wichtig: Wenn Nichtdeterministik ein inhärentes Merkmal von Batch-Inferenz zusammen mit Sparse MoE ist, sollte diese Tatsache für alle, die mit solchen Modellen arbeiten, klar ersichtlich sein
- Abschließend argumentiert der Autor, dass die Nichtdeterministik in den GPT-Modellen von OpenAI zwar üblicherweise auf die Ungenauigkeit nichtdeterministischer CUDA-optimierter Gleitkommaoperationen zurückgeführt wird, die eigentliche Ursache jedoch Batch-Inferenz in Sparse-MoE-Modellen sein könnte
1 Kommentare
Hacker-News-Kommentar