Was ist Mixture of Experts (MoE) — warum DeepSeek mit 1,6 Billionen Parametern trotzdem günstig läuft
(app-place-tech.com)Was ist Mixture of Experts (MoE) — warum DeepSeek mit 1,6 Billionen Parametern trotzdem günstig läuft
Dieser Beitrag erklärt anhand der MoE-Architektur, warum DeepSeek V4 mit 1,6 Billionen Parametern zu einem Zehntel des Preises von GPT-5.5 als Service angeboten werden kann.
MoE besteht aus mehreren Expert-Submodellen und einem Router (Gating-Netzwerk), der entscheidet, welche Experten verwendet werden. Der Kernpunkt ist, dass pro Token nur ein Teil der Gesamtparameter selektiv aktiviert wird. Bei herkömmlichen dichten Modellen (Dense Models) nehmen unabhängig von der Eingabe alle Parameter an der Berechnung teil, während bei MoE der Router nur einige der am besten geeigneten Experten auswählt und die Verarbeitung ihnen überlässt.
Bei DeepSeek V4-Pro werden von insgesamt 1,6 Billionen Parametern pro Token nur 49 Milliarden (rund 3 %) aktiviert. Das bedeutet: Es enthält Wissen im Umfang eines Modells mit 1,6 Billionen Parametern, während die tatsächlichen Inferenzkosten eher denen eines Modells mit 49 Milliarden Parametern entsprechen. Im Allgemeinen verbessert MoE das Preis-Leistungs-Verhältnis im Vergleich zu dichten Modellen gleicher Größe um das 3- bis 5-Fache.
Es gibt auch Nachteile. Zwar wird die Berechnung sparsam ausgeführt, doch die Parameter aller Experten müssen im Speicher vorgehalten werden, wodurch der VRAM-Bedarf hoch ist. Außerdem muss beim Training das Ungleichgewichtsproblem, bei dem sich die Last auf bestimmte Experten konzentriert, gesondert gesteuert werden.
Stand 2026 basieren die meisten führenden Frontier-Modelle wie GPT-4, Gemini 1.5, Mixtral und die DeepSeek-Serie auf MoE. Das ist das Ergebnis einer Entwicklung, bei der sich der Wettbewerb bei AI-Modellen von reiner Größe hin zu Kosten-Effizienz verlagert hat und MoE sich faktisch als Standardarchitektur etabliert hat.
4 Kommentare
GPT-4 und Gemini 1.5 im Jahr 2026? Das ist doch ganz offensichtlich ein AI-Slop-Artikel.
Bei aktuellen Modellen werden Details zur internen Implementierung meist nicht offengelegt, weshalb bei der Recherche wohl ältere Modelle herangezogen wurden. Es ist gut möglich, dass Modelle, die nach GPT-5 erschienen sind, alle die MoE-Struktur übernommen haben. Das liegt daran, dass Open-Source-Parallelmodelle als MoE-Struktur aufgebaut sind. Bei neueren Closed-Modellen wird die Architektur jedoch nicht veröffentlicht, daher ist das keine gesicherte offizielle Aussage.
Heißt das, dass
gpt5.5bei den wichtigsten Frontier-Modellen, die MoE verwenden, kein MoE nutzt?49B ist auch ziemlich beachtlich.