Highlights von Llama 3.1 405B auf Cerebras Inference
- Erzeugt 969 Output-Token pro Sekunde – 12-mal schneller als die besten GPU-Ergebnisse
- Time-to-First-Token von 240 ms – kürzer als bei den meisten APIs
- Unterstützung für 128K Kontextlänge – höchste dokumentierte Leistung
- 16-Bit-Gewichte – volle Modellgenauigkeit bleibt erhalten
- Allgemeine Verfügbarkeit für Q1 2025 geplant, 6 $ pro Million Input-Token und 12 $ pro Million Output-Token
Frontier-KI mit sofortiger Geschwindigkeit
- Cerebras hat in diesem Jahr Llama 3.1 8B und 70B auf mehr als 2.000 Token pro Sekunde gebracht
- Frontier-Modelle wie GPT-4o, Claude 3.5 Sonnet und Llama 3.1 405B haben auf GPU, ASIC und in der Cloud nie mehr als 200 Token pro Sekunde erreicht
- Cerebras Inference löst dieses Problem und ermöglicht Llama 3.1 405B volle Leistung bei 128K Kontext
- Mit einem Prompt von 1.000 Token werden 969 Output-Token pro Sekunde erzeugt und damit ein neuer Rekord aufgestellt
- Bei einem Input-Prompt von 100.000 Token werden 539 Token/s erreicht, 11-mal schneller als Fireworks und 44-mal schneller als AWS
Beste Latenz
- Die Time-to-First-Token ist einer der wichtigsten Messwerte in realen Anwendungen
- Mit 240 Millisekunden bietet Cerebras die schnellste Time-to-First-Token aller Plattformen, auf denen Llama 3.1-405B läuft
- Deutlich schnellere Antwortzeiten als GPU-basierte Lösungen verbessern die Nutzererfahrung erheblich
Verfügbarkeit
- Cerebras Inference für Llama 3.1-405B befindet sich derzeit in Kundentests und soll im 1. Quartal 2025 allgemein verfügbar werden
- Der Output-Preis liegt 20 % unter AWS, Azure und GCP
Open Models sind die schnellsten Modelle
- Dank Metas offenem Ansatz und der innovativen Inference-Technologie von Cerebras läuft Llama 3.1-405B mehr als 10-mal schneller als geschlossene Frontier-Modelle
- Bietet eine geeignete Grundlage für Sprach-, Video- und Inference-Anwendungen
1 Kommentare
Hacker-News-Kommentare
Es ist schwierig, das Llama-3.1-70B-Modell auf einem 8x-H100-Cluster mit mehr als 100 Tok/s zu betreiben.
Ich bin nicht sicher, ob der Latenzvergleich fair ist.
Um hohen Durchsatz mit guter Latenz bereitzustellen, ist Overprovisioning erforderlich.
Bei der aktuellen Modellgeneration sowie mit RAG, Multi-Agenten und Code-Interpreter wird die Modelllatenz zum Flaschenhals.
Der Cerebras-Chip nutzt einen gesamten Wafer und enthält nur 44 GB SRAM.
Es gibt eine Warteliste, um die API auszuprobieren.
Ich halte es für wahrscheinlich, dass Nvidia Cerebras übernimmt.
Es ist beeindruckend, dass mit neuer Hardware Leistungssteigerungen möglich sind.
Ich würde gern einen Vergleich von Tokens/s/Watt sehen.
Es gibt keine Erwähnung des Konkurrenten Groq.
Ich frage mich, welche Kosten nötig sind, um einen Dienst mit dieser Latenz anzubieten.