3 Punkte von GN⁺ 2024-11-20 | 1 Kommentare | Auf WhatsApp teilen

Highlights von Llama 3.1 405B auf Cerebras Inference

  • Erzeugt 969 Output-Token pro Sekunde – 12-mal schneller als die besten GPU-Ergebnisse
  • Time-to-First-Token von 240 ms – kürzer als bei den meisten APIs
  • Unterstützung für 128K Kontextlänge – höchste dokumentierte Leistung
  • 16-Bit-Gewichte – volle Modellgenauigkeit bleibt erhalten
  • Allgemeine Verfügbarkeit für Q1 2025 geplant, 6 $ pro Million Input-Token und 12 $ pro Million Output-Token

Frontier-KI mit sofortiger Geschwindigkeit

  • Cerebras hat in diesem Jahr Llama 3.1 8B und 70B auf mehr als 2.000 Token pro Sekunde gebracht
  • Frontier-Modelle wie GPT-4o, Claude 3.5 Sonnet und Llama 3.1 405B haben auf GPU, ASIC und in der Cloud nie mehr als 200 Token pro Sekunde erreicht
  • Cerebras Inference löst dieses Problem und ermöglicht Llama 3.1 405B volle Leistung bei 128K Kontext
  • Mit einem Prompt von 1.000 Token werden 969 Output-Token pro Sekunde erzeugt und damit ein neuer Rekord aufgestellt
  • Bei einem Input-Prompt von 100.000 Token werden 539 Token/s erreicht, 11-mal schneller als Fireworks und 44-mal schneller als AWS

Beste Latenz

  • Die Time-to-First-Token ist einer der wichtigsten Messwerte in realen Anwendungen
  • Mit 240 Millisekunden bietet Cerebras die schnellste Time-to-First-Token aller Plattformen, auf denen Llama 3.1-405B läuft
  • Deutlich schnellere Antwortzeiten als GPU-basierte Lösungen verbessern die Nutzererfahrung erheblich

Verfügbarkeit

  • Cerebras Inference für Llama 3.1-405B befindet sich derzeit in Kundentests und soll im 1. Quartal 2025 allgemein verfügbar werden
  • Der Output-Preis liegt 20 % unter AWS, Azure und GCP

Open Models sind die schnellsten Modelle

  • Dank Metas offenem Ansatz und der innovativen Inference-Technologie von Cerebras läuft Llama 3.1-405B mehr als 10-mal schneller als geschlossene Frontier-Modelle
  • Bietet eine geeignete Grundlage für Sprach-, Video- und Inference-Anwendungen

1 Kommentare

 
GN⁺ 2024-11-20
Hacker-News-Kommentare
  • Es ist schwierig, das Llama-3.1-70B-Modell auf einem 8x-H100-Cluster mit mehr als 100 Tok/s zu betreiben.

    • Ich frage mich, wie diese Geschwindigkeit erreicht wurde.
    • Vermutlich wären Multi-Node-Inferenz oder ein Sparse-Attention-Mechanismus nötig.
  • Ich bin nicht sicher, ob der Latenzvergleich fair ist.

    • Zur Latenz gehören der Durchsatz bei der Verarbeitung von Kontext/Prompt, Wartezeiten beim Hardwarezugriff und weitere API-Overheads.
    • Wahrscheinlich enthalten die Zahlen von Cerebras kaum Wartezeitanteile.
  • Um hohen Durchsatz mit guter Latenz bereitzustellen, ist Overprovisioning erforderlich.

    • Es ist unklar, ob die Latenz das Laden des Modells einschließt.
    • Bei Batch-Jobs könnte man eine Cerebras-Maschine zu 100 % auslasten und dauerhaft 1k Tokens/s erreichen.
  • Bei der aktuellen Modellgeneration sowie mit RAG, Multi-Agenten und Code-Interpreter wird die Modelllatenz zum Flaschenhals.

    • Mit dem Token-Durchsatz eines Modells der 405B-Klasse werden viele interaktive Erfahrungen möglich.
  • Der Cerebras-Chip nutzt einen gesamten Wafer und enthält nur 44 GB SRAM.

    • Um ein 405B-Modell mit bf16-Präzision unterzubringen, werden 19 Chips benötigt.
    • Gemessen an den Kosten der Waferfertigung entspricht das dem Einsatz von mehr als 1500 H100.
  • Es gibt eine Warteliste, um die API auszuprobieren.

    • Wenn man den Service nicht kaufen kann, ist Skepsis gegenüber den Behauptungen des Unternehmens angebracht.
  • Ich halte es für wahrscheinlich, dass Nvidia Cerebras übernimmt.

  • Es ist beeindruckend, dass mit neuer Hardware Leistungssteigerungen möglich sind.

    • Ich frage mich, wo die Grenzen von Leistungsverbesserungen beim Training durch Hardware liegen.
  • Ich würde gern einen Vergleich von Tokens/s/Watt sehen.

  • Es gibt keine Erwähnung des Konkurrenten Groq.

  • Ich frage mich, welche Kosten nötig sind, um einen Dienst mit dieser Latenz anzubieten.

    • Die Kosten entscheiden darüber, wie breit so etwas angenommen werden kann.
    • Ich frage mich, ob das nur für Unternehmen ist, die wirklich diese Latenz brauchen, oder ob es allgemein ausgerollt werden kann.