Groq betreibt Mixtral 8x7B-32k mit 500 T/s

(groq.com)

1 Punkte von GN⁺ 2024-02-21 | 1 Kommentare | Auf WhatsApp teilen

In einer Situation, in der Antwortgeschwindigkeit und Inferenzkosten bei KI-Diensten zum Flaschenhals werden, stellt Groq schnelle und günstige Inferenzinfrastruktur in den Vordergrund
Der Unterschied liegt nicht in einem GPU-zentrierten Ansatz, sondern darin, dass Groq einen LPU-basierten Stack nutzt, der seit 2016 speziell für Inferenz entwickelt wird
GroqCloud betreibt den LPU-Stack in Rechenzentren weltweit, um geringe Latenzen zu bieten, und gibt an, von 3 Millionen Entwicklern und Teams genutzt zu werden
Entwickler können die Integration vergleichsweise einfach vornehmen, indem sie in OpenAI-kompatiblen Clients nur base_url und GROQ_API_KEY ändern
Fintool berichtet, dass nach der Einführung von GroqCloud die Chat-Geschwindigkeit um das 7,41-Fache gestiegen und die Kosten um 89 % gesunken sind; auch das McLaren Formula 1 Team wählte Groq als Inferenzpartner

Schnelle und günstige Inferenzplattform

Groq sieht Inferenz (inference) als zentralen Treibstoff für KI und positioniert sich mit einer schnellen, günstigen Inferenzplattform, die auch in realen Workloads zuverlässig funktioniert
Die Kernbotschaft der Website entspricht in etwa „schnelle und günstige Inferenz, die auch unter realen Bedingungen stabil bleibt“
Das Unternehmen wurde 2016 gegründet und beschreibt seinen Gründungszweck als Fokus auf genau ein Thema: Inferenz

Ein speziell für Inferenz entwickelter Stack auf LPU-Basis

Im Gegensatz zu anderen Anbietern, die auf GPUs setzen, sieht Groq eigenes Silizium als zentrale Stärke
Groq hat 2016 die LPU vorangetrieben und beschreibt sie als ersten Chip, der speziell für Inferenz gebaut wurde
Die Designentscheidungen der LPU zielen darauf ab, Antworten intelligenter Modelle schnell und günstig zu halten
Mit der Botschaft „Nicht Benchmarks, sondern Workloads werden tatsächlich bereitgestellt“ betont Groq reale Deployment-Umgebungen

Rechenzentren weltweit und GroqCloud

Der LPU-basierte Stack läuft in Rechenzentren weltweit und ist darauf ausgelegt, Antworten mit niedriger Latenz zu liefern
Ausgehend von der Annahme, dass Inferenz am besten lokal funktioniert, betont Groq eine Architektur, bei der Modellantworten näher am Nutzer bereitgestellt werden
GroqCloud ist ein Cloud-Service, über den Entwickler schnelle und günstige Inferenz nutzen können
Groq gibt an, dass 3 Millionen Entwickler und Teams Groq verwenden

OpenAI-kompatible Entwickler-Integration

Groq betont die OpenAI-kompatible Integration und erklärt, dass der Wechsel mit „zwei Zeilen“ möglich sei
Das Python-Beispiel setzt im Client openai.OpenAI die folgenden Werte
- base_url="https://api.groq.com/openai/v1";
- api_key=os.environ.get("GROQ_API_KEY")
Entwickler können in der Groq-Konsole starten oder einen kostenlosen API-Key erhalten und verwenden

Kundenbeispiele und Partnerschaften

Das McLaren Formula 1 Team wird als Partnerbeispiel vorgestellt, das Groq für weltweite Inferenz gewählt hat
Das McLaren F1 Team hat Groq für Entscheidungsfindung, Analysen, Entwicklung und Echtzeit-Insights gewählt
Kevin Scott, CTO der PGA of America, sagt, dass Groq für Aufgaben genutzt werde, bei denen Performance wichtiger sei
Nicolas Bustamante, CEO von Fintool, erlebte nach der Einführung von GroqCloud folgende Veränderungen
- Chat-Geschwindigkeit um das 7,41-Fache gestiegen
- Kosten um 89 % gesunken
- Token-Verbrauch um das 3-Fache gestiegen
Abhigyan Arya, CTO von Opennote, erklärt, dass Groq Kosten senke und den operativen Aufwand reduziere; außerdem helfe es dabei, den Preis eines Premium-Plans für Studierende angemessen zu halten

Gleichzeitig veröffentlichte News-Beiträge

Groq Raises $750 Million as Inference Demand Surges: Beitrag vom 17. September 2025
Day Zero Support for OpenAI Open Models: Beitrag vom 5. August 2025
From Speed to Scale: How Groq Is Optimized for MoE & Other Large Models: Beitrag vom 27. Mai 2025

1 Kommentare

GN⁺ 2024-02-21

Meinungen auf Hacker News

Das ist eine der beeindruckendsten Tech-Demos, die ich je gesehen habe, und mir gefällt, dass es eine wirklich öffentliche Demo ist, die jeder ohne Anmeldung sofort ausprobieren kann.
Es wirkt fast unwirklich, die Tokens in irrsinnigem Tempo herausströmen zu sehen, und es ist umso erstaunlicher, weil man sonst an weniger als ein Fünftel dieser Geschwindigkeit gewöhnt ist. Es ist überraschend, dass sie noch nicht von Microsoft, Apple, Google oder ähnlichen Firmen zu einem hohen Aufpreis übernommen wurden.
- Wenn ich es richtig verstanden habe, hat jeder Chip 200 MB RAM, was bedeutet, dass man mehrere Racks braucht, um ein einzelnes LLM zu betreiben; das klingt nicht nach Fortschritt.
  Was man braucht, ist ein einzelnes PCIe-Board mit zig bis hunderten GB RAM und einem Prozessor, der gut damit umgehen kann.
- Auch bei Perplexity Labs gibt es eine öffentliche Demo von Mixtral 8x7b, aber sie ist nicht annähernd so schnell.
  https://labs.perplexity.ai/
- Ich verstehe wirklich nicht, warum das so großartig sein soll, und bin neugierig.
  Entscheidend sind TFLOPS/$ und TFLOPS/W sowie der Vergleich mit Nvidia, AMD und TPU. Nach kurzem Suchen scheint Groq seit 2020 ähnliche Behauptungen aufzustellen, aber die Leute zahlen immer noch einen großen Aufpreis für Nvidia, und Groq scheint diesen Markt nicht wesentlich aufzumischen. Wenn man ein viel kleineres Modell als ChatGPT auf vergleichbarer oder stärkerer Hardware laufen lässt, kann es natürlich schneller werden; das heißt aber nicht, dass es für die meisten Modelle oder Use Cases, bei denen Latenz nicht die zentrale Kennzahl ist, ein Durchbruch ist.
- Warum sollten sie verkaufen? Es klingt viel unterhaltsamer, sie in ihrem eigenen Spiel zu schlagen.
Das zentrale Problem der Groq-LPU ist, dass sie überhaupt kein HBM hat, sondern nur sehr kleine ultraschnelle 230 MiB SRAM.
Der ist zwar 20-mal schneller als HBM3, aber deshalb braucht man für das Serving eines einzelnen Modells etwa 256 LPUs, also ungefähr vier Server-Racks. Ein einzelner H200 kann solche Modelle dagegen schon ziemlich vernünftig serven. Für ein einzelnes Modell mit vielen Kunden kann das gut passen, aber sobald mehrere Modelle und viel Fine-Tuning bzw. High-Rank-LoRA nötig werden, wird es schwer nutzbar. Für On-Premise-Deployments passt es ebenfalls nicht, weil der zentrale Vorteil darin liegt, viele Nutzer auf dasselbe Modell zu bündeln.
https://wow.groq.com/groqcard-accelerator/
https://twitter.com/tomjaguarpaw/status/1759615563586744334
- Aus Sicht eines Groq-Ingenieurs verstehe ich nicht ganz, warum es ein Problem sein soll, Berechnungen über eine einzelne Karte oder einen einzelnen Node hinaus zu skalieren.
  Ich mag die Analogie mit der Autofabrik: Man kann ein Auto auch mit einem oder zwei Bohrern bauen, aber eine moderne automatisierte Fabrik hat Hunderte davon. Mit einem einzigen Bohrer kann man vielleicht viele Arten von Autos bauen, aber die Fließbänder in der Fabrik können nur Autos in einer bestimmten Konfiguration bauen. Das heißt aber nicht, dass die Fabrik ineffizient ist. Die Aussage, dass H200 ziemlich gut funktioniert, mag für synchrone Mensch-Interaktion plausibel sein, ist aber diskutabel. Ich würde gern ein Beispiel auf Nvidia sehen, bei dem ein Modell mit 30B+ Parametern während eines Gesprächs RAG durchführt und inklusive Sprachantwort in unter einer Sekunde antwortet.
- Groq gibt im Artikel an, für dieses Ergebnis 576 Chips verwendet zu haben.
  Außerdem muss man berücksichtigen, dass jeder Nutzer einen separaten KV-Cache braucht, was pro Nutzer noch einige GB zusätzlich bedeuten kann. Nach meiner fachlichen Einschätzung als unabhängiger Beobachter dürften die Umsatzkosten für solche Leistungswerte wahrscheinlich bei mehreren Millionen Dollar liegen, und es wirkt unrealistisch, das über die erwartete Nutzung so abzuschreiben, dass es zu den veröffentlichten theoretischen Preisen passt. Aus Sicht der realen Performance pro Dollar wirkt es wenig tragfähig; ignoriert man die Kosten, ist es aber definitiv eine sehr coole Demo mit irrer Performance.
  https://www.nextplatform.com/2023/11/27/groq-says-it-can-dep...
- Wenn niedrige Latenz das Ziel ist, muss man mit HBM sehr vorsichtig sein. Nicht nur die Latenz selbst ist ein Problem, sondern auch die Nichtdeterministik.
  Ein großer Vorteil der LPU-Architektur ist, dass man mit einem schnellen Interconnect Systeme aus Hunderten Chips bauen kann und dennoch das exakte Timing des Gesamtsystems bis in den ppm-Bereich kennt. Sobald man nichtdeterministische Komponenten einführt, verschwinden Latenzgarantien sehr schnell.
- Groq-Geräte eignen sich dank SRAM sehr gut für Inference mit kleinen Batches.
  Ich bin mir allerdings nicht sicher, ob sie einen Vorteil bei Tokens/Sekunde/Dollar haben, insbesondere nicht für Nutzer mit mittleren bis großen Batches, die viel Silizium kaufen können. Architektonisch dürfte Groq jenseits von Batch-Größe 1 nicht schneller werden, während Nvidia-Karten bei Batch-Größen im Hunderterbereich wahrscheinlich einen deutlich besseren Durchsatz erreichen.
- Es könnte möglich sein, ein Basismodell und mehrere LoRAs zu laden, ohne dabei viel mehr RAM als nur für das Basismodell zu verbrauchen.
  Man könnte Fine-Tuning so durchführen, dass nur etwa 0,1 % der Gewichte geändert werden, und bei jeder Berechnung nicht die Gewichtsdifferenzen berechnen, sondern die Differenz der Aktivierungswerte der Ausgabeschicht.
Auf den ersten Blick sehr beeindruckend. Ohne Benchmarks sollte man allerdings eine gewisse Skepsis bewahren.
Es gibt viele Umwege, etwa starke Quantisierung, bei denen zugunsten höherer Geschwindigkeit Qualität geopfert wird. Falls das nicht der Fall ist, würde ich gern sehen, dass sich die LLM-Tokens/Sekunde ähnlich weiterentwickeln wie vor Jahrzehnten die CPU-Instruktionen/Sekunde.
- Ich stimme der wissenschaftlichen Haltung zu, grundsätzlich skeptisch heranzugehen.
  Die Chat-App und die API sind offen, sodass jeder experimentieren und die Ausgabequalität mit anderen Anbietern vergleichen kann.
- Wie tome zuvor sagte, quantisieren wir nicht, und alle Aktivierungen sind FP16.
  Es gibt auch unabhängige Benchmarks: https://artificialanalysis.ai/models/llama-2-chat-70b
- Bei der früheren Llama-70B-Demo wurde behauptet, sie laufe unquantisiert.
  https://twitter.com/lifebypixels/status/1757619926360096852
  In diesem Kommentar heißt es allerdings, dass „einige Daten beim Speichern als FP8 gespeichert werden“, wobei ich nicht genau weiß, was das bedeutet: https://news.ycombinator.com/item?id=39432025
- Im Rahmen des Groq-Benchmarkings habe ich nach Quantisierung gefragt und die Bestätigung erhalten, dass das Modell in vollständigem FP-16 ausgeführt wird.
  Das ist ein guter Punkt zum Nachprüfen und ein wichtiger Aspekt. Benchmark-Link: https://artificialanalysis.ai/
  Gefragt wurde nicht zur Chat-Demo, sondern zur API.
- Vielleicht treibe ich die Analogie zu weit, aber ist LLM bereits im Transistorzeitalter angekommen?
  Wenn man sich ein Monster mit 70 Milliarden Parametern ansieht, fühlt es sich noch so an, als würde man ENIAC mit Vakuumröhren bauen. Anders gesagt: Ich frage mich, ob wir nun bereit sind, die LLM-Tokens/Sekunde Jahr für Jahr stetig zu verbessern, oder ob vorher noch ein oder zwei große Durchbrüche nötig sind.
Ich arbeite bei Groq. Ihr könnt mich alles fragen.
Wenn man sich meine HN-Beitragshistorie ansieht, rede ich viel über Haskell, und ja: Teile der Groq-Compiler-Pipeline sind in Haskell geschrieben.
- Es könnte ein Bug im Web-Interface sein, aber nachdem ich mit dem Mixtral-Modell einen Prompt eingegeben und eine Antwort erhalten hatte, habe ich im Dropdown auf Llama gewechselt und denselben Prompt eingegeben – und bekam eine völlig identische Antwort.
  Es könnte Caching sein, oder das abgefragte Modell hat sich tatsächlich nicht geändert, oder etwas anderes.
- Haskell wirkt im Machine-Learning-Bereich ziemlich ungewöhnlich.
  Mich interessiert, ob diese Wahl besondere Vorteile hat und ob man sie anderen Teams empfehlen würde. Außerdem würde ich gern wissen, welche Teile des Projekts Haskell verwenden und welche nicht.
- Soweit ich es verstehe, erhöht ihr mit spezieller Hardware die Geschwindigkeit der Token-Erzeugung, und die Token-Erzeugung ist stark an die Latenz der Rechengeschwindigkeit gebunden.
  Für die Token-Erzeugung braucht man aber normalerweise nur eindimensionale Matrixmultiplikationen. Wenn man einen Prompt mit etwa 100 Tokens eingibt, wird der Dienst deutlich langsamer, vermutlich weil zweidimensionale Matrizen multipliziert werden müssen. Mich interessiert, was ihr tut, um die Rechengeschwindigkeit bei der Prompt-Verarbeitung zu erhöhen.
- Ihr scheint eines der wenigen Unternehmen zu sein, die auf Inferenz mit niedriger Latenz abzielen und sich nicht nur auf Durchsatz und die daraus folgenden Kosten pro Inferenz konzentrieren.
  Mich interessiert, wo ihr euren Hauptmarkt seht.
- Danke für das AMA. Mich würde interessieren, wie viele GroqCards ihr für die Demo einsetzt und ob ihr ein neueres Modell mit mehr SRAM als den online sichtbaren 230 MB SRAM nutzt.
  Diese Zahl dürfte sich auf die Nutzung von Batch-Verarbeitung und auf Kostensenkungen auswirken. Außerdem wären Telefonate mit wirklich niedriger Latenz möglich, wenn sich eine TTS-Pipeline in den Stack integrieren ließe. Ich gehe davon aus, dass ihr dieses Produkt verwendet: https://www.bittware.com/products/groq/
Eine beeindruckende Demo.
Wegen der Hardwareanforderungen und Kosten scheint sie allerdings nur für große Unternehmen erreichbar zu sein. Mich interessiert, wann ihr eine Preisklasse für realistisch haltet, die auch Hobby-Entwickler stemmen können. Die CNN-Vapi-Demo war ebenfalls beeindruckend, aber auch https://smarterchild.chat/, das vor ein paar Wochen geteilt wurde, ermöglichte natürliche Gespräche mit sehr niedriger Sprachlatenz. Der Diskussion nach scheint es von https://www.sindarin.tech/ zu stammen; ich frage mich, ob sie Groq-LPUs verwenden oder etwas anderes. Ab etwa 50 t/s halte ich Echtzeitinteraktion für möglich. Alles darüber hinaus ist nützlich, um Massendaten schneller zu erzeugen, liegt aber weit über der Geschwindigkeit, die Menschen verarbeiten können, sodass der wahrgenommene Nutzen abnimmt. Für Kommunikation zwischen AIs oder die Übertragung von Wissen und Kontext könnte es nützlich sein. Dann müsste doch ein LPU-Produkt, das sich nur auf AI-Mensch-Interaktion konzentriert, mit deutlich geringerer Leistung und deutlich niedrigeren Kosten möglich sein.
https://news.ycombinator.com/item?id=39180237
- Der Zugang zu einer Token-API als Service garantiert niedrigere Kosten pro Token als jeder andere Anbieter.
  Siehe https://wow.groq.com. Beim Hardwareverkauf konzentrieren wir uns auf den Verkauf kompletter Systeme; in der Praxis ist das nur für Unternehmen oder Forschungseinrichtungen geeignet.
- Für Echtzeitinteraktion mit AI-Systemen braucht man zwingend deutlich mehr als 50 t/s.
  Der Großteil der LLM-Ausgabe wird für inneren Monolog, Planung, RAG, Zusammenfassungen usw. verwendet werden, und nur die endgültige Ausgabe wird dem Nutzer präsentiert. Man stelle sich ein extrem schnelles GPT-5 vor, das innerhalb weniger Augenblicke mehrfach Antworten plant, das Web durchsucht, einen Lesebericht schreibt, mit sich selbst debattiert, die gefundenen Inhalte verfeinert, die Antwort kritisiert und neu schreibt.
- Wenn man bedenkt, dass das Sindarin-Team offenbar aus etwa drei Personen besteht, wirkt es eher wie eine sehr clevere Kombination bestehender Technologien.
  Es gibt Sprach-APIs, die Echtzeit-Transkription auf Wortebene anbieten, und Google hat so etwas ebenfalls. Der entscheidende Trick liegt wahrscheinlich in einem sehr gut entworfenen Pipelining zwischen Spracherkennung → LLM → TTS. Ich will die Leistung nicht schmälern; im Gegenteil, es interessiert mich, weil ich wissen möchte, wie man dieses Ergebnis reproduzieren könnte.
Nicht immer schnell: Wenn man eine komplexe Frage stellt oder einen Vorab-Prompt eingibt, der eine andere Ausdrucksweise verlangt, dauert das Laden weiterhin eine Weile.
Interessant ist es zwar, aber am Ende wirkt es so, als könnte es mit hoher Wahrscheinlichkeit ein Fehlschlag werden.
Wenn die Seite auf bestimmte Schriftarten nicht zugreifen kann, schlägt sie fehl und versucht die Anfrage immer wieder erneut.
Ich habe das entdeckt, weil Browser solche faktischen Tracker standardmäßig blockieren.
https://fonts.gstatic.com/s/notosansarabic/[...]
https://fonts.gstatic.com/s/notosanshebrew/[...]
https://fonts.gstatic.com/s/notosanssc/[...]
- Wirkt wie eine Möglichkeit, Google zu zeigen, wie beliebt und interessant man als Übernahmeziel ist, ohne Google-Tracker direkt in die Website einzubauen.
- Dasselbe Problem tritt auf, wenn man per Datenschutz-Plugin Schriftersetzung verwenden will.
  Ziemlich seltsam, dass es eine solche Abhängigkeit gibt.
Ich bin auf diesem Gebiet etwas naiv und würde gern fragen: Warum ist das beeindruckend?
Wenn man schnellere Antworten will, kann man dann nicht einfach mehr Rechenleistung einsetzen? Dass bei Last eine Warteschlange entsteht, zeigt doch nur den Trade-off zwischen der Zahl der Anfragen, die pro Zeiteinheit verarbeitet werden können, und der Rechenmenge, die man für schnellere Antworten einsetzt, oder? Dieses Diagramm von NVIDIA sieht so aus, als würde es bedeuten, dass ein H100 llama v2 70B mit über 500 tok/s ausführt.
https://raw.githubusercontent.com/NVIDIA/TensorRT-LLM/rel/do...
- Mehr Rechenleistung kann den Durchsatz verbessern, aber die Latenz zwischen Tokens lässt sich nicht einfach verbessern.
  Bei der Generierung ist normalerweise die Zeit, die jedes Token für den Durchlauf durch das Netzwerk braucht, der Engpass. Um das zu beschleunigen, muss die Berechnung selbst schneller werden, und nachdem man die offensichtlichen Optionen wie die schnellsten Beschleuniger oder Caching ausgeschöpft hat, wird das zu einem schwierigen Problem.
- LLM-Inferenz ist im Kern ein sequenzielles Problem.
  Mehr Parallelität macht sie nicht schneller. Man kann das 101. Token nicht erzeugen, bevor man das 100. Token erzeugt hat.
- Token-Durchsatz und Latenz sind verschieden.
  Token-Durchsatz ist der Durchsatz des gesamten GPU-/Systems, Latenz ist der Token-Durchsatz aus Sicht eines einzelnen Nutzers. Groq bietet extrem niedrige Latenz, also sehr hohen Token-Durchsatz pro Nutzer, aber Zahlen zum gesamten Token-Durchsatz des Systems gibt es noch nicht. Die Nvidia-Metrik hier zeigt dagegen den Token-Durchsatz des gesamten GPU-/Systems. Selbst wenn man auf einem H100 tatsächlich 1,5k t/s erreichen kann, kann der Token-Durchsatz pro Nutzer nach Latenzmaßstab viel niedriger sein, etwa 20 t/s. Die wirklich wichtige Kennzahl sind die Kosten pro Token. Nur weil Groq mit niedriger Latenz laufen kann, heißt das nicht, dass es billig möglich ist. Eine sinnvolle Näherung ist, die Systemkosten durch den Token-Durchsatz pro Sekunde des Gesamtsystems zu teilen; ohne den gesamten Token-Durchsatz pro Sekunde des Groq-Systems ist es schwer, etwas über die Effizienz zu sagen, und im Moment könnten sie die Systemkosten für PR subventionieren und später die Preise erhöhen.
- Letztlich scheint es davon abzuhängen, wie hoch die Infrastrukturkosten im Artikel sind.
  Die Produktionskosten eines H100 liegen nur bei etwa 3.300 Dollar, verkauft wird er im Schnitt aber für rund 30.000 Dollar.
  https://www.hpcwire.com/2023/08/17/nvidia-h100-are-550000-gp...
- Nvidia scheint den maximalen Durchsatz bei Batch-Verarbeitung angegeben zu haben, zum Beispiel gleichzeitig 10 verschiedene Prompts mit je 50 tok/s.
  Die Groq-LPU übertrifft den H100 bei der reinen Geschwindigkeit eindeutig. Grundsätzlich ist es aber ein System, das 500-mal so teuer und 10-mal so schnell ist, und es wirkt so, als würde ein Unternehmen, das eine Blockchain betreibt, einen Chip, der ursprünglich für Krypto-Mining gedacht war, nun massiv für LLM-Inferenz vermarkten. Es ist auch ein ziemlich lustiger Zufall, dass jedes Mal, wenn jede Woche jemand erstaunt diesen Link postet, Groq-Ingenieure in den Kommentaren bereitstehen und alle möglichen Antworten parat haben.
Hat das hier gar nichts mit dem von x.ai angebotenen Grok-Modell zu tun?
Ich habe es ausprobiert, und die Geschwindigkeit ist sehr beeindruckend.
- Mit Elon hat es überhaupt nichts zu tun; wir bei Groq haben den Namen zuerst verwendet.
  Im KI-Bereich ist das wegen der Verbindung zum Hacker-Ethos eine naheliegende Namenswahl, aber die Marke gehört uns, Elon nicht.
  https://wow.groq.com/hey-elon-its-time-to-cease-de-grok/
- Ohne diesen Kommentar hätte ich gedacht, dass es von Twitter stammt.
- Es gibt auch ein Kinderspielzeug namens Grok, das ein LLM nutzt, um mit Kindern zu sprechen.
Sowohl Groq als auch Mixtral sind einfach atemberaubend.
Ich habe den folgenden Prompt ausprobiert: Erzeuge eine GitLab-CI-YAML-Datei für ein hybrides Frontend-/Backend-Projekt, bei dem es unter /frontend ein Node-Frontend gibt, das mit yarn paketiert und mit vite gebaut und nach /backend/public gelegt wird, während das Backend ein Python-Flask-Server ist.
- Trotzdem hat es in einfachem Python-Code einen Fehler gemacht.
  particles = np.zeros((2, 3)) # position, velocity, and acceleration
  particles[:, 0] = [0.0, 0.0, 0.0] # initial position

Groq betreibt Mixtral 8x7B-32k mit 500 T/s

Schnelle und günstige Inferenzplattform

Ein speziell für Inferenz entwickelter Stack auf LPU-Basis

Rechenzentren weltweit und GroqCloud

OpenAI-kompatible Entwickler-Integration

Kundenbeispiele und Partnerschaften

Gleichzeitig veröffentlichte News-Beiträge

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News