Die technische Demo ist äußerst beeindruckend, vor allem weil sie ein echtes Open-Demo ist, das jeder ohne Kontoerstellung ausprobieren kann.
Es wirkt surreal, so schnell Token zu generieren zu sehen, als man es bisher je gesehen hat.
Überraschend ist, dass sie nicht von großen Konzernen wie Microsoft, Apple oder Google übernommen wurde.
Zusammenfassung des zweiten Kommentars:
Ein Hauptproblem der Groq LPUs ist, dass sie kein HBM haben und nur sehr wenig (230 MiB) extrem schnellen SRAM-Speicher besitzen.
Für den Betrieb eines einzelnen Modells werden 256 LPU-Pods benötigt (entspricht dem Platz von 4 Server-Racks).
Für viele Kunden mit demselben Modell ist das nützlich, aber für mehrere Modelle und Feinabstimmungen ist es schwer zu verwenden.
Zusammenfassung des dritten Kommentars:
Die Demo ist beeindruckend, aber ohne Benchmark sollte man misstrauisch bleiben.
Es gibt einen Weg, die Modelle schneller zu machen, indem die Modellqualität geopfert wird, zum Beispiel durch Quantisierung.
Man würde gern sehen, wie sich LLM-Token/Sekunde ähnlich entwickelt wie CPU-Instruktionen/Sekunde vor Jahrzehnten.
Zusammenfassung des vierten Kommentars:
Als Groq-Mitarbeitender sagt er, man könne jederzeit Fragen stellen.
Er erwähnt, dass ein Teil der Groq-Compiler-Pipeline in Haskell geschrieben wurde.
Zusammenfassung des fünften Kommentars:
Die Demo ist beeindruckend, aber angesichts der Hardwareanforderungen und Kosten ist sie nur für Großunternehmen erschwinglich.
Es wird gefragt, ob und wann die Preise für Hobbyprojekte sinken werden.
Die CNN-Vapi-Demo war ebenfalls beeindruckend, aber andere Dienste ermöglichen durch niedrigere Audiolatenz natürlichere Gespräche.
Er teilt die Ansicht, dass es einen Schwellwert für Token/Sekunde für die Echtzeit-Interaktion gibt und dass darüber hinausgehende Geschwindigkeiten für die Kommunikation zwischen AIs nützlich sein könnten.
Zusammenfassung des sechsten Kommentars:
Er fragt, warum es so erstaunlich ist, dass man die Reaktionszeit nicht einfach durch mehr Rechenleistung erhöhen kann.
Er zitiert eine Nvidia-Grafik, in der H100 ein 70B-Modell bei über 500 Token/Sekunde ausführt.
Zusammenfassung des siebten Kommentars:
Er weist darauf hin, dass die Seite nicht funktioniert, wenn auf eine bestimmte Schriftart nicht zugegriffen werden kann, und fordert dazu auf, die Anfrage wiederholt zu versuchen.
Dieses Problem wurde entdeckt, weil der Browser solche Tracker standardmäßig blockiert.
Zusammenfassung des achten Kommentars:
Es wird gefragt, ob diese Technologie mit Grok von x.ai verwandt ist.
Nach einem Test war er von der Geschwindigkeit stark beeindruckt.
Zusammenfassung des neunten Kommentars:
Er ist begeistert von Groq und Mixtral.
Er erlebte eine Demo, in der mit einem bestimmten Prompt eine GitLab CI YAML-Datei generiert wurde.
Zusammenfassung des zehnten Kommentars:
Die API-Leistung von Groq kommt ihm zufolge ähnlich rasant.
Er berichtet, über die Zeit konstant mehr als 400 Token/Sekunde erreicht zu haben.
1 Kommentare
Hacker News Kommentare
Zusammenfassung des ersten Kommentars:
Zusammenfassung des zweiten Kommentars:
Zusammenfassung des dritten Kommentars:
Zusammenfassung des vierten Kommentars:
Zusammenfassung des fünften Kommentars:
Zusammenfassung des sechsten Kommentars:
Zusammenfassung des siebten Kommentars:
Zusammenfassung des achten Kommentars:
Grokvon x.ai verwandt ist.Zusammenfassung des neunten Kommentars:
Zusammenfassung des zehnten Kommentars: