1 Punkte von GN⁺ 2024-02-21 | 1 Kommentare | Auf WhatsApp teilen

1 Kommentare

 
GN⁺ 2024-02-21
Hacker News Kommentare
  • Zusammenfassung des ersten Kommentars:

      • Die technische Demo ist äußerst beeindruckend, vor allem weil sie ein echtes Open-Demo ist, das jeder ohne Kontoerstellung ausprobieren kann.
      • Es wirkt surreal, so schnell Token zu generieren zu sehen, als man es bisher je gesehen hat.
      • Überraschend ist, dass sie nicht von großen Konzernen wie Microsoft, Apple oder Google übernommen wurde.
  • Zusammenfassung des zweiten Kommentars:

      • Ein Hauptproblem der Groq LPUs ist, dass sie kein HBM haben und nur sehr wenig (230 MiB) extrem schnellen SRAM-Speicher besitzen.
      • Für den Betrieb eines einzelnen Modells werden 256 LPU-Pods benötigt (entspricht dem Platz von 4 Server-Racks).
      • Für viele Kunden mit demselben Modell ist das nützlich, aber für mehrere Modelle und Feinabstimmungen ist es schwer zu verwenden.
  • Zusammenfassung des dritten Kommentars:

      • Die Demo ist beeindruckend, aber ohne Benchmark sollte man misstrauisch bleiben.
      • Es gibt einen Weg, die Modelle schneller zu machen, indem die Modellqualität geopfert wird, zum Beispiel durch Quantisierung.
      • Man würde gern sehen, wie sich LLM-Token/Sekunde ähnlich entwickelt wie CPU-Instruktionen/Sekunde vor Jahrzehnten.
  • Zusammenfassung des vierten Kommentars:

      • Als Groq-Mitarbeitender sagt er, man könne jederzeit Fragen stellen.
      • Er erwähnt, dass ein Teil der Groq-Compiler-Pipeline in Haskell geschrieben wurde.
  • Zusammenfassung des fünften Kommentars:

      • Die Demo ist beeindruckend, aber angesichts der Hardwareanforderungen und Kosten ist sie nur für Großunternehmen erschwinglich.
      • Es wird gefragt, ob und wann die Preise für Hobbyprojekte sinken werden.
      • Die CNN-Vapi-Demo war ebenfalls beeindruckend, aber andere Dienste ermöglichen durch niedrigere Audiolatenz natürlichere Gespräche.
      • Er teilt die Ansicht, dass es einen Schwellwert für Token/Sekunde für die Echtzeit-Interaktion gibt und dass darüber hinausgehende Geschwindigkeiten für die Kommunikation zwischen AIs nützlich sein könnten.
  • Zusammenfassung des sechsten Kommentars:

      • Er fragt, warum es so erstaunlich ist, dass man die Reaktionszeit nicht einfach durch mehr Rechenleistung erhöhen kann.
      • Er zitiert eine Nvidia-Grafik, in der H100 ein 70B-Modell bei über 500 Token/Sekunde ausführt.
  • Zusammenfassung des siebten Kommentars:

      • Er weist darauf hin, dass die Seite nicht funktioniert, wenn auf eine bestimmte Schriftart nicht zugegriffen werden kann, und fordert dazu auf, die Anfrage wiederholt zu versuchen.
      • Dieses Problem wurde entdeckt, weil der Browser solche Tracker standardmäßig blockiert.
  • Zusammenfassung des achten Kommentars:

      • Es wird gefragt, ob diese Technologie mit Grok von x.ai verwandt ist.
      • Nach einem Test war er von der Geschwindigkeit stark beeindruckt.
  • Zusammenfassung des neunten Kommentars:

      • Er ist begeistert von Groq und Mixtral.
      • Er erlebte eine Demo, in der mit einem bestimmten Prompt eine GitLab CI YAML-Datei generiert wurde.
  • Zusammenfassung des zehnten Kommentars:

      • Die API-Leistung von Groq kommt ihm zufolge ähnlich rasant.
      • Er berichtet, über die Zeit konstant mehr als 400 Token/Sekunde erreicht zu haben.