Kimi-K2-1T-Modell läuft auf zwei M3 Ultra mit jeweils 512 GB
(twitter.com/awnihannun)- Das Kimi-K2-1T-Modell wurde auf zwei M3-Ultra-Chips mit jeweils 512 GB Speicher ausgeführt
- In dem Twitter-Beitrag werden die Laufzeitumgebung und Hardware-Konfiguration des Modells erwähnt
- Bemerkenswert ist, dass ein Modell im 1T-Maßstab auf kommerzieller Mac-Hardware ausgeführt wurde
- Ein Beispiel, das das Potenzial von leistungsstarken KI-Berechnungen auf Apple Silicon zeigt
- Ein technischer Versuch, der auf eine Erweiterung der Grenzen lokaler Ausführung großer Sprachmodelle hindeutet
Inhalt des Twitter-Beitrags
- Im Beitrag wird ausdrücklich angegeben, dass das Kimi-K2-1T-Modell auf zwei M3 Ultra (jeweils 512 GB Speicher) ausgeführt wurde
- Keine weiteren Leistungskennzahlen oder Ergebnisse werden erläutert
- Über den Tweet hinaus werden kein zusätzlicher Kontext und keine detaillierten technischen Informationen bereitgestellt
1 Kommentare
Hacker-News-Kommentare
Es ist nicht klüger als Opus 4.5 oder 5.2-Pro, aber sein Schreibstil ist sehr eigenständig und es hat einen direkten Ton, als würde man mit einem Menschen sprechen
Für kurze Texte wie E-Mails ist es vermutlich das Beste, was es derzeit gibt, und es zögert nicht, Fehler im Gespräch anzusprechen oder Unsinn richtigzustellen
Es wirkt, als wäre es völlig anders trainiert worden als andere Modelle, deshalb ist es für Editing deutlich nützlicher als für Datenanalyse
Deshalb bezahle ich tatsächlich für ein Kimi-Abo und nutze es
Seine emotionale Intelligenz (emotional intelligence) ist hervorragend: Es liest Nuancen und Absichten in Nachrichten sehr gut und feilt Formulierungen sogar unter Berücksichtigung des sozialen Kontexts aus
Ich weiß nicht, wie Moonshot es trainiert hat, aber genau dieser Aspekt ist wirklich bemerkenswert
Im EQ-bench hat es bei der Bewertung emotionaler Intelligenz den 1. Platz belegt, und das entspricht exakt meinem Eindruck
Einen Chatbot zu sehen, der Dinge sagt wie „Liefere ein reproduzierbares Beispiel“, ist schon eine interessante Erfahrung
Übrigens kann man Kimi K2 auch bei Kagi verwenden
Ich frage mich, wie präzise Kimi K2 in solchen Situationen ist
Letztlich denke ich, dass der Kern eines Modells doch Instruction Following ist
Durch seine Haltung, nicht übermäßig zu schmeicheln, ist es sehr nützlich zum Prüfen von Logik
Frühere ChatGPT-Modelle haben alles gelobt, aber Kimi kritisiert auf Anfrage gnadenlos, bis hin dazu, Intelligenz oder Abstammung infrage zu stellen
Dieses Modell hatte wie Kimi ebenfalls überhaupt keine schmeichelnde Art
Offizieller Apple-Link
Mit einer Geschenkkarte sind zusätzlich 10 % Rabatt möglich
Von RDNA-Support habe ich gehört, aber ich weiß nicht, ob das hardwareabhängig ist (ConnectX oder Apple Thunderbolt nötig) oder ob auch eine normale 10G-NIC ausreicht
Allerdings unterstützt vLLM auch Multi-Node-Cluster auf Basis von normalem Ethernet
Bei langem Kontext kann es mehrere Minuten dauern, bis man eine Antwort bekommt
In ein paar Jahren dürfte es deutlich billiger werden
Man sollte nicht einfach glauben, dass „es läuft“ genügt; bei langem Kontext ist die Verarbeitungsgeschwindigkeit eine völlig andere Sache
Für denselben Betrag bekommt man sehr viel mehr Cloud-Nutzung
Außerdem lasse ich so etwas nicht 24/7 laufen, wodurch die Effizienz sinkt
Open-Source-Modelle lassen sich viel bequemer über Ultra-Low-Latency-Services wie Groq oder Cerebras betreiben
Ich teste verschiedene Modelle in Cursor, aber Deepseek v3.2 oder Kimi K2 funktionieren wegen Formatproblemen nicht gut, und auch andere Modelle fehlen
Mich interessieren besonders Benchmarks außerhalb des Web-Bereichs, etwa für C++ oder Rust
Wären zwei Sparks plus zwei Mac Studios bei der Inferenz vielleicht ähnlich schnell wie zwei M5 Ultras?