Kimi-K2-1T-Modell läuft auf zwei M3 Ultra mit jeweils 512 GB

(twitter.com/awnihannun)

1 Punkte von GN⁺ 2025-12-15 | 1 Kommentare | Auf WhatsApp teilen

Das Kimi-K2-1T-Modell wurde auf zwei M3-Ultra-Chips mit jeweils 512 GB Speicher ausgeführt
In dem Twitter-Beitrag werden die Laufzeitumgebung und Hardware-Konfiguration des Modells erwähnt
Bemerkenswert ist, dass ein Modell im 1T-Maßstab auf kommerzieller Mac-Hardware ausgeführt wurde
Ein Beispiel, das das Potenzial von leistungsstarken KI-Berechnungen auf Apple Silicon zeigt
Ein technischer Versuch, der auf eine Erweiterung der Grenzen lokaler Ausführung großer Sprachmodelle hindeutet

Inhalt des Twitter-Beitrags

Im Beitrag wird ausdrücklich angegeben, dass das Kimi-K2-1T-Modell auf zwei M3 Ultra (jeweils 512 GB Speicher) ausgeführt wurde
Keine weiteren Leistungskennzahlen oder Ergebnisse werden erläutert
Über den Tweet hinaus werden kein zusätzlicher Kontext und keine detaillierten technischen Informationen bereitgestellt

1 Kommentare

GN⁺ 2025-12-15

Hacker-News-Kommentare

Kimi K2 ist wirklich ein seltsames Modell
Es ist nicht klüger als Opus 4.5 oder 5.2-Pro, aber sein Schreibstil ist sehr eigenständig und es hat einen direkten Ton, als würde man mit einem Menschen sprechen
Für kurze Texte wie E-Mails ist es vermutlich das Beste, was es derzeit gibt, und es zögert nicht, Fehler im Gespräch anzusprechen oder Unsinn richtigzustellen
Es wirkt, als wäre es völlig anders trainiert worden als andere Modelle, deshalb ist es für Editing deutlich nützlicher als für Datenanalyse
Deshalb bezahle ich tatsächlich für ein Kimi-Abo und nutze es
- Sehe ich genauso. Für kurze Kommunikation ist Kimi K2 konkurrenzlos
  Seine emotionale Intelligenz (emotional intelligence) ist hervorragend: Es liest Nuancen und Absichten in Nachrichten sehr gut und feilt Formulierungen sogar unter Berücksichtigung des sozialen Kontexts aus
  Ich weiß nicht, wie Moonshot es trainiert hat, aber genau dieser Aspekt ist wirklich bemerkenswert
  Im EQ-bench hat es bei der Bewertung emotionaler Intelligenz den 1. Platz belegt, und das entspricht exakt meinem Eindruck
- Es ist das einzige Modell, das meinen Lieblings-AI-Benchmark, den Clocks-Test, konstant gut besteht
- Es ist das einzige Modell, das mich ehrlich darauf hinweist, wenn ich falsch liege
  Einen Chatbot zu sehen, der Dinge sagt wie „Liefere ein reproduzierbares Beispiel“, ist schon eine interessante Erfahrung
  Übrigens kann man Kimi K2 auch bei Kagi verwenden
- Sonnet 4.5 widerspricht Nutzern auf ähnliche Weise, aber meistens sind das Missverständnisse wegen mangelnden Kontexts
  Ich frage mich, wie präzise Kimi K2 in solchen Situationen ist
  Letztlich denke ich, dass der Kern eines Modells doch Instruction Following ist
- Mit diesen Eigenschaften ist der hohe Wert im EQ-bench eigentlich nur folgerichtig
Kimi K2 ist wirklich ein beeindruckendes Modell
Durch seine Haltung, nicht übermäßig zu schmeicheln, ist es sehr nützlich zum Prüfen von Logik
Frühere ChatGPT-Modelle haben alles gelobt, aber Kimi kritisiert auf Anfrage gnadenlos, bis hin dazu, Intelligenz oder Abstammung infrage zu stellen
- Wenn man darum bittet, schaltet es tatsächlich in den Roast-Modus. Das hilft dabei, konzentriert zu bleiben
- Ich hatte einmal eine peinliche Situation, als ich in einem Tesla Grok eingeschaltet hatte und die Spracherkennung falsch ausgelöst wurde
  Dieses Modell hatte wie Kimi ebenfalls überhaupt keine schmeichelnde Art
Das M3-Ultra-Modell mit 512 GB kostet 9.499 $
Offizieller Apple-Link
- Refurbished bekommt man es über diesen Link für 8.070 $
  Mit einer Geschenkkarte sind zusätzlich 10 % Rabatt möglich
Ich frage mich, ob es eine Linux-Version dieser Konfiguration gibt
Von RDNA-Support habe ich gehört, aber ich weiß nicht, ob das hardwareabhängig ist (ConnectX oder Apple Thunderbolt nötig) oder ob auch eine normale 10G-NIC ausreicht
- Für Performance auf Produktionsniveau braucht man RDNA-kompatible Hardware
  Allerdings unterstützt vLLM auch Multi-Node-Cluster auf Basis von normalem Ethernet
Wie immer führen Performance-Behauptungen ohne Angabe von Kontextlänge oder Prefill-Bedingungen zu Missverständnissen
Bei langem Kontext kann es mehrere Minuten dauern, bis man eine Antwort bekommt
Ich würde mir gern ein paar solcher Geräte kaufen, aber wenn ich an die Abschreibung denke, scheint es noch zu früh zu sein
In ein paar Jahren dürfte es deutlich billiger werden
- Vor dem Kauf sollte man sich unbedingt echte Geschwindigkeits-Benchmarks ansehen
  Man sollte nicht einfach glauben, dass „es läuft“ genügt; bei langem Kontext ist die Verarbeitungsgeschwindigkeit eine völlig andere Sache
- Persönlich halte ich den Kauf solcher Geräte wirtschaftlich nicht für sinnvoll
  Für denselben Betrag bekommt man sehr viel mehr Cloud-Nutzung
  Außerdem lasse ich so etwas nicht 24/7 laufen, wodurch die Effizienz sinkt
  Open-Source-Modelle lassen sich viel bequemer über Ultra-Low-Latency-Services wie Groq oder Cerebras betreiben
- Der Grund, lokale Modelle laufen zu lassen, ist Privatsphäre, nicht Kosten oder Latenz
- Ich hoffe, dass beim nächsten Update Varianten mit dem M5-Chip verbaut werden
- Wahrscheinlich ist es besser zu warten, bis sich die RAM-Preise stabilisieren
Ich frage mich, welche Benchmarks derzeit überhaupt aussagekräftig sind
Ich teste verschiedene Modelle in Cursor, aber Deepseek v3.2 oder Kimi K2 funktionieren wegen Formatproblemen nicht gut, und auch andere Modelle fehlen
Mich interessieren besonders Benchmarks außerhalb des Web-Bereichs, etwa für C++ oder Rust
Man sollte erwähnen, dass dieses Modell eine 4-Bit-Quantisierungsversion (quant) ist. Trotzdem beeindruckend
- Kimi K2 wurde von Anfang an mit Blick auf 4-Bit-Optimierung entworfen
- Wenn ein Modell eine Billion Parameter hat, ist Quantisierung aus meiner Sicht ohnehin vorausgesetzt
Ich frage mich, ob sich die Token-Prefill-Beschleunigung von Exo Labs auch auf einer DGX Spark ausführen lässt
Wären zwei Sparks plus zwei Mac Studios bei der Inferenz vielleicht ähnlich schnell wie zwei M5 Ultras?
Ist das nicht vielleicht genau das Modell, das kürzlich den Live-Uhrzeichen-Wettbewerb gewonnen hat?

Kimi-K2-1T-Modell läuft auf zwei M3 Ultra mit jeweils 512 GB

Inhalt des Twitter-Beitrags

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare