1 Punkte von GN⁺ 2025-12-15 | 1 Kommentare | Auf WhatsApp teilen
  • Das Kimi-K2-1T-Modell wurde auf zwei M3-Ultra-Chips mit jeweils 512 GB Speicher ausgeführt
  • In dem Twitter-Beitrag werden die Laufzeitumgebung und Hardware-Konfiguration des Modells erwähnt
  • Bemerkenswert ist, dass ein Modell im 1T-Maßstab auf kommerzieller Mac-Hardware ausgeführt wurde
  • Ein Beispiel, das das Potenzial von leistungsstarken KI-Berechnungen auf Apple Silicon zeigt
  • Ein technischer Versuch, der auf eine Erweiterung der Grenzen lokaler Ausführung großer Sprachmodelle hindeutet

Inhalt des Twitter-Beitrags

  • Im Beitrag wird ausdrücklich angegeben, dass das Kimi-K2-1T-Modell auf zwei M3 Ultra (jeweils 512 GB Speicher) ausgeführt wurde
  • Keine weiteren Leistungskennzahlen oder Ergebnisse werden erläutert
  • Über den Tweet hinaus werden kein zusätzlicher Kontext und keine detaillierten technischen Informationen bereitgestellt

1 Kommentare

 
GN⁺ 2025-12-15
Hacker-News-Kommentare
  • Kimi K2 ist wirklich ein seltsames Modell
    Es ist nicht klüger als Opus 4.5 oder 5.2-Pro, aber sein Schreibstil ist sehr eigenständig und es hat einen direkten Ton, als würde man mit einem Menschen sprechen
    Für kurze Texte wie E-Mails ist es vermutlich das Beste, was es derzeit gibt, und es zögert nicht, Fehler im Gespräch anzusprechen oder Unsinn richtigzustellen
    Es wirkt, als wäre es völlig anders trainiert worden als andere Modelle, deshalb ist es für Editing deutlich nützlicher als für Datenanalyse
    Deshalb bezahle ich tatsächlich für ein Kimi-Abo und nutze es
    • Sehe ich genauso. Für kurze Kommunikation ist Kimi K2 konkurrenzlos
      Seine emotionale Intelligenz (emotional intelligence) ist hervorragend: Es liest Nuancen und Absichten in Nachrichten sehr gut und feilt Formulierungen sogar unter Berücksichtigung des sozialen Kontexts aus
      Ich weiß nicht, wie Moonshot es trainiert hat, aber genau dieser Aspekt ist wirklich bemerkenswert
      Im EQ-bench hat es bei der Bewertung emotionaler Intelligenz den 1. Platz belegt, und das entspricht exakt meinem Eindruck
    • Es ist das einzige Modell, das meinen Lieblings-AI-Benchmark, den Clocks-Test, konstant gut besteht
    • Es ist das einzige Modell, das mich ehrlich darauf hinweist, wenn ich falsch liege
      Einen Chatbot zu sehen, der Dinge sagt wie „Liefere ein reproduzierbares Beispiel“, ist schon eine interessante Erfahrung
      Übrigens kann man Kimi K2 auch bei Kagi verwenden
    • Sonnet 4.5 widerspricht Nutzern auf ähnliche Weise, aber meistens sind das Missverständnisse wegen mangelnden Kontexts
      Ich frage mich, wie präzise Kimi K2 in solchen Situationen ist
      Letztlich denke ich, dass der Kern eines Modells doch Instruction Following ist
    • Mit diesen Eigenschaften ist der hohe Wert im EQ-bench eigentlich nur folgerichtig
  • Kimi K2 ist wirklich ein beeindruckendes Modell
    Durch seine Haltung, nicht übermäßig zu schmeicheln, ist es sehr nützlich zum Prüfen von Logik
    Frühere ChatGPT-Modelle haben alles gelobt, aber Kimi kritisiert auf Anfrage gnadenlos, bis hin dazu, Intelligenz oder Abstammung infrage zu stellen
    • Wenn man darum bittet, schaltet es tatsächlich in den Roast-Modus. Das hilft dabei, konzentriert zu bleiben
    • Ich hatte einmal eine peinliche Situation, als ich in einem Tesla Grok eingeschaltet hatte und die Spracherkennung falsch ausgelöst wurde
      Dieses Modell hatte wie Kimi ebenfalls überhaupt keine schmeichelnde Art
  • Das M3-Ultra-Modell mit 512 GB kostet 9.499 $
    Offizieller Apple-Link
    • Refurbished bekommt man es über diesen Link für 8.070 $
      Mit einer Geschenkkarte sind zusätzlich 10 % Rabatt möglich
  • Ich frage mich, ob es eine Linux-Version dieser Konfiguration gibt
    Von RDNA-Support habe ich gehört, aber ich weiß nicht, ob das hardwareabhängig ist (ConnectX oder Apple Thunderbolt nötig) oder ob auch eine normale 10G-NIC ausreicht
    • Für Performance auf Produktionsniveau braucht man RDNA-kompatible Hardware
      Allerdings unterstützt vLLM auch Multi-Node-Cluster auf Basis von normalem Ethernet
  • Wie immer führen Performance-Behauptungen ohne Angabe von Kontextlänge oder Prefill-Bedingungen zu Missverständnissen
    Bei langem Kontext kann es mehrere Minuten dauern, bis man eine Antwort bekommt
  • Ich würde mir gern ein paar solcher Geräte kaufen, aber wenn ich an die Abschreibung denke, scheint es noch zu früh zu sein
    In ein paar Jahren dürfte es deutlich billiger werden
    • Vor dem Kauf sollte man sich unbedingt echte Geschwindigkeits-Benchmarks ansehen
      Man sollte nicht einfach glauben, dass „es läuft“ genügt; bei langem Kontext ist die Verarbeitungsgeschwindigkeit eine völlig andere Sache
    • Persönlich halte ich den Kauf solcher Geräte wirtschaftlich nicht für sinnvoll
      Für denselben Betrag bekommt man sehr viel mehr Cloud-Nutzung
      Außerdem lasse ich so etwas nicht 24/7 laufen, wodurch die Effizienz sinkt
      Open-Source-Modelle lassen sich viel bequemer über Ultra-Low-Latency-Services wie Groq oder Cerebras betreiben
    • Der Grund, lokale Modelle laufen zu lassen, ist Privatsphäre, nicht Kosten oder Latenz
    • Ich hoffe, dass beim nächsten Update Varianten mit dem M5-Chip verbaut werden
    • Wahrscheinlich ist es besser zu warten, bis sich die RAM-Preise stabilisieren
  • Ich frage mich, welche Benchmarks derzeit überhaupt aussagekräftig sind
    Ich teste verschiedene Modelle in Cursor, aber Deepseek v3.2 oder Kimi K2 funktionieren wegen Formatproblemen nicht gut, und auch andere Modelle fehlen
    Mich interessieren besonders Benchmarks außerhalb des Web-Bereichs, etwa für C++ oder Rust
  • Man sollte erwähnen, dass dieses Modell eine 4-Bit-Quantisierungsversion (quant) ist. Trotzdem beeindruckend
    • Kimi K2 wurde von Anfang an mit Blick auf 4-Bit-Optimierung entworfen
    • Wenn ein Modell eine Billion Parameter hat, ist Quantisierung aus meiner Sicht ohnehin vorausgesetzt
  • Ich frage mich, ob sich die Token-Prefill-Beschleunigung von Exo Labs auch auf einer DGX Spark ausführen lässt
    Wären zwei Sparks plus zwei Mac Studios bei der Inferenz vielleicht ähnlich schnell wie zwei M5 Ultras?
  • Ist das nicht vielleicht genau das Modell, das kürzlich den Live-Uhrzeichen-Wettbewerb gewonnen hat?