- MK-1 ist ein neues Unternehmen, das AI-Modelle anbieten will, die mit den Elite-Akteuren im AI-Bereich wie OpenAI, Anthropic und Google gleichziehen oder sie übertreffen.
- Das erste Produkt des Unternehmens, MKML, ist eine Inferenz-Runtime, die die Inferenzkosten großer Sprachmodelle (LLMs) auf GPUs mit nur wenigen Zeilen Python-Code halbieren kann.
- MKML ist mit beliebten Ökosystemen wie Hugging Face und PyTorch kompatibel.
- MKML befindet sich derzeit in einer geschlossenen Beta-Phase und sucht nach frühen Partnern.
- MKML kann dabei helfen, AI-Modelle zu optimieren, indem es den Speicherverbrauch reduziert und die Geschwindigkeit erhöht. So kann etwa das Llama-2-13B-Modell von 26 GB auf 10,5 GB verkleinert und die Inferenzzeit des Forward-Passes um bis zu 2,3× reduziert werden.
- MKML kann zur Optimierung von AI-Modellen nach Kosten oder Geschwindigkeit eingesetzt werden. In Kostenoptimierungsszenarien kann es Modelle so anpassen, dass sie auf günstigere GPU-Instanzen passen und auf teureren Instanzen schneller laufen als das Basismodell. In Geschwindigkeitsoptimierungsszenarien kann MKML Modelle um bis zu 2,0× beschleunigen, sodass mehr Nutzer bedient werden können.
- MKML lässt sich leicht in bestehende Workflows integrieren. Dazu wird das Modell einmal mit einem der Modell-Codecs von MKML komprimiert, das komprimierte Modell auf der Festplatte gespeichert und anschließend für die Inferenz geladen.
- MKML unterstützt verschiedene Modellgrößen und Systemkonfigurationen und ist in Geschwindigkeitstests durchgängig schneller als die Baseline.
- MKML bewahrt zudem eine hohe Treue zum ursprünglichen Modell und zeigt bei Standard-Perplexitätsmessungen nur vernachlässigbare Unterschiede.
- Die langfristige Vision von MK-1 besteht darin, die Leistung von AI über den gesamten Inferenz-Stack hinweg bis an die Grenzen zu treiben. Das Unternehmen verfügt über eine ambitionierte Roadmap für die weitere Entwicklung.
1 Kommentare
Hacker-News-Kommentare
mlc-llmmit 4-Bit-Quantisierung gebeten; Letzteres soll Llama2 13B erstaunlich schnell ausführen.