1 Punkte von GN⁺ 2023-08-07 | 1 Kommentare | Auf WhatsApp teilen
  • MK-1 ist ein neues Unternehmen, das AI-Modelle anbieten will, die mit den Elite-Akteuren im AI-Bereich wie OpenAI, Anthropic und Google gleichziehen oder sie übertreffen.
  • Das erste Produkt des Unternehmens, MKML, ist eine Inferenz-Runtime, die die Inferenzkosten großer Sprachmodelle (LLMs) auf GPUs mit nur wenigen Zeilen Python-Code halbieren kann.
  • MKML ist mit beliebten Ökosystemen wie Hugging Face und PyTorch kompatibel.
  • MKML befindet sich derzeit in einer geschlossenen Beta-Phase und sucht nach frühen Partnern.
  • MKML kann dabei helfen, AI-Modelle zu optimieren, indem es den Speicherverbrauch reduziert und die Geschwindigkeit erhöht. So kann etwa das Llama-2-13B-Modell von 26 GB auf 10,5 GB verkleinert und die Inferenzzeit des Forward-Passes um bis zu 2,3× reduziert werden.
  • MKML kann zur Optimierung von AI-Modellen nach Kosten oder Geschwindigkeit eingesetzt werden. In Kostenoptimierungsszenarien kann es Modelle so anpassen, dass sie auf günstigere GPU-Instanzen passen und auf teureren Instanzen schneller laufen als das Basismodell. In Geschwindigkeitsoptimierungsszenarien kann MKML Modelle um bis zu 2,0× beschleunigen, sodass mehr Nutzer bedient werden können.
  • MKML lässt sich leicht in bestehende Workflows integrieren. Dazu wird das Modell einmal mit einem der Modell-Codecs von MKML komprimiert, das komprimierte Modell auf der Festplatte gespeichert und anschließend für die Inferenz geladen.
  • MKML unterstützt verschiedene Modellgrößen und Systemkonfigurationen und ist in Geschwindigkeitstests durchgängig schneller als die Baseline.
  • MKML bewahrt zudem eine hohe Treue zum ursprünglichen Modell und zeigt bei Standard-Perplexitätsmessungen nur vernachlässigbare Unterschiede.
  • Die langfristige Vision von MK-1 besteht darin, die Leistung von AI über den gesamten Inferenz-Stack hinweg bis an die Grenzen zu treiben. Das Unternehmen verfügt über eine ambitionierte Roadmap für die weitere Entwicklung.

1 Kommentare

 
GN⁺ 2023-08-07
Hacker-News-Kommentare
  • Der Artikel diskutiert die neue Technologie MK-1, vergleicht die Ergebnisse jedoch nicht mit bestehenden Quantisierungsmethoden, was einige Leser als wichtige Auslassung betrachten.
  • Ein Leser liefert ein Vergleichsdiagramm zu anderen für Llama 1 verfügbaren Quantisierungen und schlägt vor, dass die Leistung von MK-1 ähnlich wie bei Q5_1 ist, bei etwas geringerer Komplexität und mehr als doppelt so hoher Geschwindigkeit.
  • Einige Leser äußern Skepsis gegenüber MK-1 und vermuten, dass es sich um einen Wrapper um bestehende Technologien wie bitsandbytes oder ggml handeln könnte.
  • Es werden Bedenken geäußert, dass MK-1 nicht Open Source ist, und einige Leser erklären, dass sie es wegen des hohen Tempos in diesem Bereich und der mangelnden Bequemlichkeit nicht nutzen würden.
  • Ein Leser berichtet, an der Quantisierung von ML-Modellen gearbeitet zu haben, und behauptet, dass Open-Source-Quantisierung mit 4 oder 8 Bit nicht das Beste sei, wobei er auf fortgeschrittenere Techniken hindeutet.
  • Es wird um einen Vergleich zwischen MK-1 und mlc-llm mit 4-Bit-Quantisierung gebeten; Letzteres soll Llama2 13B erstaunlich schnell ausführen.
  • Einige Leser äußern Unzufriedenheit über proprietäre Abhängigkeiten im Tech-Stack und bevorzugen Top-Optionen wie OpenAI und Anthropic oder bauen lieber eigene Lösungen.
  • Die Entscheidung des Unternehmens, populäre Modelle zu optimieren und unter einer echten OSS-Lizenz zu verkaufen, ohne sich um Lizenzbeschränkungen bei den Gewichten zu sorgen, wirkt wie ein strategischer Schritt.
  • Einige Leser bezeichnen MK-1 als weiteren AI-Startup-Betrug und werfen ihm vor, GGML zu verwenden, geschlossen zu sein und VC-Geld zu suchen.
  • Das Fehlen von Open Source und der geschlossene Charakter von MK-1 erscheinen als große Nachteile; einige Leser erklären es bereits für "dem Untergang geweiht".