2 Punkte von GN⁺ 2023-12-14 | 1 Kommentare | Auf WhatsApp teilen

Leistungsvergleich des Apple-MLX-Frameworks im Vergleich zur Nvidia RTX 4090

  • Apple hat ein Machine-Learning-Framework für Apple Silicon veröffentlicht.
  • Um die Leistung dieses Frameworks zu benchmarken, wurde ein Whisper-Beispiel verwendet.
  • Mit Python-Code wurde die Leistung anhand von Audiodateien gemessen.

Ergebnisse

  • Für die Verarbeitung einer 10-minütigen Audiodatei benötigte der M1 Pro 216 Sekunden, die Nvidia 4090 186 Sekunden.
  • Mit einem Nvidia-optimierten Modell war die Verarbeitung in nur 8 Sekunden möglich.
  • Die Hardware-Spezifikationen von MacBook und PC werden detailliert beschrieben.

Whisper mit überraschender Geschwindigkeit

  • Ein auf Hacker News viel diskutierter Artikel, in dem ein Nutzer einen Fall teilte, bei dem die Verarbeitung mit einer Nvidia 4090 in 8 Sekunden erfolgte.
  • Auch unter macOS wurde ein Experiment durchgeführt; das Ergebnis war langsamer als die MLX-Version.

Update zu M2 Ultra / M3 Max

  • Bei der Verarbeitung derselben Audiodatei auf M2 Ultra und M3 Max waren beide deutlich schneller als der M1, zeigten aber untereinander eine ähnliche Geschwindigkeit.

Vergleich

  • Zwar kann der Vergleich durch verschiedene Faktoren ungenau sein, erlaubt aber einen groben Leistungsabgleich.

Stromverbrauch

  • Der Unterschied im Stromverbrauch zwischen PC und MacBook wurde gemessen.
  • Der Unterschied im Stromverbrauch des PCs zwischen aktivem Betrieb der Nvidia 4090 und Leerlauf beträgt 242 W; beim MacBook beträgt der Unterschied zwischen aktivem M1-GPU-Core und Leerlauf 38 W.

Warum wird dieser Test durchgeführt?

  • Auf https://podpodgogo.com wird eine Podcast-Suchmaschine betrieben, die Tausende Episoden transkribiert, um Volltextsuche und Data Mining zu ermöglichen.

GN⁺-Meinung:

  • Der wichtigste Punkt dieses Artikels ist, dass die Leistung des Machine-Learning-Frameworks für Apple Silicon im Vergleich zu Nvidias aktueller Consumer-Grafikkarte konkurrenzfähig ist.
  • Besonders interessant ist, dass sich diese Leistung auf einem Laptop erzielen lässt, was für Nutzer, die bei Machine-Learning-Aufgaben ein Gleichgewicht zwischen Mobilität und Leistung suchen, eine attraktive Option sein kann.
  • Auch beim Stromverbrauch wird hervorgehoben, dass das MacBook relativ effizient ist, was für Nutzer wichtig sein kann, die Wert auf ökologische Nachhaltigkeit und Kosteneffizienz legen.

1 Kommentare

 
GN⁺ 2023-12-14
Hacker-News-Kommentar
  • Scheint das OpenAI-Whisper-Repository zu verwenden. Für einen echten Vergleich sollte man MLX mit faster-whisper oder insanely-fast-whisper vergleichen, das auf einer 4090 läuft.

    • In realen Anwendungsfällen habe ich festgestellt, dass faster-whisper eine bessere Qualität liefert, wenn Text aus vorherigen Segmenten einbezogen wird.
    • faster-whisper ist etwa 4- bis 5-mal schneller als OpenAI/whisper, und insanely-fast-whisper ist wiederum 3- bis 4-mal schneller als faster-whisper.
    • Wenn Whisper auf der 4090 nicht stark optimiert ausgeführt wurde, sind diese Ergebnisse fragwürdig.
  • Verwendet die neueste Release von Apple MLX und ist Code, der Apple-spezifische Optimierungen nutzt.

    • Es wird erwartet, dass MLX Aufmerksamkeit bekommt, sobald Swift-Bindings für Mac und iOS veröffentlicht werden.
    • Derzeit könnte es Probleme beim Kompilieren mit C++20 geben.
  • Es stellt sich die Frage, ob Whisper wegen seiner sequentiellen Eigenschaften und der Integer-Arithmetik ausgewählt wurde und ob diese Ergebnisse auch auf andere Modelle übertragbar sind.

    • In MLX gibt es noch Operationen, die nicht optimiert sind.
    • Angesichts des sehr schnellen RAM, der direkt an CPU/GPU angebunden ist, und der dadurch entstehenden Vorteile bei Latenz und gemeinsamem Zugriff sind das beeindruckende Zahlen.
    • Es ist auch bedenkenswert, dass ein M3-Max-System etwa doppelt so viel kostet wie eine 4090.
  • Whisper auf einem Mac M1 auszuführen ist einfach, nutzt aber standardmäßig kein MLX.

    • Ich habe Stunden damit verbracht herauszufinden, was nötig ist, um es für die Nutzung von MLX zu konfigurieren.
    • Ich habe mir eine VM mit GPU gemietet und Whisper innerhalb weniger Minuten gestartet.
  • Es wird viele Debatten darüber geben, was für Aufgabe X die beste Wahl ist, aber es ist attraktiv, dieses Leistungsniveau bei geringem Stromverbrauch zu erhalten.

  • Mit Blick auf Apples Vision Pro ergibt das auf einem Laptop vielleicht nicht viel Sinn, aber bei einem stromhungrigen Headset ist es ein großer Vorteil.

  • Bitte um Hilfe bei guten Open-Source-Apps oder Workflows für Transkription und Sprechererkennung.

    • Ich habe mir einige angesehen, aber sie funktionierten nicht gut und stürzten ab.
  • Empfehlung, ein Whisper-abgeleitetes Repository zu verwenden, das auf den meisten GPUs 1 Stunde Audio in unter 1 Minute transkribieren kann.