Ein tausend Dollar teures iPhone kann nicht rechnen

(journal.rafaelcosta.me)

1 Punkte von GN⁺ 2026-02-02 | Noch keine Kommentare. | Auf WhatsApp teilen

Auf dem iPhone 16 Pro Max kommt es bei der Ausführung von MLX-LLMs zu fehlerhaften numerischen Ausgaben, während derselbe Code auf dem iPhone 15 Pro und dem MacBook Pro normal funktioniert
Tensorwerte weichen um mehr als eine Größenordnung ab, und selbst bei identischer Eingabe werden die Ergebnisse verfälscht
Als Ursache wird ein Hardwarefehler in der Neural Engine oder im Metal-basierten ML-Rechen-Stack vermutet
Auch Apple-Intelligence-Funktionen zeigen ähnliche Instabilitäten, etwa fehlgeschlagene Downloads, was einen Zusammenhang möglich erscheinen lässt
Der Entwickler betont anhand dieses Falls, dass man beim Debugging auch physische Hardwareprobleme berücksichtigen sollte

Fehler bei der Ausführung von MLX-LLMs entdeckt

Auf dem iPhone 16 Pro Max wird bei der Ausführung eines MLX-basierten LLMs bedeutungsloser Output (gibberish) erzeugt
- Derselbe Code läuft auf dem iPhone 15 Pro und dem MacBook Pro normal
- Die CPU-Auslastung schnellt auf 100 %, und da kein „stop“-Token erzeugt wird, läuft die Ausgabe endlos weiter
Obwohl dasselbe Modell und derselbe Prompt verwendet wurden, werden die Tensor-Ausgabewerte ungewöhnlich groß
- Auf dem iPhone 15 Pro: [53.875, 62.5625, -187.75, ...]
- Auf dem iPhone 16 Pro Max: [191.5, 23.625, 173.75, ..., 1298, -147.25, -162.5]
- Die Eingabewerte waren identisch, doch in den Zwischenschritten der Berechnung wurden die Zahlen stark verfälscht

Über die Apple-Intelligence-API sollte eine Funktion zur Ausgabenkategorisierung implementiert werden, doch der Download der Modellunterstützung schlug fehl
- Auch nach mehrfachen Änderungen in den Einstellungen ließ sich die Funktion nicht aktivieren
- Im Apple-Community-Forum berichteten ebenfalls zahlreiche Nutzer vom selben Problem (12 Seiten an Beiträgen)
Deshalb wurde der Zugriff auf Apple Intelligence aufgegeben und auf einen MLX-basierten Ansatz umgestellt

Im Gemma-Modellcode von MLX wurden Breakpoints gesetzt, um die Tensorwerte jeder Schicht nachzuverfolgen
- Die Eingabewerte waren auf beiden Geräten identisch, aber auf dem iPhone 16 Pro Max wurden die Zahlen ab einer Zwischenstufe ungewöhnlich groß
- Auch auf dem Mac wurde dasselbe korrekte Ergebnis wie auf dem iPhone 15 Pro bestätigt
Dadurch verfestigte sich die Überzeugung, dass es sich nicht um ein Code- oder Modellproblem, sondern um ein Hardwareproblem handelt

Möglich ist ein Rechenfehler in der Neural Engine des A18-Chips des iPhone 16 Pro Max oder im Metal-basierten ML-Ausführungspfad
- Da MLX Tensorberechnungen über Metal kompiliert, könnte ein Defekt in diesem Stack die verfälschten Ergebnisse verursacht haben
Es wird auch erwähnt, dass die Probleme mit Apple Intelligence dieselbe Ursache haben könnten, eindeutige Belege gibt es jedoch nicht

Das betroffene iPhone 16 Pro Max wurde als Gerät mit Hardwaredefekt identifiziert
- Nach dem Austausch gegen ein iPhone 17 Pro Max funktionierten anschließend alle Funktionen normal
Der Entwickler betont aus dieser Erfahrung heraus, dass man beim Debugging nicht nur Software-, sondern auch physische Hardwareprobleme berücksichtigen sollte
Drei Lehren:
- Fehler bei der LLM-Ausführung sind nicht immer ein Codeproblem
- Die Bedeutung von Vergleichstests in derselben Umgebung
- Selbst teure Hardware garantiert nicht unbedingt die Genauigkeit von ML-Berechnungen