1 Punkte von GN⁺ 2026-02-02 | 1 Kommentare | Auf WhatsApp teilen
  • Auf dem iPhone 16 Pro Max kommt es bei der Ausführung von MLX-LLMs zu fehlerhaften numerischen Ausgaben, während derselbe Code auf dem iPhone 15 Pro und dem MacBook Pro normal funktioniert
  • Tensorwerte weichen um mehr als eine Größenordnung ab, und selbst bei identischer Eingabe werden die Ergebnisse verfälscht
  • Als Ursache wird ein Hardwarefehler in der Neural Engine oder im Metal-basierten ML-Rechen-Stack vermutet
  • Auch Apple-Intelligence-Funktionen zeigen ähnliche Instabilitäten, etwa fehlgeschlagene Downloads, was einen Zusammenhang möglich erscheinen lässt
  • Der Entwickler betont anhand dieses Falls, dass man beim Debugging auch physische Hardwareprobleme berücksichtigen sollte

Fehler bei der Ausführung von MLX-LLMs entdeckt

  • Auf dem iPhone 16 Pro Max wird bei der Ausführung eines MLX-basierten LLMs bedeutungsloser Output (gibberish) erzeugt
    • Derselbe Code läuft auf dem iPhone 15 Pro und dem MacBook Pro normal
    • Die CPU-Auslastung schnellt auf 100 %, und da kein „stop“-Token erzeugt wird, läuft die Ausgabe endlos weiter
  • Obwohl dasselbe Modell und derselbe Prompt verwendet wurden, werden die Tensor-Ausgabewerte ungewöhnlich groß
    • Auf dem iPhone 15 Pro: [53.875, 62.5625, -187.75, ...]
    • Auf dem iPhone 16 Pro Max: [191.5, 23.625, 173.75, ..., 1298, -147.25, -162.5]
    • Die Eingabewerte waren identisch, doch in den Zwischenschritten der Berechnung wurden die Zahlen stark verfälscht
Anzeige

Probleme mit Apple-Intelligence-Funktionen

  • Über die Apple-Intelligence-API sollte eine Funktion zur Ausgabenkategorisierung implementiert werden, doch der Download der Modellunterstützung schlug fehl
    • Auch nach mehrfachen Änderungen in den Einstellungen ließ sich die Funktion nicht aktivieren
    • Im Apple-Community-Forum berichteten ebenfalls zahlreiche Nutzer vom selben Problem (12 Seiten an Beiträgen)
  • Deshalb wurde der Zugriff auf Apple Intelligence aufgegeben und auf einen MLX-basierten Ansatz umgestellt

Debugging-Prozess und Ursachensuche

  • Im Gemma-Modellcode von MLX wurden Breakpoints gesetzt, um die Tensorwerte jeder Schicht nachzuverfolgen
    • Die Eingabewerte waren auf beiden Geräten identisch, aber auf dem iPhone 16 Pro Max wurden die Zahlen ab einer Zwischenstufe ungewöhnlich groß
    • Auch auf dem Mac wurde dasselbe korrekte Ergebnis wie auf dem iPhone 15 Pro bestätigt
  • Dadurch verfestigte sich die Überzeugung, dass es sich nicht um ein Code- oder Modellproblem, sondern um ein Hardwareproblem handelt

Möglichkeit eines Hardwaredefekts

  • Möglich ist ein Rechenfehler in der Neural Engine des A18-Chips des iPhone 16 Pro Max oder im Metal-basierten ML-Ausführungspfad
    • Da MLX Tensorberechnungen über Metal kompiliert, könnte ein Defekt in diesem Stack die verfälschten Ergebnisse verursacht haben
    Anzeige
  • Es wird auch erwähnt, dass die Probleme mit Apple Intelligence dieselbe Ursache haben könnten, eindeutige Belege gibt es jedoch nicht

Fazit und Lehren

  • Das betroffene iPhone 16 Pro Max wurde als Gerät mit Hardwaredefekt identifiziert
    • Nach dem Austausch gegen ein iPhone 17 Pro Max funktionierten anschließend alle Funktionen normal
  • Der Entwickler betont aus dieser Erfahrung heraus, dass man beim Debugging nicht nur Software-, sondern auch physische Hardwareprobleme berücksichtigen sollte
  • Drei Lehren:
    • Fehler bei der LLM-Ausführung sind nicht immer ein Codeproblem
    • Die Bedeutung von Vergleichstests in derselben Umgebung
    • Selbst teure Hardware garantiert nicht unbedingt die Genauigkeit von ML-Berechnungen

1 Kommentare

 
GN⁺ 2026-02-02
Hacker-News-Kommentare
  • Selbst wenn man die Methodik einmal beiseitelässt, ist es keine besonders gute Idee, ein LLM Additionen ausführen zu lassen
    Das ist ungefähr so lustig wie die Frage: „Was ergibt Mond plus Sonne?“
    Das hier ist aber ein anderes Phänomen. Apples API für numerische Berechnungen liefert auf manchen Geräten inkonsistente Ergebnisse. Das ist ein Problem, dem Apple Aufmerksamkeit schenken sollte
    • Völlig off topic, aber in meinem Kopf kam sofort „hell“ auf.
      Denn Sonne(日) und Mond(月) zusammen ergeben 明 (Wiki-Link)
      Antworten wie „Vollmond“ wären auch denkbar, aber es scheint keine eindeutig deterministische Antwort zu geben
    • „Mond plus Sonne?“ Das ist natürlich eine Sonnenfinsternis (eclipse)
  • Ich hätte mir gewünscht, dass sie noch ein anderes iPhone 16 Pro Max getestet hätten. Dann hätte man prüfen können, ob es nur ein Problem dieses einzelnen Geräts war
    • Genau. Nach dem, was Apple Support normalerweise empfiehlt, hätte man das OS zurücksetzen und neu installieren sollen
      Natürlich mit Backup, und wenn möglich am besten mit einem iCloud+-Plan. Für solche Probleme ist das die einfachste Lösung
    • Laut dem neuesten Update am Seitenende funktionierte auf dem iPhone 17 Pro Max alles normal
      Das spricht dafür, dass dieses iPhone 16 Pro Max einen Hardwaredefekt hatte
  • Optimierungen für numerische Berechnungen auf Low-Level-Ebene sind oft schwer reproduzierbar
    Das wird zum Beispiel auch in Intels Dokumentation erwähnt
    Trotzdem ist es überraschend, dass das LLM auf dem iPhone 16 überhaupt nicht funktionierte. LLMs sind gegenüber Quantisierung (quantization) normalerweise ziemlich tolerant
    • Dass „Gleitkomma-Akkumulation nicht kommutativ ist“, gehört zum Grundwissen
      Deshalb wollte ich das Problem zunächst aus diesem Grund abtun,
      aber dass auf allen anderen Apple-Geräten dieselben Ergebnisse herauskamen und nur Apples eigenes LLM auf diesem einen Gerät versagte, war merkwürdig
      Das wirkt weniger wie ein grundlegendes Problem als wie ein unerwarteter Ausfall. Dass Apple ein Gerät in diesem Zustand ausgeliefert hat, ist nicht gut
  • Ehrlich gesagt dachte ich beim Klicken auf den Artikel, es ginge darum, dass alte Grafikrechner besser seien als Smartphones
    Wenn ich auf meinem Handy Mathematik mache, nutze ich einen HP Prime Emulator
    • Ich mag PCalc. Das läuft seit den Mac-Classic-Zeiten auf allen Apple-Plattformen (Link)
      Ein weiterer Lieblingsrechner ist free42 oder plus42 (Link)
      Als CAS-Tool ist MathStudio unschlagbar (mathstud.io)
      Es läuft auch im Browser, hat aber ebenso eine mobile App. Es fühlt sich an wie ein selbstgehostetes Wolfram Alpha
    • Ich persönlich nutze iHP48. Das ist die Version mit metakernal, die ich damals auf meinem HP 48GX an der Uni verwendet habe
      Immer noch intuitiv und schnell
    • Ich war froh zu erfahren, dass man die Standard-Rechner-App des iPhones löschen und durch NumWorks ersetzen kann
      Ich habe es so eingerichtet, dass es direkt über die Control-Center-Taste startet
      Mein Ärgernis ist, dass man trotz dieses großen Bildschirms nicht durch den bisherigen Rechenverlauf scrollen kann
      Ich möchte keine UI mehr sehen, die wie ein Nachbau eines Vierfunktionsrechners aus den 1990ern aussieht
    • Unter Android nutze ich einen TI-83+-Emulator. Praktisch, wenn man den echten Rechner nicht mitnehmen kann
    • Wenn ich ernsthaft rechnen muss, hole ich am Ende doch den echten TI-84-Taschenrechner heraus. Einfach wegen des vertrauten Handgefühls
  • Der Artikel war interessant, aber die Logik im letzten Teil, dass „MLX die Neural Engine verwendet“, stimmt nicht
    MLX kann auch auf CPU, Apple-GPU (Metal) und NVIDIA-GPU (CUDA) laufen (Link)
  • Es wäre hilfreich, wenn jemand Code zum Reproduzieren des Bugs veröffentlichen würde, nicht nur für Apple, sondern auch für andere
  • Vielleicht erklärt das, warum die Texterkennung/Vorschlagseingabe auf meinem iPhone so kaputt ist
    • Ich bin also nicht der Einzige. In den letzten etwa sechs Monaten war Tippen wirklich furchtbar
      Ich habe alle möglichen Einstellungskombinationen ausprobiert, aber die Vorschlagseingabe stoppt zufällig oder funktioniert fehlerhaft
    • Es ist inzwischen so schlimm, dass ich mich frage, ob das Absicht ist
      Oder vielleicht eine Optimierung, um Leute zum Wechsel auf Spracheingabe zu bewegen
  • Guter Artikel. Ich hätte mir nur einen minimalen Testfall gewünscht, der klar zeigt, dass das Ergebnis der mathematischen Operationen tatsächlich falsch ist
  • Ich fragte: „Was ist 2+2?“, und das iPhone gab eine seltsame Antwort wie „Applied.....*_dAK[...]“
    Wenigstens hat es nicht „7“ gesagt, also immerhin
    • Vielleicht haben Trurl und Klapaucius die Fragen und Antworten übernommen
  • Es ist möglich, dass auch andere Apps, die die Neural Engine nutzen, ähnliche Anomalien gezeigt haben
    Es wäre interessant gewesen, ein paar Apps aus dem App Store zu testen