- Windows ML ist allgemein verfügbar und standardisiert On-Device-Inferenz über CPU, GPU und NPU hinweg sowie Modell- und Abhängigkeitsverwaltung, wodurch die Effizienz bei Deployments in Produktionsumgebungen verbessert wird
- Im Zuge von Hybrid AI, die Cloud und Client verbindet, stellt Windows 11 auf Betriebssystemebene eine integrierte AI-Runtime für lokale Inferenz bereit
- Durch Kompatibilität mit ONNX Runtime und automatische Verteilung von Execution Providern (EPs) wird hardwarespezifische Optimierung abstrahiert; zugleich werden geringere App-Größen und inkrementelle Updates unterstützt
- In Zusammenarbeit mit AMD, Intel, NVIDIA und Qualcomm verteilt und registriert Windows die jeweiligen EPs und bietet fein abgestimmtes Targeting wie die Festlegung von Geräterichtlinien für Energieverbrauch und Leistung
- Standardmäßig verfügbar mit Windows App SDK 1.8.1+ und Windows 11 24H2 oder neuer; Tools wie AI Toolkit for VS Code und AI Dev Gallery vereinfachen das Onboarding
Überblick: Zielsetzung und Position von Windows ML
- Windows ML ist eine in Windows 11 integrierte On-Device-AI-Inferenz-Runtime und zielt darauf ab, in der Ära von Hybrid AI die Standardebene für lokale Inferenz zu werden
- Es fungiert als Basisschicht von Windows AI Foundry und bietet über Foundry Local erweiterte Unterstützung für verschiedene Siliziumplattformen
- Ziel ist es, Cloud-Kosten, Latenz und Datenschutzprobleme zu entschärfen und eine Nutzererfahrung mit Fokus auf Echtzeit, Sicherheit und Effizienz zu bieten
Runtime-Aufbau: ONNX, EPs und Verteilungsmodell
- Durch Kompatibilität mit ONNX Runtime (ORT) können bestehende ORT-APIs und Workflows unverändert weiterverwendet werden
- Windows übernimmt Bereitstellung und Wartung von ORT und Execution Providern, sodass sie nicht mehr mit der App gebündelt werden müssen
- EPs fungieren als Optimierungsbrücke zwischen Runtime und Silizium, werden von den jeweiligen Anbietern entwickelt und gepflegt und von Windows dynamisch heruntergeladen und registriert
- Die Infrastruktur-API bietet drei Vorteile: vereinfachte Bereitstellung, geringerer Overhead und Erhalt der Kompatibilität
- Der für das Gerät passende EP wird automatisch erkannt und installiert, was Einsparungen von App-Größen im Bereich von mehreren Dutzend bis Hunderten MB ermöglicht
- Über Zertifizierungs- und Eignungsprozesse wird eine gleichbleibende Genauigkeit zwischen Builds angestrebt, während kontinuierliche Updates übernommen werden
- Advanced Silicon Targeting unterstützt die Festlegung von Geräterichtlinien wie NPU (niedriger Stromverbrauch) oder GPU (hohe Leistung)
- Mit der Modelloption AOT (Ahead-of-Time-Kompilierung) gibt es zudem eine Möglichkeit, die Endnutzererfahrung weiter zu vereinfachen
Optimierungen der Siliziumpartner
- AMD: Integration von Windows ML über die gesamte Ryzen-AI-Familie hinweg; Beschleunigung für NPU, GPU und CPU mit dem Vitis AI EP; Ausrichtung auf skalierbare lokale AI-Erlebnisse
- Intel: EP in Verbindung mit OpenVINO zur optimierten XPU-Auswahl (CPU, GPU, NPU); Ziel ist eine Verbesserung von Effizienz und Leistung auf PCs mit Core Ultra
- NVIDIA: Nutzung dedizierter Tensor-Core-Bibliotheken für RTX-GPUs über den TensorRT for RTX EP; Erstellung geräteoptimierter Inferenz-Engines
- Gegenüber DirectML wird eine Beschleunigung der Inferenz um mehr als 50 % beansprucht; zugleich wird die einfache Bereitstellung für mehr als 100 Millionen Windows-RTX-Geräte hervorgehoben
- Qualcomm Technologies: NPU-Beschleunigung mit dem QNN EP auf der Snapdragon-X-Serie; über ORT werden auch GPU- und CPU-Pfade unterstützt
- Das Unternehmen signalisiert die Absicht, das einheitliche Framework auf Copilot+ PCs und die nächste Snapdragon-X2-Generation auszuweiten
Beispiele für die Akzeptanz im Ökosystem
- Adobe Premiere Pro / After Effects: Beschleunigung von Mediensuche, Audio-Tagging und Szenenerkennung auf Basis lokaler NPUs; schrittweise Migration von On-Device-Modellen auf Windows ML geplant
- BUFFERZONE: Echtzeitanalyse von Webseiten zur Abwehr von Phishing und Betrug; bietet Sicherheitsszenarien, bei denen keine Übertragung sensibler Daten in die Cloud erforderlich ist
- Reincubate Camo: Verbesserte Videoqualität durch Echtzeit-Computer-Vision wie Bildsegmentierung; nutzt NPU-Pfade über alle Siliziumplattformen hinweg
- Dot Vista (Dot Inc.): Einsatz von freihändiger Sprachsteuerung und OCR in Barrierefreiheits-Szenarien wie medizinischen Umgebungen; Nutzung der Copilot+ PC NPU
- Wondershare Filmora: Echtzeit-Vorschau und -Anwendung von Body Effects (Lightning Twined, Neon Ring usw.), optimiert für AMD-, Intel- und Qualcomm-NPUs
- McAfee: Einsatz lokaler Inferenz für Deepfake- und Scam-Erkennung; stärkt die Reaktion auf Umgebungen in sozialen Netzwerken
- Topaz Photo: Bietet professionelle AI-Fotofunktionen wie Schärfen und Fokuswiederherstellung mittels lokaler Inferenz
Entwickler-Tools und Onboarding
- Mit dem AI Toolkit for VS Code werden PyTorch→ONNX-Konvertierung, Quantisierung, Optimierung, Kompilierung und Evaluierung zentral unterstützt
- Ziel ist ein einziger Build für Windows-ML-Targets, um Verzweigungslogik für mehrere Targets möglichst zu minimieren
- In der AI Dev Gallery lassen sich Beispiele für benutzerdefinierte Modelle interaktiv ausprobieren
- Sie bietet einen geeigneten Workspace für die Erkundung lokaler modellbasierter AI-Szenarien und schnelles Prototyping
Voraussetzungen für den Start und Deployment-Ziele
- Windows App SDK 1.8.1+ enthält Windows ML; unterstützt werden Geräte mit Windows 11 24H2 oder neuer
- Nach dem Update auf das aktuelle Windows App SDK ergibt sich ein einfacher Ablauf: Windows-ML-API aufrufen → ONNX-Modell laden → Inferenz starten
- Für ausführliche Dokumentation, APIs und Beispiele wird auf ms/TryWinML und ms/ai-dev-gallery verwiesen
Technische Bedeutung und Implikationen
- Das Betriebssystem übernimmt das Lebenszyklusmanagement von ORT und EPs, wodurch sich Apps auf Modelle und leichtgewichtige Inferenzlogik konzentrieren können
- Durch das Abfangen von Hardware-Fragmentierung und die Automatisierung von Leistungs- und Energieoptimierung wird die Komplexität von Entwicklung und Bereitstellung aus Sicht der Nutzbarkeit reduziert
- Mit NPU-first-Design und einem leistungsstarken GPU-Pfad werden die Grundlagen für lokale AI geschaffen, die Anforderungen an Offline-Betrieb, Datenschutz und Kosteneffizienz erfüllt
- Das Betriebsmodell strebt über Eigenschafts- und Leistungsunterschiede der Vendor-EPs sowie Windows-Zertifizierung und Eignungsprüfung eine konsistente Genauigkeit an
- Aus Ökosystemsicht kündigen repräsentative Apps aus den Bereichen Video, Sicherheit, Barrierefreiheit und Kreativität die Einführung an, was eine Ausweitung der On-Device-AI-Fläche erwarten lässt
- Entwickler können sich von einer Pipeline aus Modellvorbereitung (Konvertierung, Quantisierung) → EP-Richtlinienfestlegung → automatisierter Bereitstellung eine höhere Produktisierungsgeschwindigkeit versprechen
Zu beachtende Punkte und Grenzen
- Die Qualität der EP-Optimierung und das Management von geräteabhängigen Unterschieden bei Leistung und Genauigkeit bleiben zentrale Aufgaben
- Erforderlich sind Release-Management für Cache- und Update-Strategien bei Modell-AOT und dynamischer EP-Verteilung sowie für die Wahrung der Kompatibilität
- Überschneidungen und Rollenteilung mit bestehendem DirectML, Vendor-SDKs und plattformübergreifenden Runtimes werden zu einer Variablen bei Architekturentscheidungen
- Bei Produktlinien mit Multi-OS-Zielen ist ein Abwägen zwischen gemeinsamem Inferenzkern und Windows-spezifischem Pfad nötig
Fazit
- Die allgemeine Verfügbarkeit von Windows ML markiert einen schrittweisen Wendepunkt, an dem Windows 11 als grundlegende Ausführungsumgebung für lokale AI weiterentwickelt wird
- Durch Hardware-Abstraktion, automatisierte Bereitstellung und integrierte Toolchain sinken die Hürden für die Produktisierung; zugleich wird mit maximaler Nutzung von NPU und GPU eine Grundlage für mehr Reaktionsfähigkeit, Datenschutz und Kosteneffizienz geschaffen
- Je stärker die Einführung durch repräsentative Apps und die Optimierung der Vendor-EPs zusammenwirken, desto schneller dürfte sich On-Device-AI im gesamten Windows-Ökosystem ausweiten
1 Kommentare
Hacker-News-Kommentare
Zusammen mit den kürzlich vorgestellten neuen Apple-Intelligence-Funktionen denke ich, dass dies unabhängig vom Gerät letztlich eine Win-win-Situation ist, weil Entwickler und Verbraucher gleichermaßen Apps erstellen und nutzen können, bei denen der Datenschutz im Mittelpunkt steht