Windows ML allgemein verfügbar: Unterstützung für die Skalierung lokaler KI über Windows-Geräte hinweg

(blogs.windows.com)

4 Punkte von GN⁺ 2025-09-28 | 1 Kommentare | Auf WhatsApp teilen

Windows ML ist allgemein verfügbar und standardisiert On-Device-Inferenz über CPU, GPU und NPU hinweg sowie Modell- und Abhängigkeitsverwaltung, wodurch die Effizienz bei Deployments in Produktionsumgebungen verbessert wird
Im Zuge von Hybrid AI, die Cloud und Client verbindet, stellt Windows 11 auf Betriebssystemebene eine integrierte AI-Runtime für lokale Inferenz bereit
Durch Kompatibilität mit ONNX Runtime und automatische Verteilung von Execution Providern (EPs) wird hardwarespezifische Optimierung abstrahiert; zugleich werden geringere App-Größen und inkrementelle Updates unterstützt
In Zusammenarbeit mit AMD, Intel, NVIDIA und Qualcomm verteilt und registriert Windows die jeweiligen EPs und bietet fein abgestimmtes Targeting wie die Festlegung von Geräterichtlinien für Energieverbrauch und Leistung
Standardmäßig verfügbar mit Windows App SDK 1.8.1+ und Windows 11 24H2 oder neuer; Tools wie AI Toolkit for VS Code und AI Dev Gallery vereinfachen das Onboarding

Überblick: Zielsetzung und Position von Windows ML

Windows ML ist eine in Windows 11 integrierte On-Device-AI-Inferenz-Runtime und zielt darauf ab, in der Ära von Hybrid AI die Standardebene für lokale Inferenz zu werden
- Es fungiert als Basisschicht von Windows AI Foundry und bietet über Foundry Local erweiterte Unterstützung für verschiedene Siliziumplattformen
- Ziel ist es, Cloud-Kosten, Latenz und Datenschutzprobleme zu entschärfen und eine Nutzererfahrung mit Fokus auf Echtzeit, Sicherheit und Effizienz zu bieten

Runtime-Aufbau: ONNX, EPs und Verteilungsmodell

Durch Kompatibilität mit ONNX Runtime (ORT) können bestehende ORT-APIs und Workflows unverändert weiterverwendet werden
- Windows übernimmt Bereitstellung und Wartung von ORT und Execution Providern, sodass sie nicht mehr mit der App gebündelt werden müssen
- EPs fungieren als Optimierungsbrücke zwischen Runtime und Silizium, werden von den jeweiligen Anbietern entwickelt und gepflegt und von Windows dynamisch heruntergeladen und registriert
Die Infrastruktur-API bietet drei Vorteile: vereinfachte Bereitstellung, geringerer Overhead und Erhalt der Kompatibilität
- Der für das Gerät passende EP wird automatisch erkannt und installiert, was Einsparungen von App-Größen im Bereich von mehreren Dutzend bis Hunderten MB ermöglicht
- Über Zertifizierungs- und Eignungsprozesse wird eine gleichbleibende Genauigkeit zwischen Builds angestrebt, während kontinuierliche Updates übernommen werden
Advanced Silicon Targeting unterstützt die Festlegung von Geräterichtlinien wie NPU (niedriger Stromverbrauch) oder GPU (hohe Leistung)
- Mit der Modelloption AOT (Ahead-of-Time-Kompilierung) gibt es zudem eine Möglichkeit, die Endnutzererfahrung weiter zu vereinfachen

Optimierungen der Siliziumpartner

AMD: Integration von Windows ML über die gesamte Ryzen-AI-Familie hinweg; Beschleunigung für NPU, GPU und CPU mit dem Vitis AI EP; Ausrichtung auf skalierbare lokale AI-Erlebnisse
Intel: EP in Verbindung mit OpenVINO zur optimierten XPU-Auswahl (CPU, GPU, NPU); Ziel ist eine Verbesserung von Effizienz und Leistung auf PCs mit Core Ultra
NVIDIA: Nutzung dedizierter Tensor-Core-Bibliotheken für RTX-GPUs über den TensorRT for RTX EP; Erstellung geräteoptimierter Inferenz-Engines
- Gegenüber DirectML wird eine Beschleunigung der Inferenz um mehr als 50 % beansprucht; zugleich wird die einfache Bereitstellung für mehr als 100 Millionen Windows-RTX-Geräte hervorgehoben
Qualcomm Technologies: NPU-Beschleunigung mit dem QNN EP auf der Snapdragon-X-Serie; über ORT werden auch GPU- und CPU-Pfade unterstützt
- Das Unternehmen signalisiert die Absicht, das einheitliche Framework auf Copilot+ PCs und die nächste Snapdragon-X2-Generation auszuweiten

Beispiele für die Akzeptanz im Ökosystem

Adobe Premiere Pro / After Effects: Beschleunigung von Mediensuche, Audio-Tagging und Szenenerkennung auf Basis lokaler NPUs; schrittweise Migration von On-Device-Modellen auf Windows ML geplant
BUFFERZONE: Echtzeitanalyse von Webseiten zur Abwehr von Phishing und Betrug; bietet Sicherheitsszenarien, bei denen keine Übertragung sensibler Daten in die Cloud erforderlich ist
Reincubate Camo: Verbesserte Videoqualität durch Echtzeit-Computer-Vision wie Bildsegmentierung; nutzt NPU-Pfade über alle Siliziumplattformen hinweg
Dot Vista (Dot Inc.): Einsatz von freihändiger Sprachsteuerung und OCR in Barrierefreiheits-Szenarien wie medizinischen Umgebungen; Nutzung der Copilot+ PC NPU
Wondershare Filmora: Echtzeit-Vorschau und -Anwendung von Body Effects (Lightning Twined, Neon Ring usw.), optimiert für AMD-, Intel- und Qualcomm-NPUs
McAfee: Einsatz lokaler Inferenz für Deepfake- und Scam-Erkennung; stärkt die Reaktion auf Umgebungen in sozialen Netzwerken
Topaz Photo: Bietet professionelle AI-Fotofunktionen wie Schärfen und Fokuswiederherstellung mittels lokaler Inferenz

Entwickler-Tools und Onboarding

Mit dem AI Toolkit for VS Code werden PyTorch→ONNX-Konvertierung, Quantisierung, Optimierung, Kompilierung und Evaluierung zentral unterstützt
- Ziel ist ein einziger Build für Windows-ML-Targets, um Verzweigungslogik für mehrere Targets möglichst zu minimieren
In der AI Dev Gallery lassen sich Beispiele für benutzerdefinierte Modelle interaktiv ausprobieren
- Sie bietet einen geeigneten Workspace für die Erkundung lokaler modellbasierter AI-Szenarien und schnelles Prototyping

Voraussetzungen für den Start und Deployment-Ziele

Windows App SDK 1.8.1+ enthält Windows ML; unterstützt werden Geräte mit Windows 11 24H2 oder neuer
- Nach dem Update auf das aktuelle Windows App SDK ergibt sich ein einfacher Ablauf: Windows-ML-API aufrufen → ONNX-Modell laden → Inferenz starten
- Für ausführliche Dokumentation, APIs und Beispiele wird auf ms/TryWinML und ms/ai-dev-gallery verwiesen

Technische Bedeutung und Implikationen

Das Betriebssystem übernimmt das Lebenszyklusmanagement von ORT und EPs, wodurch sich Apps auf Modelle und leichtgewichtige Inferenzlogik konzentrieren können
- Durch das Abfangen von Hardware-Fragmentierung und die Automatisierung von Leistungs- und Energieoptimierung wird die Komplexität von Entwicklung und Bereitstellung aus Sicht der Nutzbarkeit reduziert
Mit NPU-first-Design und einem leistungsstarken GPU-Pfad werden die Grundlagen für lokale AI geschaffen, die Anforderungen an Offline-Betrieb, Datenschutz und Kosteneffizienz erfüllt
- Das Betriebsmodell strebt über Eigenschafts- und Leistungsunterschiede der Vendor-EPs sowie Windows-Zertifizierung und Eignungsprüfung eine konsistente Genauigkeit an
Aus Ökosystemsicht kündigen repräsentative Apps aus den Bereichen Video, Sicherheit, Barrierefreiheit und Kreativität die Einführung an, was eine Ausweitung der On-Device-AI-Fläche erwarten lässt
- Entwickler können sich von einer Pipeline aus Modellvorbereitung (Konvertierung, Quantisierung) → EP-Richtlinienfestlegung → automatisierter Bereitstellung eine höhere Produktisierungsgeschwindigkeit versprechen

Zu beachtende Punkte und Grenzen

Die Qualität der EP-Optimierung und das Management von geräteabhängigen Unterschieden bei Leistung und Genauigkeit bleiben zentrale Aufgaben
- Erforderlich sind Release-Management für Cache- und Update-Strategien bei Modell-AOT und dynamischer EP-Verteilung sowie für die Wahrung der Kompatibilität
Überschneidungen und Rollenteilung mit bestehendem DirectML, Vendor-SDKs und plattformübergreifenden Runtimes werden zu einer Variablen bei Architekturentscheidungen
- Bei Produktlinien mit Multi-OS-Zielen ist ein Abwägen zwischen gemeinsamem Inferenzkern und Windows-spezifischem Pfad nötig

Fazit

Die allgemeine Verfügbarkeit von Windows ML markiert einen schrittweisen Wendepunkt, an dem Windows 11 als grundlegende Ausführungsumgebung für lokale AI weiterentwickelt wird
- Durch Hardware-Abstraktion, automatisierte Bereitstellung und integrierte Toolchain sinken die Hürden für die Produktisierung; zugleich wird mit maximaler Nutzung von NPU und GPU eine Grundlage für mehr Reaktionsfähigkeit, Datenschutz und Kosteneffizienz geschaffen
- Je stärker die Einführung durch repräsentative Apps und die Optimierung der Vendor-EPs zusammenwirken, desto schneller dürfte sich On-Device-AI im gesamten Windows-Ökosystem ausweiten

1 Kommentare

GN⁺ 2025-09-28

Hacker-News-Kommentare

Ollama verfolgte anfangs eher eine Open-Source-artige Richtung nach dem Motto „Modelle einfach lokal ausführen“, hat seinen Umfang zuletzt aber mit Dingen wie kostenpflichtiger Websuche erweitert, wodurch diese ursprüngliche Reinheit etwas verloren gegangen zu sein scheint; Windows ML zielt dagegen auf eine tiefe OS-Integration, ist dafür aber auf das Windows-Ökosystem beschränkt, was an DirectX erinnert. Entscheidend ist nun, ob es neben vLLM/ONNX oder dem direkten Betrieb auf CUDA/ROCm noch echte Alternativen gibt, oder ob am Ende nur eine andere Form von Vendor Lock-in eingetauscht wird
- Ollama konzentriert sich auf LLMs (Large Language Models). Angesichts der verschiedenen Beispiele im Artikel, etwa Bild-Upscaling mit Topaz Labs’ Topaz Photo, sollte man im Hinterkopf behalten, dass die technologische Ausrichtung hier eine andere ist
System ONNX könnte aus Sicht von Windows-Apps ziemlich attraktiv sein, allerdings nur unter der Voraussetzung, dass das Backend auf den meisten Systemen zuverlässig funktioniert. Bei AMD gibt es zum Beispiel drei Optionen: ROCm, MIGraphX und Vitis, aber keine davon habe ich bislang wirklich zum Laufen gebracht. Da MIGraphX inzwischen nicht mehr als experimentell gekennzeichnet ist, werde ich es wohl noch einmal versuchen
Ich frage mich, was im praktischen Vergleich einfacher ist: Windows ML oder der Ansatz mit Ollama plus lokalem LLM-Download. Gerade bei Windows ML interessiert mich aus Datenschutzsicht auch, wie viele private Daten tatsächlich an Microsoft übertragen werden
- Windows ML abstrahiert den Code für lokale LLM-Modelle so, dass er nicht von bestimmter Hardware abhängt und auf unterschiedlicher Hardware wie CPU, GPU und NPU genutzt werden kann. Diese Technik ist eine Weiterentwicklung des früheren DirectML (DirectX for ML)
- Ollama unterstützt keine NPUs
Ich frage mich, wie Custom Layers unterstützt werden, insbesondere die vielen Varianten, die von zahlreichen Unternehmen eingesetzt werden, etwa bei (flash) attention. Bedeutet das, dass bestimmte Modelle erst dann laufen, wenn Microsoft die entsprechende Funktion in der Runtime implementiert hat, oder dass man bis dahin nur angepasste Versionen verwenden kann?
Die Beschreibung „Windows ML ist eine integrierte AI-Inferenz-Runtime, die für On-Device-Modellinferenz optimiert ist und sowohl Einsteigern als auch erfahrenen Entwicklern das Erstellen AI-basierter Apps erleichtert“ klingt so, als sei diese Ankündigung der jüngsten Apple-Ankündigung sehr ähnlich, den On-Device-LLM-Zugang als Kern von „Apple Intelligence“ für alle Entwickler zu öffnen
Zusammen mit den kürzlich vorgestellten neuen Apple-Intelligence-Funktionen denke ich, dass dies unabhängig vom Gerät letztlich eine Win-win-Situation ist, weil Entwickler und Verbraucher gleichermaßen Apps erstellen und nutzen können, bei denen der Datenschutz im Mittelpunkt steht
- Dieses Windows ML ist eine Weiterentwicklung von Direct ML. Unter Berücksichtigung der bisherigen Probleme, ähnlich wie bei DirectX zu stark auf C++ fokussiert zu sein, können nun auch C#, C++ und Python über WinRT-Projektionen auf dieser neuen API genutzt werden
- Ich sehe das nicht als dasselbe. Der Kern dieser Windows-ML-Ankündigung ist aus meiner Sicht eher: „Man kann jedes Modell ausführen“

Windows ML allgemein verfügbar: Unterstützung für die Skalierung lokaler KI über Windows-Geräte hinweg

Überblick: Zielsetzung und Position von Windows ML

Runtime-Aufbau: ONNX, EPs und Verteilungsmodell

Optimierungen der Siliziumpartner

Beispiele für die Akzeptanz im Ökosystem

Entwickler-Tools und Onboarding

Voraussetzungen für den Start und Deployment-Ziele

Technische Bedeutung und Implikationen

Zu beachtende Punkte und Grenzen

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare