Entscheidungen, die das Vertrauen in Azure zerstörten – Bericht eines ehemaligen Azure-Core-Ingenieurs
(isolveproblems.substack.com)- Ein ehemaliger Ingenieur schildert detailliert, wie sich unrealistische Entscheidungen innerhalb von Microsoft Azure Core aufstauten und zu technischem Chaos sowie zum Verlust von Vertrauen führten
- Als exemplarische Probleme werden ein Plan zur Portierung von Windows-Funktionen, der Hardware-Beschränkungen ignorierte, sowie ein Wildwuchs von 173 Verwaltungsagenten genannt
- Diese komplexe Struktur trägt zentrale Workloads wie OpenAI, Anthropic und Government Cloud, sodass ein einzelner Fehler das Risiko birgt, sich zu einer weltweiten Störung auszuweiten
- Während das Management nicht reagierte, kam es in der Folge zu einer Verschlechterung der Beziehung zu OpenAI, Vertrauensverlust bei der US-Regierung und Verzögerungen bei Feature-Releases
- Letztlich habe dies zum Verdampfen von 1 Billion US-Dollar an Marktkapitalisierung geführt und unterstreiche die Bedeutung von technischem Realismus und dem Erhalt von Einfachheit beim Betrieb von Cloud-Infrastruktur
Interner Bericht über den Vertrauensverlust bei Azure
- Rückblick eines ehemaligen Ingenieurs auf die unrealistischen Entscheidungsprozesse innerhalb des Microsoft-Azure-Core-Teams und das daraus resultierende technische und organisatorische Chaos
- Schon am ersten Tag im Overlake-R&D-Team erlebte er Diskussionen über einen Plan zur Portierung von Windows-Funktionen, der Hardware-Beschränkungen ignorierte
- Es existierten 173 Verwaltungsagenten, doch die Komplexität und Intransparenz waren so groß, dass niemand genau wusste, welche Funktion sie hatten oder warum sie nötig waren
- Diese Struktur trägt zentrale Workloads wie OpenAI, Anthropic und Government Cloud, wodurch ein einzelner Fehler zu einer weltweiten Störung führen könnte
- Laut Darstellung führte dies letztlich zu Vertrauensverlust bei OpenAI, öffentlichem Misstrauen des US-Verteidigungsministeriums und dem Verdampfen von 1 Billion US-Dollar an Marktkapitalisierung
Einstieg bei Azure Core und die anfängliche Lage
- Am 1. Mai 2023 trat er als Senior Engineer dem Overlake-R&D-Team bei, das für Azure-Boost-Offload-Karten und Netzwerkbeschleuniger zuständig ist
- Zuvor war er in den Teams für Windows und Core OS an Kernel-Verbesserungen und der Entwicklung einer Container-Plattform beteiligt und trug zu Schlüsseltechnologien wie Docker, AKS, App Services und Windows Sandbox bei
- Er war auch am frühen Design der Overlake-Karte (2020–2021) beteiligt und hatte ein Kommunikationsprotokoll zwischen Host-OS und Beschleunigerkarte vorgeschlagen
- Damit kehrte ein Experte zurück, der die Azure-Plattform über mehr als zehn Jahre direkt betrieben und entwickelt hatte
Unrealistischer Plan im ersten Meeting
- Am ersten Arbeitstag stellte er im monatlichen Planungsmeeting des Teams einen Plan zur Portierung von Windows-Komponenten auf die Overlake-Karte fest
- Obwohl die RAM-Kapazität und das Strombudget der Overlake-Karte extrem begrenzt waren, diskutierte das Team Versuche, Windows-Funktionen dorthin zu verlagern
- Nach den Hardware-Spezifikationen war der Plan unmöglich, dennoch fiel sogar die Aussage, man könne es „ein paar Junior-Entwicklern überlassen“
- Die Organisation prüfte ernsthaft eine Richtung, bei der Windows nach Linux portiert werden sollte, um VM-Verwaltungsagenten beizubehalten
- Der Autor erkannte dies als einen „von der Realität abgekoppelten Plan“ und kam zu dem Schluss, dass die gesamte Organisation zu einem Marsch auf ein unmögliches Ziel angesetzt hatte
Technische Grenzen und strukturelle Probleme
- Der Stack konnte damals auf einer 400W-Xeon-CPU nur einige Dutzend VMs verarbeiten, weit entfernt vom Hypervisor-Limit von 1.024 VMs
- Durch übermäßigen Ressourcenverbrauch traten Leistungseinbußen wie Jitter bei Kunden-VMs auf
- Einen derart ineffizienten Stack auf ein kleines ARM-SoC zu portieren und so zu skalieren, sei technisch unmöglich gewesen
- Der Autor beschreibt, dass es dringlicher gewesen sei, die gesamte Organisation in die Realität zurückzuholen, als neue Technik zu lernen
Interne Gespräche zu Azure Linux und Overlake
- In einem 90-minütigen Gespräch mit dem Leiter der Linux System Group stellte sich heraus, dass 173 Agenten als Kandidaten für die Portierung auf die Overlake-Karte vorgesehen waren
- Nachforschungen ergaben, dass innerhalb von Microsoft niemand die Rolle, Interaktionen oder Existenzgründe dieser 173 Agenten klar erklären konnte
- Der Kern von Azure sind VM, Networking und Storage; obwohl die übrigen Dienste darauf aufbauen, hatte sich unnötige Komplexität angesammelt
- Diese nicht beherrschbare Ansammlung von Komponenten verwaltet zentrale Workloads wie OpenAI, Anthropic und Government Cloud
Vertrauensverlust und die Folgen
- Diese komplexe Struktur könne ernste Risiken für nationale Sicherheit und Business Continuity verursachen
- Briefe an den CEO, den Vorstand und den EVP für Cloud+AI blieben anschließend unbeantwortet
- In der Folge kam es zu einer Verschlechterung der Beziehung zu OpenAI, zum Zusammenbruch des Vertrauens der US-Regierung (einschließlich öffentlicher Äußerungen des Verteidigungsministers), zu Engineering-Verschwendung und einer Anordnung zur Rust-Migration sowie zu Verzögerungen bei Feature-Releases
- Der Autor bezeichnet dies als ein „Ereignis, bei dem 1 Billion US-Dollar an Marktkapitalisierung verdampfte“, und warnt Unternehmen, die Azure nutzen, vor den Risiken einer Abhängigkeit in Produktionsumgebungen
Fazit
- Es wird sichtbar, wie sich bei Azure intern technische Komplexität, mangelhafte Steuerung und unrealistische Entscheidungen aufstauten und zum Vertrauensverlust führten
- Ein Beispiel dafür, wie eine Organisation, die für kritische Infrastruktur verantwortlich ist, ohne Realitätssinn weiter auf ein strukturelles Scheitern zusteuerte
- Betont werden die Bedeutung von Stabilität und Einfachheit in Cloud-Infrastruktur sowie die Wichtigkeit, technisches Urteilsvermögen innerhalb der Organisation zu bewahren
1 Kommentare
Hacker-News-Kommentare
Als jemand, der Azure täglich nutzt, habe ich das Gefühl, dass diese Enthüllungen, falls sie stimmen, wirklich vieles erklären
Die UI ist holprig, die Dokumentation so ungenau, als wäre sie von einer KI geschrieben, und es gibt so viele Services, dass man nicht einmal weiß, welchen man überhaupt verwenden soll
Ohne Hilfe von Beratern ist die Einrichtung schwierig, und selbst danach ist man nicht sicher, ob es wirklich korrekt funktioniert
Ehrlich gesagt ist es erstaunlich, dass das alles überhaupt noch läuft
Seitdem vertraue ich der Dokumentation nicht mehr
Ein Dienst, der auf GCP stabil lief, wurde unvorhersehbar
Ich habe gesehen, wie Azure OpenAI unter Last Prompt-Antworten anderer Kunden preisgab
Es gibt auch diesen Tweet dazu
Aber offenbar scheint das niemanden zu kümmern
Das ist eine komplette Wildwest-Situation
Ich bin überrascht, wie konkret die Behauptungen in diesem Beitrag sind
Ich frage mich, ob es sich um einen Whistleblower oder einfach um einen frustrierten Ex-Mitarbeiter handelt
Besonders der Teil, dass direkt an CEO und Vorstand berichtet wurde, ist bemerkenswert
Dass so ein Vorgehen in der US-Unternehmenskultur „üblich“ sein soll, wirkt befremdlich
Mich würde interessieren, ob Azure wirklich so instabil ist und wie die Erfahrungen echter Nutzer aussehen
Azure erkennt Probleme nicht, kennt die Ursachen nicht und wirkt nicht einmal so, als würde es sie interessieren
Das ganze Team hasst Azure
Ich war froh, dass man OpenAI-Modelle inzwischen auch über AWS Bedrock nutzen kann und Azure damit vermeiden kann
Zuverlässigkeit ist weiterhin ein gravierendes Problem
Die Strategie „schnell rausbringen und später reparieren“ führt am Ende genau zu solchen Ergebnissen
Seitdem vertraue ich dem nicht mehr
Der Beitrag wirkt teilweise emotional überzeichnet, wodurch die eigentliche Aussage etwas verwässert wird
Das interne Karrierestufensystem bei Azure oder Issues auf Sev2-Niveau sind nichts besonders Außergewöhnliches
Azure hat Probleme, aber bei dieser Größenordnung sind raue Kanten unvermeidlich
Wahre Reife zeigt sich meiner Meinung nach darin, das System von innen heraus verbessern zu wollen
Azure mag chaotisch sein, aber möglicherweise war auch die Herangehensweise des Autors problematisch
Mein Eindruck von Azure ist durchweg negativ
Der Ansatz des Autors untergräbt eher seine Glaubwürdigkeit
Wie oft neue Mitarbeiter „wtf/day“ sagen, wirkt fast wie ein Gesundheitsindikator für die Organisation
Selbst von außen betrachtet ist die Qualität von Azure am Boden
Im Versuch, AWS schnell einzuholen, wurden Funktionen hastig ausgeliefert, wodurch man in einem riesigen Sumpf technischer Schulden versank
Selbst grundlegende Dinge wie IPv6, azcopy oder VM-Upgrades sind weiterhin instabil
Ein früherer Kollege nutzt Azure täglich, und jedes Mal, wenn ich seine explodierenden Beschwerden höre, ergibt der Inhalt dieses Beitrags für mich Sinn
Als ich mich vor 12 Jahren für eine Cloud-Spezialisierung entschied, habe ich Azure kurz ausprobiert und es als langsame, kaputte Plattform wahrgenommen — dieser Beitrag bestätigt diese Einschätzung
Im späteren Teil des Beitrags fand ich bemerkenswert, dass Microsoft 2025 15.000 Stellen gestrichen hat
Das wirkt wie ein Beispiel für die Realität nach dem AI-Boom
Der OpenAI-Vertrag betraf GPU-Kapazitätsprobleme, und die Entlassungen sind ein separates Thema
Das eigentliche Problem sind Engineer-Rotation und fehlende Verantwortung
In jedes Projekt kommen neue Leute, und das Verantwortungsgefühl geht verloren
Der Teil, dass man bei einer Kompromittierung des Hosts auf den Speicher aller VMs zugreifen kann, klingt extrem gefährlich
Es ist ironisch, das CNBC-Zitat zu sehen, wonach Satya Nadellas Vergütung auf 96,5 Millionen Dollar gestiegen ist, zusammen mit der Aussage eines Artemis-II-Astronauten, dass „beide Outlooks nicht funktionieren“
Der Inhalt des Beitrags wirkt übertrieben, aber da ich selbst ähnliche Systeme betrieben habe, erinnere ich mich daran, wie man ständig kämpfen musste, um Stabilität zu bewahren
Ich habe ähnliche Probleme auch in anderen Unternehmen gesehen, aber nicht in der Schwere wie bei Azure
Solche Strukturen scheinen am Ende in eine selbstzerstörerische Schleife zu führen
Ich habe Azure 2018 genutzt, und es war langsam, teuer und von miserabler Qualität
Im GitHub-Forum habe ich mich mit anderen Nutzern abgemüht, Probleme zu lösen, bei denen nicht einmal Grundfunktionen funktionierten
Dieser Beitrag beantwortet meine damaligen Fragen
Persönlich fand ich Google Cloud als die am besten konzipierte Plattform, aber im Vergleich zu AWS fehlt dort menschlicher Support
Mein Ansprechpartner wurde in drei Monaten dreimal gewechselt, und Anfragen zu Quoten oder Systemlimits wurden teilweise ignoriert