Entscheidungen, die das Vertrauen in Azure zerstörten – Bericht eines ehemaligen Azure-Core-Ingenieurs

(substack.com/isolveproblems)

3 Punkte von GN⁺ 2026-04-03 | 1 Kommentare | Auf WhatsApp teilen

Ein ehemaliger Ingenieur schildert detailliert, wie sich unrealistische Entscheidungen innerhalb von Microsoft Azure Core aufstauten und zu technischem Chaos sowie zum Verlust von Vertrauen führten
Als exemplarische Probleme werden ein Plan zur Portierung von Windows-Funktionen, der Hardware-Beschränkungen ignorierte, sowie ein Wildwuchs von 173 Verwaltungsagenten genannt
Diese komplexe Struktur trägt zentrale Workloads wie OpenAI, Anthropic und Government Cloud, sodass ein einzelner Fehler das Risiko birgt, sich zu einer weltweiten Störung auszuweiten
Während das Management nicht reagierte, kam es in der Folge zu einer Verschlechterung der Beziehung zu OpenAI, Vertrauensverlust bei der US-Regierung und Verzögerungen bei Feature-Releases
Letztlich habe dies zum Verdampfen von 1 Billion US-Dollar an Marktkapitalisierung geführt und unterstreiche die Bedeutung von technischem Realismus und dem Erhalt von Einfachheit beim Betrieb von Cloud-Infrastruktur

Interner Bericht über den Vertrauensverlust bei Azure

Rückblick eines ehemaligen Ingenieurs auf die unrealistischen Entscheidungsprozesse innerhalb des Microsoft-Azure-Core-Teams und das daraus resultierende technische und organisatorische Chaos
Schon am ersten Tag im Overlake-R&D-Team erlebte er Diskussionen über einen Plan zur Portierung von Windows-Funktionen, der Hardware-Beschränkungen ignorierte
Es existierten 173 Verwaltungsagenten, doch die Komplexität und Intransparenz waren so groß, dass niemand genau wusste, welche Funktion sie hatten oder warum sie nötig waren
Diese Struktur trägt zentrale Workloads wie OpenAI, Anthropic und Government Cloud, wodurch ein einzelner Fehler zu einer weltweiten Störung führen könnte
Laut Darstellung führte dies letztlich zu Vertrauensverlust bei OpenAI, öffentlichem Misstrauen des US-Verteidigungsministeriums und dem Verdampfen von 1 Billion US-Dollar an Marktkapitalisierung

Einstieg bei Azure Core und die anfängliche Lage

Am 1. Mai 2023 trat er als Senior Engineer dem Overlake-R&D-Team bei, das für Azure-Boost-Offload-Karten und Netzwerkbeschleuniger zuständig ist
Zuvor war er in den Teams für Windows und Core OS an Kernel-Verbesserungen und der Entwicklung einer Container-Plattform beteiligt und trug zu Schlüsseltechnologien wie Docker, AKS, App Services und Windows Sandbox bei
Er war auch am frühen Design der Overlake-Karte (2020–2021) beteiligt und hatte ein Kommunikationsprotokoll zwischen Host-OS und Beschleunigerkarte vorgeschlagen
Damit kehrte ein Experte zurück, der die Azure-Plattform über mehr als zehn Jahre direkt betrieben und entwickelt hatte

Unrealistischer Plan im ersten Meeting

Am ersten Arbeitstag stellte er im monatlichen Planungsmeeting des Teams einen Plan zur Portierung von Windows-Komponenten auf die Overlake-Karte fest
Obwohl die RAM-Kapazität und das Strombudget der Overlake-Karte extrem begrenzt waren, diskutierte das Team Versuche, Windows-Funktionen dorthin zu verlagern
Nach den Hardware-Spezifikationen war der Plan unmöglich, dennoch fiel sogar die Aussage, man könne es „ein paar Junior-Entwicklern überlassen“
Die Organisation prüfte ernsthaft eine Richtung, bei der Windows nach Linux portiert werden sollte, um VM-Verwaltungsagenten beizubehalten
Der Autor erkannte dies als einen „von der Realität abgekoppelten Plan“ und kam zu dem Schluss, dass die gesamte Organisation zu einem Marsch auf ein unmögliches Ziel angesetzt hatte

Technische Grenzen und strukturelle Probleme

Der Stack konnte damals auf einer 400W-Xeon-CPU nur einige Dutzend VMs verarbeiten, weit entfernt vom Hypervisor-Limit von 1.024 VMs
Durch übermäßigen Ressourcenverbrauch traten Leistungseinbußen wie Jitter bei Kunden-VMs auf
Einen derart ineffizienten Stack auf ein kleines ARM-SoC zu portieren und so zu skalieren, sei technisch unmöglich gewesen
Der Autor beschreibt, dass es dringlicher gewesen sei, die gesamte Organisation in die Realität zurückzuholen, als neue Technik zu lernen

Interne Gespräche zu Azure Linux und Overlake

In einem 90-minütigen Gespräch mit dem Leiter der Linux System Group stellte sich heraus, dass 173 Agenten als Kandidaten für die Portierung auf die Overlake-Karte vorgesehen waren
Nachforschungen ergaben, dass innerhalb von Microsoft niemand die Rolle, Interaktionen oder Existenzgründe dieser 173 Agenten klar erklären konnte
Der Kern von Azure sind VM, Networking und Storage; obwohl die übrigen Dienste darauf aufbauen, hatte sich unnötige Komplexität angesammelt
Diese nicht beherrschbare Ansammlung von Komponenten verwaltet zentrale Workloads wie OpenAI, Anthropic und Government Cloud

Vertrauensverlust und die Folgen

Diese komplexe Struktur könne ernste Risiken für nationale Sicherheit und Business Continuity verursachen
Briefe an den CEO, den Vorstand und den EVP für Cloud+AI blieben anschließend unbeantwortet
In der Folge kam es zu einer Verschlechterung der Beziehung zu OpenAI, zum Zusammenbruch des Vertrauens der US-Regierung (einschließlich öffentlicher Äußerungen des Verteidigungsministers), zu Engineering-Verschwendung und einer Anordnung zur Rust-Migration sowie zu Verzögerungen bei Feature-Releases
Der Autor bezeichnet dies als ein „Ereignis, bei dem 1 Billion US-Dollar an Marktkapitalisierung verdampfte“, und warnt Unternehmen, die Azure nutzen, vor den Risiken einer Abhängigkeit in Produktionsumgebungen

Fazit

Es wird sichtbar, wie sich bei Azure intern technische Komplexität, mangelhafte Steuerung und unrealistische Entscheidungen aufstauten und zum Vertrauensverlust führten
Ein Beispiel dafür, wie eine Organisation, die für kritische Infrastruktur verantwortlich ist, ohne Realitätssinn weiter auf ein strukturelles Scheitern zusteuerte
Betont werden die Bedeutung von Stabilität und Einfachheit in Cloud-Infrastruktur sowie die Wichtigkeit, technisches Urteilsvermögen innerhalb der Organisation zu bewahren

1 Kommentare

GN⁺ 2026-04-03

Hacker-News-Kommentare

Als jemand, der Azure täglich nutzt, habe ich das Gefühl, dass diese Enthüllungen, falls sie stimmen, wirklich vieles erklären
Die UI ist holprig, die Dokumentation so ungenau, als wäre sie von einer KI geschrieben, und es gibt so viele Services, dass man nicht einmal weiß, welchen man überhaupt verwenden soll
Ohne Hilfe von Beratern ist die Einrichtung schwierig, und selbst danach ist man nicht sicher, ob es wirklich korrekt funktioniert
Ehrlich gesagt ist es erstaunlich, dass das alles überhaupt noch läuft
- Früher war ich von der Azure-Dokumentation beeindruckt, aber nachdem ich eine Woche lang implementiert hatte, scheiterte alles im Testumfeld, weil GraphAPI anders funktionierte als in der Dokumentation beschrieben
  Seitdem vertraue ich der Dokumentation nicht mehr
- Ich habe mit Azure-Beratern gearbeitet, und auch sie hassen Azure
- Das Management hat wegen vieler Credits einen Umzug zu AKS beschlossen, aber Pods stürzten zufällig ab, und die Festplattenlatenz der DB-Knoten schoss in die Höhe
  Ein Dienst, der auf GCP stabil lief, wurde unvorhersehbar
Ich habe gesehen, wie Azure OpenAI unter Last Prompt-Antworten anderer Kunden preisgab
Es gibt auch diesen Tweet dazu
Aber offenbar scheint das niemanden zu kümmern
- Ich frage mich, was genau mit „Azure OpenAI“ gemeint ist — GitHub Copilot, Microsoft Copilot, die OpenAI API oder eines der auf Azure gehosteten LLMs?
  Das ist eine komplette Wildwest-Situation
Ich bin überrascht, wie konkret die Behauptungen in diesem Beitrag sind
Ich frage mich, ob es sich um einen Whistleblower oder einfach um einen frustrierten Ex-Mitarbeiter handelt
Besonders der Teil, dass direkt an CEO und Vorstand berichtet wurde, ist bemerkenswert
Dass so ein Vorgehen in der US-Unternehmenskultur „üblich“ sein soll, wirkt befremdlich
Mich würde interessieren, ob Azure wirklich so instabil ist und wie die Erfahrungen echter Nutzer aussehen
- Ich betreibe tatsächlich als SRE AWS, Azure und GCP gleichzeitig, und 80–90 % der Ausfälle treten bei Azure auf
  Azure erkennt Probleme nicht, kennt die Ursachen nicht und wirkt nicht einmal so, als würde es sie interessieren
  Das ganze Team hasst Azure
- Azure hat viel zu viele Konsistenzprobleme und Race Conditions
  Ich war froh, dass man OpenAI-Modelle inzwischen auch über AWS Bedrock nutzen kann und Azure damit vermeiden kann
  Zuverlässigkeit ist weiterhin ein gravierendes Problem
- Große Unternehmen treffen oft Entscheidungen, die Qualität zugunsten kurzfristiger Kennzahlen opfern
  Die Strategie „schnell rausbringen und später reparieren“ führt am Ende genau zu solchen Ergebnissen
- Ich habe einmal einen Sicherheitsbericht gesehen, in dem jemand aus einem Azure-Container ausgebrochen ist und eine Schwachstelle im Verwaltungs-Controller gefunden hat
  Seitdem vertraue ich dem nicht mehr
- Selbst mit Gratis-Credits würde ich lieber AWS oder GCP bezahlt nutzen
Der Beitrag wirkt teilweise emotional überzeichnet, wodurch die eigentliche Aussage etwas verwässert wird
Das interne Karrierestufensystem bei Azure oder Issues auf Sev2-Niveau sind nichts besonders Außergewöhnliches
Azure hat Probleme, aber bei dieser Größenordnung sind raue Kanten unvermeidlich
Wahre Reife zeigt sich meiner Meinung nach darin, das System von innen heraus verbessern zu wollen
- Direkt einen Brief an den Vorstand zu schicken, ist innerhalb einer Organisation praktisch nie ein Vorgehen, das gut ausgeht
  Azure mag chaotisch sein, aber möglicherweise war auch die Herangehensweise des Autors problematisch
- AWS und GCP sind bei UX/DX deutlich besser, und Azure sagt einem nicht einmal, warum etwas nicht funktioniert
  Mein Eindruck von Azure ist durchweg negativ
- Microsoft ist die Standardlösung vieler Behörden, aber der Vorschlag eines kompletten Rewrites ist nicht realistisch
  Der Ansatz des Autors untergräbt eher seine Glaubwürdigkeit
- Erstaunlich ist die Struktur, bei der laut dem Autor Menschen auf niedrigen Stufen zentrale Systeme verantworten
- Es gibt viele Leute, die „alles ist kaputt“ rufen, aber das könnte auch ein verfestigtes Organisationsproblem sein
  Wie oft neue Mitarbeiter „wtf/day“ sagen, wirkt fast wie ein Gesundheitsindikator für die Organisation
  Selbst von außen betrachtet ist die Qualität von Azure am Boden
  Im Versuch, AWS schnell einzuholen, wurden Funktionen hastig ausgeliefert, wodurch man in einem riesigen Sumpf technischer Schulden versank
  Selbst grundlegende Dinge wie IPv6, azcopy oder VM-Upgrades sind weiterhin instabil
Ein früherer Kollege nutzt Azure täglich, und jedes Mal, wenn ich seine explodierenden Beschwerden höre, ergibt der Inhalt dieses Beitrags für mich Sinn
Als ich mich vor 12 Jahren für eine Cloud-Spezialisierung entschied, habe ich Azure kurz ausprobiert und es als langsame, kaputte Plattform wahrgenommen — dieser Beitrag bestätigt diese Einschätzung
Im späteren Teil des Beitrags fand ich bemerkenswert, dass Microsoft 2025 15.000 Stellen gestrichen hat
Das wirkt wie ein Beispiel für die Realität nach dem AI-Boom
- Ich halte diesen Teil allerdings für eine schwächere Aussage des Beitrags
  Der OpenAI-Vertrag betraf GPU-Kapazitätsprobleme, und die Entlassungen sind ein separates Thema
  Das eigentliche Problem sind Engineer-Rotation und fehlende Verantwortung
  In jedes Projekt kommen neue Leute, und das Verantwortungsgefühl geht verloren
Der Teil, dass man bei einer Kompromittierung des Hosts auf den Speicher aller VMs zugreifen kann, klingt extrem gefährlich
- Ich kann mir nicht einmal vorstellen, in welchem Umfeld man eine solche Architektur für eine gute Idee gehalten hätte
- Ich weiß nicht, was der Autor erwartet hat
Es ist ironisch, das CNBC-Zitat zu sehen, wonach Satya Nadellas Vergütung auf 96,5 Millionen Dollar gestiegen ist, zusammen mit der Aussage eines Artemis-II-Astronauten, dass „beide Outlooks nicht funktionieren“
- „Zwei Outlooks“ — dabei ist schon eines zu viel
Der Inhalt des Beitrags wirkt übertrieben, aber da ich selbst ähnliche Systeme betrieben habe, erinnere ich mich daran, wie man ständig kämpfen musste, um Stabilität zu bewahren
Ich habe ähnliche Probleme auch in anderen Unternehmen gesehen, aber nicht in der Schwere wie bei Azure
Solche Strukturen scheinen am Ende in eine selbstzerstörerische Schleife zu führen
Ich habe Azure 2018 genutzt, und es war langsam, teuer und von miserabler Qualität
Im GitHub-Forum habe ich mich mit anderen Nutzern abgemüht, Probleme zu lösen, bei denen nicht einmal Grundfunktionen funktionierten
Dieser Beitrag beantwortet meine damaligen Fragen
Persönlich fand ich Google Cloud als die am besten konzipierte Plattform, aber im Vergleich zu AWS fehlt dort menschlicher Support
- Der Support bei GCP ist wirklich miserabel
  Mein Ansprechpartner wurde in drei Monaten dreimal gewechselt, und Anfragen zu Quoten oder Systemlimits wurden teilweise ignoriert

Entscheidungen, die das Vertrauen in Azure zerstörten – Bericht eines ehemaligen Azure-Core-Ingenieurs

Interner Bericht über den Vertrauensverlust bei Azure

Einstieg bei Azure Core und die anfängliche Lage

Unrealistischer Plan im ersten Meeting

Technische Grenzen und strukturelle Probleme

Interne Gespräche zu Azure Linux und Overlake

Vertrauensverlust und die Folgen

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare