3 Punkte von GN⁺ 27 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Ein ehemaliger Ingenieur schildert detailliert, wie sich unrealistische Entscheidungen innerhalb von Microsoft Azure Core aufstauten und zu technischem Chaos sowie zum Verlust von Vertrauen führten
  • Als exemplarische Probleme werden ein Plan zur Portierung von Windows-Funktionen, der Hardware-Beschränkungen ignorierte, sowie ein Wildwuchs von 173 Verwaltungsagenten genannt
  • Diese komplexe Struktur trägt zentrale Workloads wie OpenAI, Anthropic und Government Cloud, sodass ein einzelner Fehler das Risiko birgt, sich zu einer weltweiten Störung auszuweiten
  • Während das Management nicht reagierte, kam es in der Folge zu einer Verschlechterung der Beziehung zu OpenAI, Vertrauensverlust bei der US-Regierung und Verzögerungen bei Feature-Releases
  • Letztlich habe dies zum Verdampfen von 1 Billion US-Dollar an Marktkapitalisierung geführt und unterstreiche die Bedeutung von technischem Realismus und dem Erhalt von Einfachheit beim Betrieb von Cloud-Infrastruktur

Interner Bericht über den Vertrauensverlust bei Azure

  • Rückblick eines ehemaligen Ingenieurs auf die unrealistischen Entscheidungsprozesse innerhalb des Microsoft-Azure-Core-Teams und das daraus resultierende technische und organisatorische Chaos
  • Schon am ersten Tag im Overlake-R&D-Team erlebte er Diskussionen über einen Plan zur Portierung von Windows-Funktionen, der Hardware-Beschränkungen ignorierte
  • Es existierten 173 Verwaltungsagenten, doch die Komplexität und Intransparenz waren so groß, dass niemand genau wusste, welche Funktion sie hatten oder warum sie nötig waren
  • Diese Struktur trägt zentrale Workloads wie OpenAI, Anthropic und Government Cloud, wodurch ein einzelner Fehler zu einer weltweiten Störung führen könnte
  • Laut Darstellung führte dies letztlich zu Vertrauensverlust bei OpenAI, öffentlichem Misstrauen des US-Verteidigungsministeriums und dem Verdampfen von 1 Billion US-Dollar an Marktkapitalisierung

Einstieg bei Azure Core und die anfängliche Lage

  • Am 1. Mai 2023 trat er als Senior Engineer dem Overlake-R&D-Team bei, das für Azure-Boost-Offload-Karten und Netzwerkbeschleuniger zuständig ist
  • Zuvor war er in den Teams für Windows und Core OS an Kernel-Verbesserungen und der Entwicklung einer Container-Plattform beteiligt und trug zu Schlüsseltechnologien wie Docker, AKS, App Services und Windows Sandbox bei
  • Er war auch am frühen Design der Overlake-Karte (2020–2021) beteiligt und hatte ein Kommunikationsprotokoll zwischen Host-OS und Beschleunigerkarte vorgeschlagen
  • Damit kehrte ein Experte zurück, der die Azure-Plattform über mehr als zehn Jahre direkt betrieben und entwickelt hatte

Unrealistischer Plan im ersten Meeting

  • Am ersten Arbeitstag stellte er im monatlichen Planungsmeeting des Teams einen Plan zur Portierung von Windows-Komponenten auf die Overlake-Karte fest
  • Obwohl die RAM-Kapazität und das Strombudget der Overlake-Karte extrem begrenzt waren, diskutierte das Team Versuche, Windows-Funktionen dorthin zu verlagern
  • Nach den Hardware-Spezifikationen war der Plan unmöglich, dennoch fiel sogar die Aussage, man könne es „ein paar Junior-Entwicklern überlassen“
  • Die Organisation prüfte ernsthaft eine Richtung, bei der Windows nach Linux portiert werden sollte, um VM-Verwaltungsagenten beizubehalten
  • Der Autor erkannte dies als einen „von der Realität abgekoppelten Plan“ und kam zu dem Schluss, dass die gesamte Organisation zu einem Marsch auf ein unmögliches Ziel angesetzt hatte

Technische Grenzen und strukturelle Probleme

  • Der Stack konnte damals auf einer 400W-Xeon-CPU nur einige Dutzend VMs verarbeiten, weit entfernt vom Hypervisor-Limit von 1.024 VMs
  • Durch übermäßigen Ressourcenverbrauch traten Leistungseinbußen wie Jitter bei Kunden-VMs auf
  • Einen derart ineffizienten Stack auf ein kleines ARM-SoC zu portieren und so zu skalieren, sei technisch unmöglich gewesen
  • Der Autor beschreibt, dass es dringlicher gewesen sei, die gesamte Organisation in die Realität zurückzuholen, als neue Technik zu lernen

Interne Gespräche zu Azure Linux und Overlake

  • In einem 90-minütigen Gespräch mit dem Leiter der Linux System Group stellte sich heraus, dass 173 Agenten als Kandidaten für die Portierung auf die Overlake-Karte vorgesehen waren
  • Nachforschungen ergaben, dass innerhalb von Microsoft niemand die Rolle, Interaktionen oder Existenzgründe dieser 173 Agenten klar erklären konnte
  • Der Kern von Azure sind VM, Networking und Storage; obwohl die übrigen Dienste darauf aufbauen, hatte sich unnötige Komplexität angesammelt
  • Diese nicht beherrschbare Ansammlung von Komponenten verwaltet zentrale Workloads wie OpenAI, Anthropic und Government Cloud

Vertrauensverlust und die Folgen

  • Diese komplexe Struktur könne ernste Risiken für nationale Sicherheit und Business Continuity verursachen
  • Briefe an den CEO, den Vorstand und den EVP für Cloud+AI blieben anschließend unbeantwortet
  • In der Folge kam es zu einer Verschlechterung der Beziehung zu OpenAI, zum Zusammenbruch des Vertrauens der US-Regierung (einschließlich öffentlicher Äußerungen des Verteidigungsministers), zu Engineering-Verschwendung und einer Anordnung zur Rust-Migration sowie zu Verzögerungen bei Feature-Releases
  • Der Autor bezeichnet dies als ein „Ereignis, bei dem 1 Billion US-Dollar an Marktkapitalisierung verdampfte“, und warnt Unternehmen, die Azure nutzen, vor den Risiken einer Abhängigkeit in Produktionsumgebungen

Fazit

  • Es wird sichtbar, wie sich bei Azure intern technische Komplexität, mangelhafte Steuerung und unrealistische Entscheidungen aufstauten und zum Vertrauensverlust führten
  • Ein Beispiel dafür, wie eine Organisation, die für kritische Infrastruktur verantwortlich ist, ohne Realitätssinn weiter auf ein strukturelles Scheitern zusteuerte
  • Betont werden die Bedeutung von Stabilität und Einfachheit in Cloud-Infrastruktur sowie die Wichtigkeit, technisches Urteilsvermögen innerhalb der Organisation zu bewahren

1 Kommentare

 
GN⁺ 27 일 전
Hacker-News-Kommentare
  • Als jemand, der Azure täglich nutzt, habe ich das Gefühl, dass diese Enthüllungen, falls sie stimmen, wirklich vieles erklären
    Die UI ist holprig, die Dokumentation so ungenau, als wäre sie von einer KI geschrieben, und es gibt so viele Services, dass man nicht einmal weiß, welchen man überhaupt verwenden soll
    Ohne Hilfe von Beratern ist die Einrichtung schwierig, und selbst danach ist man nicht sicher, ob es wirklich korrekt funktioniert
    Ehrlich gesagt ist es erstaunlich, dass das alles überhaupt noch läuft

    • Früher war ich von der Azure-Dokumentation beeindruckt, aber nachdem ich eine Woche lang implementiert hatte, scheiterte alles im Testumfeld, weil GraphAPI anders funktionierte als in der Dokumentation beschrieben
      Seitdem vertraue ich der Dokumentation nicht mehr
    • Ich habe mit Azure-Beratern gearbeitet, und auch sie hassen Azure
    • Das Management hat wegen vieler Credits einen Umzug zu AKS beschlossen, aber Pods stürzten zufällig ab, und die Festplattenlatenz der DB-Knoten schoss in die Höhe
      Ein Dienst, der auf GCP stabil lief, wurde unvorhersehbar
  • Ich habe gesehen, wie Azure OpenAI unter Last Prompt-Antworten anderer Kunden preisgab
    Es gibt auch diesen Tweet dazu
    Aber offenbar scheint das niemanden zu kümmern

    • Ich frage mich, was genau mit „Azure OpenAI“ gemeint ist — GitHub Copilot, Microsoft Copilot, die OpenAI API oder eines der auf Azure gehosteten LLMs?
      Das ist eine komplette Wildwest-Situation
  • Ich bin überrascht, wie konkret die Behauptungen in diesem Beitrag sind
    Ich frage mich, ob es sich um einen Whistleblower oder einfach um einen frustrierten Ex-Mitarbeiter handelt
    Besonders der Teil, dass direkt an CEO und Vorstand berichtet wurde, ist bemerkenswert
    Dass so ein Vorgehen in der US-Unternehmenskultur „üblich“ sein soll, wirkt befremdlich
    Mich würde interessieren, ob Azure wirklich so instabil ist und wie die Erfahrungen echter Nutzer aussehen

    • Ich betreibe tatsächlich als SRE AWS, Azure und GCP gleichzeitig, und 80–90 % der Ausfälle treten bei Azure auf
      Azure erkennt Probleme nicht, kennt die Ursachen nicht und wirkt nicht einmal so, als würde es sie interessieren
      Das ganze Team hasst Azure
    • Azure hat viel zu viele Konsistenzprobleme und Race Conditions
      Ich war froh, dass man OpenAI-Modelle inzwischen auch über AWS Bedrock nutzen kann und Azure damit vermeiden kann
      Zuverlässigkeit ist weiterhin ein gravierendes Problem
    • Große Unternehmen treffen oft Entscheidungen, die Qualität zugunsten kurzfristiger Kennzahlen opfern
      Die Strategie „schnell rausbringen und später reparieren“ führt am Ende genau zu solchen Ergebnissen
    • Ich habe einmal einen Sicherheitsbericht gesehen, in dem jemand aus einem Azure-Container ausgebrochen ist und eine Schwachstelle im Verwaltungs-Controller gefunden hat
      Seitdem vertraue ich dem nicht mehr
    • Selbst mit Gratis-Credits würde ich lieber AWS oder GCP bezahlt nutzen
  • Der Beitrag wirkt teilweise emotional überzeichnet, wodurch die eigentliche Aussage etwas verwässert wird
    Das interne Karrierestufensystem bei Azure oder Issues auf Sev2-Niveau sind nichts besonders Außergewöhnliches
    Azure hat Probleme, aber bei dieser Größenordnung sind raue Kanten unvermeidlich
    Wahre Reife zeigt sich meiner Meinung nach darin, das System von innen heraus verbessern zu wollen

    • Direkt einen Brief an den Vorstand zu schicken, ist innerhalb einer Organisation praktisch nie ein Vorgehen, das gut ausgeht
      Azure mag chaotisch sein, aber möglicherweise war auch die Herangehensweise des Autors problematisch
    • AWS und GCP sind bei UX/DX deutlich besser, und Azure sagt einem nicht einmal, warum etwas nicht funktioniert
      Mein Eindruck von Azure ist durchweg negativ
    • Microsoft ist die Standardlösung vieler Behörden, aber der Vorschlag eines kompletten Rewrites ist nicht realistisch
      Der Ansatz des Autors untergräbt eher seine Glaubwürdigkeit
    • Erstaunlich ist die Struktur, bei der laut dem Autor Menschen auf niedrigen Stufen zentrale Systeme verantworten
    • Es gibt viele Leute, die „alles ist kaputt“ rufen, aber das könnte auch ein verfestigtes Organisationsproblem sein
      Wie oft neue Mitarbeiter „wtf/day“ sagen, wirkt fast wie ein Gesundheitsindikator für die Organisation
      Selbst von außen betrachtet ist die Qualität von Azure am Boden
      Im Versuch, AWS schnell einzuholen, wurden Funktionen hastig ausgeliefert, wodurch man in einem riesigen Sumpf technischer Schulden versank
      Selbst grundlegende Dinge wie IPv6, azcopy oder VM-Upgrades sind weiterhin instabil
  • Ein früherer Kollege nutzt Azure täglich, und jedes Mal, wenn ich seine explodierenden Beschwerden höre, ergibt der Inhalt dieses Beitrags für mich Sinn
    Als ich mich vor 12 Jahren für eine Cloud-Spezialisierung entschied, habe ich Azure kurz ausprobiert und es als langsame, kaputte Plattform wahrgenommen — dieser Beitrag bestätigt diese Einschätzung

  • Im späteren Teil des Beitrags fand ich bemerkenswert, dass Microsoft 2025 15.000 Stellen gestrichen hat
    Das wirkt wie ein Beispiel für die Realität nach dem AI-Boom

    • Ich halte diesen Teil allerdings für eine schwächere Aussage des Beitrags
      Der OpenAI-Vertrag betraf GPU-Kapazitätsprobleme, und die Entlassungen sind ein separates Thema
      Das eigentliche Problem sind Engineer-Rotation und fehlende Verantwortung
      In jedes Projekt kommen neue Leute, und das Verantwortungsgefühl geht verloren
  • Der Teil, dass man bei einer Kompromittierung des Hosts auf den Speicher aller VMs zugreifen kann, klingt extrem gefährlich

    • Ich kann mir nicht einmal vorstellen, in welchem Umfeld man eine solche Architektur für eine gute Idee gehalten hätte
    • Ich weiß nicht, was der Autor erwartet hat
  • Es ist ironisch, das CNBC-Zitat zu sehen, wonach Satya Nadellas Vergütung auf 96,5 Millionen Dollar gestiegen ist, zusammen mit der Aussage eines Artemis-II-Astronauten, dass „beide Outlooks nicht funktionieren“

    • „Zwei Outlooks“ — dabei ist schon eines zu viel
  • Der Inhalt des Beitrags wirkt übertrieben, aber da ich selbst ähnliche Systeme betrieben habe, erinnere ich mich daran, wie man ständig kämpfen musste, um Stabilität zu bewahren
    Ich habe ähnliche Probleme auch in anderen Unternehmen gesehen, aber nicht in der Schwere wie bei Azure
    Solche Strukturen scheinen am Ende in eine selbstzerstörerische Schleife zu führen

  • Ich habe Azure 2018 genutzt, und es war langsam, teuer und von miserabler Qualität
    Im GitHub-Forum habe ich mich mit anderen Nutzern abgemüht, Probleme zu lösen, bei denen nicht einmal Grundfunktionen funktionierten
    Dieser Beitrag beantwortet meine damaligen Fragen
    Persönlich fand ich Google Cloud als die am besten konzipierte Plattform, aber im Vergleich zu AWS fehlt dort menschlicher Support

    • Der Support bei GCP ist wirklich miserabel
      Mein Ansprechpartner wurde in drei Monaten dreimal gewechselt, und Anfragen zu Quoten oder Systemlimits wurden teilweise ignoriert