- Der Autor trat im Mai 2024 ein, arbeitete etwas mehr als ein Jahr bei OpenAI und verließ das Unternehmen dann wieder. Er schildert offen die Unternehmenskultur und die tatsächliche Arbeitsatmosphäre.
- In einer Phase extrem schnellen Wachstums (1.000 → 3.000 Mitarbeitende) verändern sich interne Prozesse, Organisation, Kultur und Arbeitsweise rasant.
- Bottom-up- und meritokratische Kultur, eine eigentümliche Slack-zentrierte Zusammenarbeit, hohe Umsetzungsgeschwindigkeit, sichtbare Führung mit schnellen Richtungswechseln sowie die Haltung „Code ist die Antwort“ prägen die Organisation in allen Bereichen.
- Starke teambezogene Kultur, hohes Arbeitstempo und organisatorische Flexibilität; Forschende agieren mit der Autonomie kleiner „Mini-Manager“, doppelte Projekte und interne Ideenexperimente sind häufig.
- OpenAI wird als ambitionierte und ernsthafte Organisation beschrieben, die zugleich unter intensiver externer Beobachtung durch Öffentlichkeit und Medien, realer Sicherheits- und Geheimhaltungspraxis sowie einem Spannungsfeld aus AGI-Mission und Consumer-Service steht.
Einleitung und persönlicher Hintergrund
- Eintritt im Mai 2024, jüngst Austritt bei OpenAI
- Mit diesem Text möchte der Autor seine tatsächlich erlebte Kultur bei OpenAI und seine persönliche Perspektive teilen
- Er enthält keine internen Geheimnisse, sondern zeigt den aktuellen Zustand einer historisch interessanten Organisation und die Erfahrungen als kleines Fenster aus Sicht eines Mitarbeitenden
- Die Entscheidung zum Abschied war von persönlichen Konflikten begleitet, zugleich gab es die Sehnsucht nach etwas Neuem beim Wechsel vom Startup-Gründer zum Mitarbeitenden in einer großen Organisation
- Die Erfahrung, am Aufbau von AGI mitzuwirken, und der direkte Beitrag zum Launch von Codex waren außerordentlich bedeutsam
Organisationskultur
- Beim Eintritt lag die Belegschaft bei 1.000 Personen, ein Jahr später bei über 3.000: ein ungewöhnlich schnelles Wachstum
- Durch die rasche Expansion entstanden vielfältige Probleme bei Kommunikation, Berichtslinien, Produkt-Launches und Organisationssteuerung
- Sämtliche Kommunikation und Arbeit sind Slack-zentriert, E-Mail wird fast nie genutzt
- Zwischen den Teams gibt es große Unterschiede bei Kultur und Tempo; Forschung, Applied und GTM (Go-To-Market) folgen unterschiedlichen Zeitrhythmen
- Eine tatsächliche Bottom-up- und Meritokratie-Kultur ist stark ausgeprägt; Forschende und Entwickler treiben Experimente und Entscheidungen eigenständig voran
- In einer leistungsbasierten, kompetenzorientierten Kultur zählen Umsetzungskraft und Ideen mehr als politische Fähigkeiten
- Ohne formale Roadmap finden Teams oft organisch um gute Ideen zusammen und wechseln schnell die Richtung
- Die Führung legt Wert auf Umsetzungskraft (doing the right thing) und Agilität gegenüber Veränderungen
- Intern gibt es viel doppelte Entwicklung und parallele Experimente; zahlreiche Prototypen entstehen eigenständig, es ist eine „vom Code bewegte Organisation“
- Führungskräfte gewichten die Fähigkeit, Ideen tatsächlich umzusetzen, stärker als politische Geschicklichkeit
- Forschende widmen sich der Problemlösung weitgehend eigenständig wie „Mini-Führungskräfte“
- Der Einfluss fähiger Research-Manager und PMs ist sehr groß
- Die ChatGPT-EMs sind sehr vertrauenswürdig und stellen gute Leute ein, denen sie Autonomie geben
- Richtungswechsel erfolgen extrem schnell und werden nach einer Entscheidung sofort umgesetzt
Arbeitsweise und Atmosphäre
- Die Struktur aus Slack-Kanälen und Berechtigungen ist komplex, und die gesamte Kommunikation läuft über Slack
- Forschungsteams, PMs und EMs (Engineering Manager) arbeiten jeweils unterschiedlich; Wechsel zwischen Teams und teamübergreifende Zusammenarbeit sind sehr flexibel
- Wegen externer Sicherheit und medialer Aufmerksamkeit wird mit internen Informationen wie Leistung oder Umsatz äußerst streng umgegangen
- Die tatsächlichen Mitarbeitenden sind stark davon motiviert, das Richtige zu tun und weit weniger zynisch, als Außenstehende oft annehmen
- OpenAI wird als Mischorganisation aus Los Alamos (Nuklearforschungslabor) + riesigem Consumer-Service beschrieben, in der mehrere Subkulturen nebeneinander existieren
- Im Mittelpunkt steht die breite Verteilung der Vorteile von AI; auch modernste Modelle werden nicht nur auf Enterprise beschränkt, sondern über API/ChatGPT für alle zugänglich gemacht
Sicherheit und interne Richtlinien
- In AI-Sicherheitsfragen werden intern tatsächlich viele Menschen und Ressourcen eingesetzt
- Praktisch geht es dabei stärker um Hassrede, Missbrauch, politische Verzerrung, Prompt Injection, Selbstschädigung und andere reale Risiken
- Theoretische Risiken (unkontrollierte Intelligenzexplosion, Power-Seeking) werden von einigen Spezialisten bearbeitet, sind aber nicht der Mainstream
- Ein erheblicher Teil sicherheitsbezogener Forschung und Systeme wird nicht öffentlich gemacht
Entwicklungsumgebung und Technik
- Ein riesiges Monorepo mit Schwerpunkt auf Python, dazu teilweise Rust/Golang; verbindliche Styleguides gibt es kaum
- Großsysteme, entworfen von erfahrenen Ex-Googlern, stehen neben Jupyter notebooks neuer PhDs
- Auffällig sind FastAPI-zentrierte APIs und Datenvalidierung mit Pydantic
- Die gesamte Infrastruktur läuft auf Azure
- Verlässlich sind im Wesentlichen nur Azure Kubernetes Service, CosmosDB und BlobStore
- Das IAM-Niveau und einige Dienste fallen im Vergleich zu AWS ab, intern besteht eine starke Tendenz zu Eigenentwicklungen
- Viele Engineers von Meta (ehemals Facebook) sind hinzugekommen
- Infrastrukturgefühl und Codebase erinnern an die frühe Phase von Meta/Instagram
- Beispiele sind Reimplementierungen von TAO oder die Vereinheitlichung von Authentifizierungssystemen
- Die typischen Probleme schnell wachsender Organisationen sind deutlich spürbar: duplizierter Code, Tooling-/Queue-Management-Bibliotheken, Verwaltung eines großen Backend-Monolithen sowie Probleme bei CI-Geschwindigkeit und -Stabilität
- Chat-Nachrichten und Gesprächsstrukturen sind tief in der gesamten Codebase verankert und werden in verschiedenen Produkten wiederverwendet
- „Code wins“: Ohne zentrales Planungskomitee wird der tatsächlich von arbeitenden Teams geschriebene Code zum Standard
- Entscheidungsbefugnis liegt bei dem Team, das die Arbeit direkt ausführt; Können und Umsetzung über Code dominieren
Consumer-Marke und Geschäftsperspektive
- Die enorme Größe der Consumer-Marke: Kernmetriken werden nicht pro Team, sondern auf Basis individueller Nutzerabonnements geführt
- Produktwachstum und Traffic werden in Consumer-Einheiten wie der Zahl der Pro-Abonnenten gemessen, was für den Autor mit B2B-Hintergrund ein frischer Schock war
- Modelltraining und Experimente beginnen im Kleinen und werden bei Erfolg zu groß angelegtem Distributed-Systems-Engineering skaliert
- GPU-Kosten machen den überwältigenden Anteil aus; selbst kleine Features benötigen enorme GPU-Ressourcen
- Kalkulation und Benchmarking des GPU-Einsatzes werden aus den Anforderungen an Latenz, Tokenzahl und andere UX-Kriterien rückwärts hergeleitet
- Know-how für den Betrieb einer großen Python-Codebase: Mit wachsender Zahl an Entwicklern braucht es viele Guardrails, etwa für Grundfunktion, Tests und Missbrauchsvermeidung
Teamführung und Leadership
- Die Führung ist sehr sichtbar und direkt eingebunden; alle Executives beteiligen sich auf Slack regelmäßig an Diskussionen
- Teamwechsel und Zusammenarbeit erfolgen sehr schnell; auch bei Anfragen anderer Teams werden sofort Unterstützer entsandt, ohne Wartezeit oder Verfahren
- Internes Swag ist selten und wird nur in begrenzten internen Verkaufsaktionen angeboten
Erfahrungen beim Codex-Launch
- In den vergangenen drei Monaten war der Launch von Codex ein Karrierehöhepunkt
- Im November 2024 wurde das Ziel gesetzt, 2025 einen Coding-Agenten zu veröffentlichen; um Februar 2025 war das interne Tool fertig, und der Druck durch die Marktgeschwindigkeit wurde spürbar
- Für den Codex-Launch schlossen sich Teams zusammen und lieferten innerhalb von 7 Wochen ein vollständiges Produkt (Coding-Agent) aus und brachten es auf den Markt; in sehr kurzer Entwicklungszeit entstand ein wirkungsstarkes Produkt
- Tatsächlich bedeutete das Nachtschichten, Wochenendarbeit und die gleichzeitige Betreuung eines Neugeborenen – ein Gefühl wie damals bei YC
- Container-Runtime, Repo-Optimierung, Custom-Model-Fine-Tuning, git-Integration und Internetzugang wurden schnell umgesetzt
- Das Team bestand aus 8 Senior-Engineers, 4 Forschenden, 2 Designern, 2 GTM, 1 PM – ein kleines Elite-Team mit viel Seniorität
- Am Tag vor dem Launch lag der Fokus auf den letzten Arbeiten einschließlich direkter Deployments
- Am Launch-Tag führte der Ansturm des Traffics sofort zu massivem Zulauf, allein durch die Platzierung in der ChatGPT-Seitenleiste
- Codex nutzt ein asynchrones Agentenmodell (Nutzer-Agent-Nachricht → Arbeit → Rückgabe des PR-Ergebnisses)
- In einer isolierten Laufzeitumgebung bearbeitet es Nutzeranfragen und liefert PR-Ergebnisse wie ein Kollaborateur zurück
- Vertrauen in die Modellleistung und ihre Grenzen bestehen noch nebeneinander
- Die Differenzierung von Codex liegt unter anderem in Multi-Task-Ausführung und dem Verständnis großer Codebasen
- Innerhalb von 53 Tagen nach dem Launch wurden 630.000 PRs erzeugt, also mehr als 78.000 PRs pro Engineer – ein überwältigender Impact
Schluss und Erkenntnisse
- Es gab Angst davor, in einer großen Organisation zu arbeiten, rückblickend war es jedoch eine der besten Entscheidungen und eine Chance zum Lernen und Wachsen
- Alle angestrebten Ziele wurden erreicht: Intuition für Modelltraining, Zusammenarbeit mit hervorragenden Kollegen und der Launch eines wirkungsvollen Produkts
- Der Autor eignete sich Know-how zur Verwaltung großer Python-Codebasen an und sammelte reale Erfahrung mit GPU-Benchmarking und Kapazitätsplanung
- Wer Startup-Gründer ist oder über seine Laufbahn nachdenkt, sollte aktiver Herausforderungen suchen oder den Einstieg in ein großes Forschungslabor erwägen
- Im Rennen um AGI verfolgen drei Pferde – OpenAI, Anthropic und Google – jeweils unterschiedliche Ansätze; die Arbeit bei einem dieser Unternehmen erweitert den Horizont
- Die Zeit bei OpenAI bewertet der Autor als eine der besten Entscheidungen seines Lebens als Gründer und Engineer
2 Kommentare
https://de.news.hada.io/topic?id=21081 Dieser Beitrag ist mir in Erinnerung geblieben.
Hacker-News-Kommentare
Es ist nicht häufig, dass jemand nach dem Ausscheiden seine Arbeitserfahrung so positiv beschreibt; das liegt weniger daran, dass OpenAI besonders ist, sondern eher daran, dass viele Beiträge der Art „Warum ich die Firma verlassen habe“ in Wirklichkeit dazu neigen, die Gründe dafür, dass die Person nicht zur Organisation passte, der Organisation anzulasten. Hinter der Formulierung „unglaublich bottom-up“ in diesem Text kann auch stecken, dass es keine klare Roadmap gibt und manche die Orientierung verlieren, weil niemand ein klar abgegrenztes Projekt besitzt. Ebenso können „Handlungsorientierung“ und „sofortige Richtungswechsel“ ein chaotisches Umfeld und inkonsistente Führung durch das Management bedeuten. Und die Aussage „Bei OpenAI gibt es tatsächlich viele wohlmeinende Menschen“ trifft meist auf Unternehmen zu, die moralisch komplizierte Entscheidungen treffen: Alle halten sich selbst für gute Menschen und rechtfertigen ihr Handeln mit großen Zielen und einer höheren Sache.
Folgendes fand ich in diesem Text besonders eindrucksvoll:
Auffällig war auch die Aussage, dass der Entwicklungs-Marathon für Codex die härteste Arbeit der vergangenen zehn Jahre gewesen sei. Meist wurde bis 23 Uhr oder Mitternacht gearbeitet, um 5:30 Uhr das Baby versorgt und um 7 Uhr ging es wieder ins Büro. In einer Branche, in der große Projekte in wenigen Wochen oder Monaten fertig werden, frage ich mich, ob so ein Arbeitsstil für Mitarbeitende langfristig wirklich tragfähig ist.
Was mich wirklich interessiert hätte, ist, ob OpenAI oder andere AI-Labore intern tatsächlich aktiv LLMs als Grundpfeiler ihrer Abläufe einsetzen — für Code-Entwicklung, internes Customizing von Modellen, die Aufbereitung aktueller Informationen und ähnliche praktische Aufgaben — und ob sie dafür real Geld und echte Kapazitäten einsetzen. Schade, dass der Artikel dazu nichts sagt.
Ingenieuren das Gefühl zu geben, sie würden „Gott“ erschaffen, ist Marketing auf höchstem Niveau. Ich glaube zwar nicht, dass das stimmt, aber diese Idee ist fast immun gegen Kritik. Man kann jederzeit mit der Frage kontern: „Aber was, wenn es doch stimmt?“ Da der potenzielle Gewinn unendlich erscheint, lässt sich selbst eine winzige Wahrscheinlichkeit nicht ignorieren. Selbst bei 0,00001 % würde der Erwartungswert bei Multiplikation mit einer unendlichen Belohnung unendlich werden. Geniales Marketing.
Was ich am liebsten gewusst hätte, ist, wie stark und auf welche Weise LLMs innerhalb von OpenAI tatsächlich für den Produktbau eingesetzt werden.
Für ein Unternehmen, das so schnell gewachsen ist, überrascht mich der Mangel an Technical Writers bei OpenAI immer wieder. Im Text heißt es nur, die Dokumentation könne verbessert werden, aber verglichen mit dem Niveau der Dokumentation bei Anthropic scheint es bei OpenAI kaum andere Technical Writers zu geben. Wer gute Developer-Tools bauen will, braucht hervorragende Dokumentation und unbedingt ein Team, das sich speziell darum kümmert und sie weiterentwickelt.
In diesem Text steckte unglaublich viel interessantes und für mich völlig neues Material. Es lohnt sich wirklich, sich die Zeit dafür zu nehmen.
Zur Aussage des Autors, „Sicherheit werde ernster genommen, als man denkt“: Wenn man bedenkt, dass mehrere Leiter von Safety-Teams bei OpenAI gegangen sind oder entlassen wurden, das Superalignment-Projekt gescheitert ist und andere Mitarbeitende mangelnde Unterstützung bei Sicherheitsfragen erwähnt haben, wirkt diese Aussage realitätsfern oder absichtlich irreführend.
Die Aussage „Die meiste Forschung beginnt damit, dass ein Forscher von einem bestimmten Problem völlig eingenommen ist“ fand ich interessant. Wenn diese Diagnose stimmt, könnte das eine Achillesferse des Unternehmens sein.