11 Punkte von GN⁺ 4 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Sammlung praktischer Erfahrungen, die den gesamten Prozess der Jobsuche nach einem Research-Scientist-Posten nach einem Machine-Learning-PhD zusammenfasst
  • Basierend auf einem Fall, in dem von allen Unternehmen, bei denen die Interviews abgeschlossen wurden, ein Angebot kam – darunter DeepMind, Isomorphic Labs, Cohere, Meta und ein Stealth-Startup
  • Schrittweise Aufbereitung von Kriterien für Intervieweinladungen, technischer, emotionaler und logistischer Vorbereitung, Vergleich Startup vs. Big Tech bis hin zur Gehaltsverhandlung
  • Einschließlich konkreter Vorbereitungspunkte wie Steuer- und Strukturunterschiede zwischen RSU und Stock Options sowie direkter Implementierung von Transformer und Attention
  • Betont die Botschaft, dass Interviews im Kern stochastisch sind und das Ergebnis nicht den Wert einer Person als Forscherin oder Forscher bestimmt

Gesamte Interviewergebnisse und Hintergrund

  • Eigene Erfahrung bei der Jobsuche als Research Scientist nach dem ML-PhD dokumentiert; zu Beginn gab es kaum hilfreiche Materialien dazu
  • Von allen Unternehmen, bei denen die Interviews abgeschlossen wurden, ein Angebot erhalten — DeepMind (angenommen), Isomorphic Labs, Cohere, Meta und ein Stealth-Startup eingeschlossen
    • Bei Anthropic, Mistral und TeslaAI kam die Kontaktaufnahme zu spät, daher wurde der Prozess nicht abgeschlossen
    • ReflectionAI war die einzige Absage für eine RS-Rolle; stattdessen wurde ein Wechsel in die Engineering-Schiene vorgeschlagen
  • Von SpaceXAI, Waymo und Wayve gab es keine Intervieweinladung
    • Bei Waymo wurde während der gesamten Promotion alle sechs Monate eine Bewerbung eingereicht, aber nie eine Antwort erhalten

Wie man Interviews bekommt

  • Die wichtigsten Hebel für Intervieweinladungen sind mehr Paper, trendige Themen und bessere Praktika
    • Während der Promotion 4 Erstautor- oder Co-Erstautor-Paper auf ICLR / NeurIPS / ICML veröffentlicht (LLM, RL, Meta-Learning, Evolution Strategies)
    • Zusätzlich ein Praktikum bei Apple und Berufserfahrung als Software Engineer bei Meta
  • Grobe Richtlinie: Mit mindestens 3 Erstautor-Papern plus mindestens einem Praktikum oder Industrieerfahrung sind bei Top-Labs regelmäßig Callbacks realistisch
  • Wenn bereits Interviews hereinkommen, helfen zusätzliche Paper nicht mehr → dann sollte man sich auf Interviewvorbereitung statt auf Forschung konzentrieren; man wird sich nie vollständig bereit fühlen, also sollte man jetzt anfangen

Cover Letter, Empfehlungen, Cold Emails, LinkedIn/X

  • LinkedIn / X: Viele Unternehmen veröffentlichen dort Stellenanzeigen; bei Praktika ist das manchmal sogar der einzige Bewerbungsweg
    • Das mit der Anzeige verknüpfte Google-Formular muss ausgefüllt werden, damit die Bewerbung tatsächlich zählt
  • Referrals (Empfehlungen): hilfreich, aber nicht zwingend notwendig
    • Bei DeepMind kamen Intervieweinladungen sowohl für Stellen mit Empfehlung als auch ohne
  • Cold Emails: Direkte Mails an Recruiter oder Teammitglieder werden oft positiv aufgenommen
    • Man sollte nicht einfach nur den CV wiederholen, sondern erklären, warum man zum Team passt und was genau daran interessiert
  • Cover Letters: Werden selten verlangt, aber wenn doch, sollten sie ordentlich geschrieben sein
    • Claude / Gemini / ChatGPT sollten nicht den gesamten Text für einen schreiben; sinnvoll ist eher, den eigenen Entwurf damit zu überarbeiten

Startup vs. Big Tech

  • Startups sind schwerer zu finden, weil es keinen zentralen Ort für die Suche gibt → Empfehlungen über Kolleginnen, Freunde und frühere Kolleginnen funktionieren am besten, und die Konkurrenz ist entsprechend oft geringer
  • Die Interviewprozesse bei Startups variieren stark, während Big Tech vergleichsweise vorhersehbare Strukturen hat
    • Wenn der Prozess zu einfach wirkt, kann das ein Signal für die tatsächliche Komplexität der Arbeit sein
  • Die Art der Arbeit ist in beide Richtungen offen — im passenden Startup kann Forschung interessanter und wirkungsvoller sein, gleichzeitig sind aber mehr Druck, mehr Infrastrukturarbeit und häufigere Wechsel der Forschungsrichtung möglich
    • Im Interview sollte man fragen, wer über Forschungsprioritäten entscheidet, wie monetarisiert werden soll und wer die Wettbewerber sind
  • Wachstumsmöglichkeiten: Startups bieten schnelles Wachstum, mehr Verantwortung und die Chance, die Arbeitsrichtung mitzugestalten; in Big Tech ist man eher eine Person unter vielen
  • Bekanntheit im CV: OpenAI oder Anthropic werden sofort erkannt, ein unbekanntes Stealth-Startup muss dagegen erklärt werden
  • Jobsicherheit: Auch Big Tech hatte wiederholt große Entlassungswellen; keine der beiden Seiten ist zu 100 % sicher

Vergütung: RSU vs. Stock Options (UK-Perspektive)

  • RSU (typisch bei Big Tech): Echte Aktien werden gemäß Vesting-Plan zugeteilt; beim Vesting wird meist etwa die Hälfte sofort verkauft, um die Einkommensteuer zu decken — RSUs werden als Einkommen besteuert
  • Stock Options (typisch bei Startups): Man erhält keine Aktien, sondern das Recht, diese zu einem festen Preis X zu kaufen
    • Wenn der Marktpreis Y > X ist, kann man zu X kaufen und zu Y verkaufen und so den Gewinn realisieren; wenn Y < X ist, sind die Optionen wertlos
  • Stock Options verfallen oft 90 Tage nach dem Ausscheiden; wenn das Unternehmen nicht börsennotiert ist, kann man selbst nach dem Kauf oft nicht verkaufen
    • Im Vereinigten Königreich fällt beim Ausüben der Optionen Einkommensteuer auf die Differenz Y−X an, obwohl man zu diesem Zeitpunkt noch keinen einzigen Penny erhalten hat
    • Wer bei einem privaten Unternehmen nach 2 Jahren kündigt und ausübt, muss vor jedem tatsächlichen Erlös sowohl den Kaufpreis (X × Anzahl Optionen) als auch Einkommensteuer auf (Y−X) × Anzahl Optionen × Steuersatz tragen
  • Die meisten bieten eine cashless exercise an, und viele führen Rückkäufe eigener Anteile (liquidity event) durch
    • Allerdings wird der Anteil bei jeder Finanzierungsrunde verwässert, auf zusätzliche Gewinne fallen etwa 20 % Kapitalertragsteuer an, und der Wert eines liquidity event liegt meist unter der offiziellen Unternehmensbewertung
  • Kurzfassung: Wenn ein Recruiter eine Gesamtvergütung inklusive Startup-Anteilen nennt, sollte man höflich lächeln und den Wert mit deutlichem Abschlag betrachten

Interviewstruktur

  • Die meisten Unternehmen folgen einer ähnlichen Struktur, gewichten die einzelnen Schritte aber unterschiedlich
  • Recruiter screen: Meist ein wenig belastendes Gespräch, gute Gelegenheit zu zeigen, wie gut die eigenen Fähigkeiten zur Rolle passen und wie klar man die eigenen Paper erklären kann
  • Technical interviews: Machen den Großteil des Prozesses aus; Vorbereitung ist hier am wichtigsten; je nach Unternehmen 3 bis 8 Runden
    • Coding: im LeetCode-Stil, meist Medium oder Hard
    • ML coding/debugging: Attention implementieren, backward pass schreiben, Bugs in Trainingsschleifen finden
    • ML knowledge: Grundlagen, Theorie, Applied ML, System Design
  • Behavioural interviews: Unterteilt in klassische Verhaltensfragen und forschungsbezogene Fragen (Interessen, Zukunft des Feldes); lockerer als technische Interviews, aber man sollte sie nicht unterschätzen

Technische Vorbereitung

  • Der wichtigste Teil überhaupt, nicht überspringen — selbst starke Forschende sind schon an mangelnder Vorbereitung gescheitert; täglich mit ML zu arbeiten ist etwas anderes, als Attention aus dem Stand zu implementieren; man sollte mindestens einen Monat für regelmäßiges Lernen einplanen
  • Meta-Strategie: Allgemeine Vorbereitung minimieren und gezielt auf das jeweils nächste Interview und das jeweilige Unternehmen hin lernen, damit das Material im Kopf frisch bleibt
  • In RS-/Engineer-Interviews kann praktisch alles drankommen: von Grundlagen wie Overfitting über LeetCode und Transformer-Implementierung bis hin zu modernen Architekturen wie Griffin, TransformerXL und S4

Flashcards

  • Nützlich für ML-Grundlagen, Applied ML und Forschungsdiskussionen; physische Karteikarten waren wirksamer als Anki
  • Das Schreiben der Karten ist bereits die halbe Lernarbeit; keine fremden Decks herunterladen
  • Beim Wiederholen sollte man sich selbst Fragen stellen und auf tiefes Verständnis zielen; viele Fragen aus dem eigenen Lernprozess tauchten später tatsächlich im Interview auf

LLM-Mock-Interviews (Claude / Gemini)

  • Vor jedem Interview wurden Stellenbeschreibung, Interviewbeschreibung und Unternehmensinfo in ein LLM (meist Claude) eingefügt und um ein Probeinterview gebeten; Überschneidungen zwischen Übungsfragen und echten Fragen kamen häufig vor
  • Wenn der Schwierigkeitsgrad nicht passte, half ein neuer Chat mit genauerer Angabe des eigenen Niveaus und Hintergrunds
  • Für das Lernen war Claude am besten und auch beim Feedback fairer; Gemini neigte eher dazu, zu viel zu loben

LeetCode / NeetCode

  • Mindestens Blind 75, optional zusätzlich NeetCode 150, mit Fokus auf Medium
    • Ziel ist jeweils die optimale Lösung (eine O(N²)-Lösung für TwoSum zählt also nicht); in Hard-Probleme sollte man nicht zu viel Zeit investieren
  • Grundmuster wie DFS, BFS, Graphs, Backtracking, DP und Binary Search schnell implementieren; Ziel: unter 20 Minuten pro Medium
    • Wenn man länger als 15 Minuten festhängt, Lösung anschauen, markieren und weitermachen
  • Breite ist wichtiger als Tiefe, insgesamt etwa 150 Medium-Probleme lösen

Books

  • Designing Machine Learning Systems (Chip Huyen): Deckt viele Fragen zu Grundlagen und Applied ML ab
  • The JAX Scaling Book: Wurde erst nach den Interviews entdeckt, ist aber hervorragend; wäre vorher sehr aktiv genutzt worden
  • Reinforcement Learning (Sutton & Barto): Nur für RL-Einsteiger empfohlen; für Leute, die bereits in dem Bereich arbeiten, eher zu viel

Courses

  • Lineare Algebra: YouTube-Vorlesung von Gilbert Strang, auf 2× Geschwindigkeit an einem Tag durchzuarbeiten
  • Diffusion / Flow Matching: Die Vorlesungen von MIT und Stanford sind beide sehr gut, aber mathematiklastig; wer nicht selbst dazu forscht, sollte sich auf Grundintuition und Kernelemente wie diffusion SDE und flow matching ODE konzentrieren

ML Coding und Debugging

  • Der Bereich mit den wenigsten guten Materialien und dem größten Nutzen realer Erfahrung; Debugging-Interviews waren schwer zu üben, weil LLMs keine überzeugenden fehlerhaften Codebeispiele zuverlässig erzeugen konnten
    • Am besten hilft das Review des eigenen Codes oder des Codes von Kolleginnen; DeepML und Tensor Puzzles waren ebenfalls nützlich
  • Ziel-Baseline
    • einen Transformer end-to-end implementieren
    • causal, cross und self attention implementieren
    • flash attention implementieren
    • den attention backward pass implementieren
    • MLP forward / backward pass implementieren
    • eine SGD-Trainingsschleife in PyTorch oder JAX implementieren
  • Wer diese Punkte unter Zeitdruck selbst implementieren kann, ist in gutem Zustand

Emotionale Vorbereitung

  • Wenn man emotional stabil ist, sollte man diesen Abschnitt überspringen, damit keine unnötige Angst ausgelöst wird
  • Das größte Problem war der Schlaf — vor Interviews war Einschlafen schwierig, und bei 10 Interviews pro Woche wurde das ernst; auch Essen fiel schwer, was Übelkeit verursachte
    • Empfohlen werden regelmäßige Bewegung, eine konsistente Abendroutine und das Vermeiden sozialer Isolation
    • Ein Lauf vor dem Interview half, nervöse Energie abzubauen und den Kopf zurückzusetzen
  • Große Stabilität kam durch eine feste Pre-Interview-Routine — frische Blumen im Hintergrund, Make-up oder Skincare, immer dasselbe beruhigende Video
  • Ab einem gewissen Punkt behinderte Angst stärker als mangelnde Vorbereitung, und im Interview wurde der Kopf manchmal völlig leer
    • Es hilft, sich vor dem Start mit den eigenen Triggern, dem Verhältnis zum Scheitern und der Grundlage des eigenen Selbstwerts auseinanderzusetzen
  • Kernbotschaft: Der eigene Wert als Mensch wird nicht durch diese Interviews bestimmt; der Prozess ist im Kern stochastisch, man kann selbst Bekanntes falsch machen, und das ist in Ordnung
  • Hilfreiche Bücher: The Now Habit, The Gifts of Imperfection, Mindset, The Tyranny of Merit

Logistische Vorbereitung

  • Nur ein Interview pro Tag: Interviews sind auslaugend, und in der dritten Runde am selben Tag sinkt die Leistung naturgemäß; nach einem Vormittagsinterview kann der Rest des Tages für die nächste Vorbereitung genutzt werden
  • Mit weniger interessanten Unternehmen anfangen: Kleine Startups oder unbeliebte Standorte eignen sich, um Prozessgefühl, Selbstvertrauen und Gehaltsniveau vorab zu kalibrieren
  • Timing beachten: Unternehmen sind unterschiedlich schnell; ideal ist es, Angebote ungefähr zur gleichen Zeit zu erhalten, um echte Verhandlungsmacht zu haben
  • Allen Unternehmen mitteilen, dass andere Prozesse parallel laufen: Das macht Zeitpläne klarer, beschleunigt Abläufe und lässt einen als ernsthaftere Kandidatin oder ernsthafteren Kandidaten erscheinen

Verhandlung

  • Entgegen der üblichen Empfehlung, konkurrierende Angebote nicht zu offenbaren, verlangten mehrere Unternehmen vor einer Erhöhung explizit Nachweise für andere Angebote; eines fragte sogar nach der Echtheit eines Screenshots
  • Unternehmen können die Zahlen stark bewegen, wenn sie jemanden wirklich wollen; fragen lohnt sich immer, die meisten waren offen für Verhandlungen
  • Fristen reichen von 1–2 Wochen bis zu einem vagen „angemessenen Zeitraum“; Verlängerungen waren meist schwer durchzubekommen
  • Recruiter lesen die Präferenzen von Kandidatinnen sehr gut; selbst kleine Signale wie wie oft ein Unternehmen erwähnt wird oder der Tonfall werden registriert
  • Unternehmen haben historische Daten darüber, wie sich Kandidatinnen entscheiden → nur Angebote von direkten Wettbewerbern auf gleichem Niveau (z. B. OpenAI) haben wirklich Gewicht; unrealistische Vergleiche ziehen nicht

Entscheidungsprozess

  • Anfangs war die Versuchung groß, aus Angst ein frühes Angebot anzunehmen, aber dem eigenen Gefühl zu vertrauen führte letztlich zu besseren Optionen
  • Kriterien für die Wahl eines Angebots sind individuell verschieden — Standort, Vergütung, Renommee, Art der Arbeit usw.; je mehr man über Team, Kultur und Bezahlung erfährt, desto stärker können sich Prioritäten verschieben
  • Es wurde mit fast allen Personen auf beiden Seiten gesprochen, doch praktisch alle sagten, sie würden ihr eigenes Unternehmen wählen, was wenig half → am nützlichsten waren letztlich Gespräche mit Menschen, die einen selbst gut kennen

Was man rückblickend anders machen würde

  • Ein Spreadsheet führen: Alles im Kopf zu behalten hat Grenzen; eine Übersicht über Unternehmen, Status, Fristen und Kontakte hätte verhindert, dass interessante Bewerbungen vergessen werden
  • Nicht nur technisch, sondern auch emotional vorbereiten: Interviews können sich wie ein finales Urteil über die eigenen Fähigkeiten als Forscherin und den Wert des PhD anfühlen, aber das ist eine irrationale Rahmung; Reflexion oder Beratung vorab hätte geholfen
  • Bei Unternehmen ohne Rückmeldung proaktiver sein: Nicht nur auf die Bewerbung verlassen, sondern per Cold Email direkt Interesse signalisieren und sichtbar werden

Liste technischer Themen

  • Vor Interviewbeginn erstellte Liste der Lernthemen; aufgrund des eigenen Hintergrunds kamen besonders viele Fragen zu LLM und RL, und fast jedes vorbereitete Thema tauchte mindestens einmal auf
  • Reinforcement Learning: Q-Learning / TD Learning, Bellman Equations, PPO, GRPO, GAE, DPO, Policy Gradient Theorem, On/Off-Policy, MuZero, Dreamer, AlphaGo, Soft Actor-Critic, MDP usw.
  • LLMs: Flash Attention, LoRA, TransformerXL, Griffin, Perceiver, Scaling Laws, Mixture of Experts, RoPE, S4, Tokenisation, RLHF, Causal/Cross Attention usw.
  • Generative Modelling: GANs, VAE und ELBO, Score Function, Diffusion Forward/Reverse Process (DDIM/DDPM), Diffusion SDE, Flow Matching ODE, Classifier Free Guidance
  • Applied ML: Tensor Parallelism, FSDP, DDP, Pipeline Parallelism, Mixed precision training, Gradient checkpointing/accumulation/clipping, JAX, PyTorch, TensorFlow usw.
  • General ML: Curse of dimensionality, CNN, RNN/LSTM, MLE vs MAP, Bias-Variance Tradeoff, Backprop, BatchNorm/LayerNorm/RMSNorm, Adam/AdamW, KL Divergence, Precision/Recall/F1/AUC-ROC usw.
  • Lineare Algebra: Positive Semi-Definite, Jacobian, Eigenvectors/Eigenvalues, Hessian, Null/Image space, Rank/Span, Determinant usw.

Noch keine Kommentare.

Noch keine Kommentare.