3 Punkte von GN⁺ 2025-11-28 | 1 Kommentare | Auf WhatsApp teilen
  • Eine Graduiertenveranstaltung der Stanford University zu den Kernkonzepten und Anwendungen des Reinforcement Learning (RL), die sich auf die Prinzipien konzentriert, nach denen autonome Systeme selbstständig Entscheidungsfindung erlernen
  • Vermittelt, wie Probleme aus verschiedenen Bereichen wie Robotik, Spielen, Verbrauchermodellierung und Gesundheitswesen als RL-Probleme formuliert und gelöst werden können
  • Durch Vorlesungen, schriftliche Aufgaben und Coding-Aufgaben werden die Inhalte praxisorientiert vermittelt – von grundlegenden RL-Algorithmen bis hin zu Deep Reinforcement Learning (Deep RL)
  • Teilnehmende sollten im Voraus Python, lineare Algebra, Wahrscheinlichkeitsrechnung und Statistik sowie Grundlagen des Machine Learning beherrschen; Aufgaben werden über Gradescope eingereicht
  • Der systematische Lehrplan umfasst unter anderem den Zielkonflikt zwischen Exploration und Exploitation, Policy Search, Offline RL und AlphaGo-Fallstudien und ist damit wichtig für den Aufbau zentraler Kompetenzen in AI-Forschung und angewandter Entwicklung

Kursüberblick und Organisation

  • Betont die Notwendigkeit von Systemen, die autonom Entscheidungsfindung lernen, um Ziele der künstlichen Intelligenz zu erreichen
    • Reinforcement Learning ist ein leistungsfähiges Paradigma zur Umsetzung solcher Systeme und kann in vielen realen Anwendungen eingesetzt werden
  • Die Lehrveranstaltung findet dienstags und donnerstags live statt; Aufzeichnungen werden über Canvas bereitgestellt
  • Fragen und Antworten laufen über das Ed Forum; Gradescope verwaltet Aufgaben und Quizze
  • Emma Brunskill ist die verantwortliche Professorin, unterstützt von mehreren Teaching Assistants

Voraussetzungen

  • Python-Programmierkenntnisse sind erforderlich; alle Aufgaben werden in Python geschrieben
  • Kenntnisse in Analysis, linearer Algebra sowie Wahrscheinlichkeitsrechnung und Statistik auf Hochschulniveau sind notwendig
  • Verständnis von Grundlagen des Machine Learning (z. B. CS221, CS229) wird vorausgesetzt
    • Einschließlich der Definition von Kostenfunktionen, Optimierung per Gradientenabstieg und Konzepten der konvexen Optimierung

Lernziele

  • Die zentralen Merkmale definieren, die Reinforcement Learning von nicht-interaktivem Machine Learning unterscheiden
  • Gegebene Anwendungsprobleme als RL formalisieren und Zustandsraum, Aktionsraum und Belohnungsmodell entwerfen
  • Wichtige Algorithmen wie Policy Search, Q-learning und MDP-Planung implementieren
  • Bewertungskriterien wie regret, Sample Complexity, Rechenkomplexität und Konvergenz verstehen
  • Verschiedene Ansätze für das Problem Exploration vs. Exploitation vergleichen

Zusammenfassung des Vorlesungsplans

  • Woche 1: Einführung in Reinforcement Learning, Tabular-MDP-Planung
  • Woche 2: Policy Evaluation, Q-learning und Funktionsapproximation
  • Wochen 3–4: Policy Search (1–3), Offline RL und Imitation Learning
  • Woche 5: Midterm, DPO-Thema
  • Wochen 6–7: Vertiefung in Offline RL, Exploration (1–3)
  • Woche 8: Exploration (4), Gastvortrag, Abgabe des Projekt-Meilensteins
  • Woche 9: Monte Carlo Tree Search / AlphaGo, Quiz
  • Wochen 10–11: Gastvorträge, Poster-Session des Abschlussprojekts und Abgabe des Berichts

Lehrmaterialien und Referenzen

  • Es gibt kein offizielles Lehrbuch; die wichtigste Referenz ist Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
  • Weitere Materialien sind Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning sowie David Silvers RL-Vorlesungen

Bewertungsanteile

  • Aufgabe 1: 10 %, Aufgabe 2: 18 %, Aufgabe 3: 18 %
  • Midterm: 25 %, Quiz: 5 %, Projekt: 24 %
    • Proposal 1 %, Meilenstein 2 %, Poster 5 %, Paper 16 %
  • Bonus für Teilnahme an der Lehrveranstaltung: bis zu 0,5 %

Richtlinien zu Verspätungen und Abgaben

  • Insgesamt gibt es 5 late days
  • Pro Aufgabe können maximal 2 Tage genutzt werden; bei Überschreitung werden Punktabzüge angewendet
    • Bei Einreichung innerhalb von 24 Stunden nach der Frist sind maximal 50 % der Punkte möglich, danach 0 Punkte
  • Für Posterpräsentation und abschließendes Paper sind keine late days erlaubt

Prüfungen

  • Es gibt eine Midterm-Prüfung und ein Quiz, beide als Präsenzprüfungen auf dem Campus
  • Bei offiziellen Gründen sind Remote- oder Ersatzprüfungen möglich
  • Erlaubte Hilfsmittel: 1 handschriftliches Notizblatt (Midterm), 1 doppelseitig beschriebenes Blatt (Quiz)
  • Nicht erlaubt: Taschenrechner, Laptops, Mobiltelefone, Tablets usw.

Aufgaben und Einreichung

  • Alle Aufgaben werden auf der Assignments-Seite veröffentlicht
  • Für einige Aufgaben können Cloud-Computing-Ressourcen verwendet werden
  • Einreichungsrichtlinien sind auf einer eigenen Seite beschrieben

Akademische Integrität und Nutzung von AI-Tools

  • Bei schriftlichen Aufgaben ist die Diskussion von Ideen erlaubt, aber die Lösungen müssen eigenständig verfasst werden
  • Bei Coding-Aufgaben dürfen nur Ein- und Ausgaben geteilt werden, das Teilen von Code ist verboten
  • Software zur Ähnlichkeitsprüfung wird eingesetzt, um Plagiate zu erkennen
  • Die Nutzung von generativer AI (GPT-4, Gemini, Copilot usw.) ist auf dem Niveau menschlicher Zusammenarbeit erlaubt
    • Direkte Codegenerierung oder das Kopieren von Lösungen ist verboten
    • Die Nutzung muss offengelegt werden; die letztendliche Verantwortung liegt bei der jeweiligen Person
  • LLMs dürfen nicht als Mitautor:innen des Projekts angegeben werden

Studienunterstützung und Einsprüche gegen Bewertungen

  • Unterstützung bei studienbezogenen Einschränkungen kann über das Office of Accessible Education (OAE) beantragt werden
  • Anträge auf Neubewertung können innerhalb von 3 Tagen nach Veröffentlichung der Note über Gradescope eingereicht werden
  • Bei einer erneuten Prüfung kann die gesamte Aufgabe neu bewertet werden

Benotung und Belegform

  • Auch bei Belegung als Credit/No Credit gelten dieselben Bewertungskriterien
  • Bei C- oder besser (ca. 70 %) wird CR vergeben

Sonstiges

  • SCPD-Studierende können administrative Anfragen über eine spezielle E-Mail-Adresse stellen
  • Das Webdesign stammt von Andrej Karpathy

1 Kommentare

 
GN⁺ 2025-11-28
Hacker-News-Kommentare
  • Ich hatte gehofft, dass die Vorlesungsvideos veröffentlicht wurden, aber beim Nachsehen stellte sich heraus, dass sie nicht öffentlich sind.
    Während der Pandemie haben viele Einrichtungen ihre Materialien weltweit zugänglich gemacht, aber inzwischen geht der Trend dahin, nicht nur neue Vorlesungen, sondern auch ältere Videos wieder zu schließen.
    Selbst bei MIT OCW verschwinden Materialien, sobald es um fortgeschrittene Graduiertenkurse geht.
    Natürlich verstehe ich, dass Universitäten ihre Alumni priorisieren wollen, aber grundlegende Materialien wie Vorlesungsvideos öffentlich zu machen, verursacht in der Praxis fast keine Kosten.
    Solche Materialien scheinen der Welt einen großen Wert zu bringen.

    • Die Vorlesungsvideos von 2024 sind als YouTube-Playlist verfügbar.
    • Es gibt auch die Behauptung, dass neue Materialien bei einer Veröffentlichung leichter von anderen Einrichtungen plagiiert werden können.
      Einige Professoren möchten ihre Vorlesungsfolien oder Aufzeichnungen aus urheberrechtlichen Gründen nicht teilen.
      Aber diese Haltung schafft Exklusivität eher durch rechtliche Hürden als durch echten Ruf.
      Am Ende profitieren davon nur Studierende, die hohe Studiengebühren zahlen, Lehrkräfte, die sich nicht verändern wollen, und Hochschulverwaltungen.
  • Es gibt den Spruch: „RL ist die schlechteste Lernmethode, abgesehen von allen anderen.“
    Viele Wissenschaftler glauben, dass RL in zehn Jahren nicht mehr der Mainstream für das Training von State-of-the-Art-Modellen sein wird.
    Ich stimme dem zu und würde empfehlen, beim Besuch dieser Vorlesung auch über andere Paradigmen nachzudenken.
    So wie die Bildgenerierung mit diffusion model und GPT mit RLHF einen Sprung gemacht haben, wird auch RL nicht die letzte Stufe sein.
    Unsere Aufgabe ist es, eine bessere Methode zu finden.

    • Oft wird angenommen, dass sich Menschen nur für Bild- oder Textgenerierung interessieren, aber RL ist bei Steuerungsproblemen hervorragend.
      Wenn genügend Laufzeit zur Verfügung steht, garantiert es mathematisch eine optimale Lösung.
      Deshalb verwenden autonome Fahrzeuge RL und nicht GPT.
    • RL ist eigentlich weniger eine Lernmethode als vielmehr eine Art der Datensatzgenerierung.
    • Auch in der Werbebranche wird RL weiterhin aktiv eingesetzt.
      Wenn man Millionen bis Milliarden Besuche optimiert, ist das Hinzufügen eines contextual multi-armed bandit sehr wirksam, um Käufe zu fördern.
    • Ich frage mich, welches Paradigma sich für Probleme der kombinatorischen Optimierung oder für simulationsbasierte Umgebungen eignet.
    • Ich hatte RLHF früher als eine Strategie betrachtet, um als Student bessere Prüfungsergebnisse zu erzielen.
      In der Praxis habe ich jedoch erkannt, dass Out-of-Distribution-Generalization mit einfachem belohnungsbasiertem Lernen nicht möglich ist.
  • Ich hatte mich gefragt, ob die Videos öffentlich verfügbar sind; die Vorlesungen des Frühjahrssemesters gibt es als YouTube-Playlist.

  • Aus der Perspektive von jemandem, der nur traditionelles ML gelernt hat, ist es verwirrend, wie man RL auf allgemeine Probleme anwenden soll.
    Zum Beispiel wüsste ich nicht, wie man RL auf Biegen und Brechen auf binäre Klassifikation mit BCE loss oder auf die Vorhersage von Immobilienpreisen anwenden sollte.
    Ich habe kein Gefühl dafür, wie sich die Verlustfunktion anbinden lässt.

    • Drei Dinge sollte man berücksichtigen, wenn man entscheidet, ob man RL einsetzt: ① der Informationsgehalt des Verlusts pro Beispiel, ② ob sich das Modell anhand des Verlustsignals anpassen lässt, ③ die Komplexität des Merkmalsraums.
      Eindeutige Regressionsprobleme wie die Vorhersage von Immobilienpreisen lassen sich mit klassischen Methoden bereits gut lösen, RL ist dort unnötig.
      Dagegen eignen sich sequenzielle Entscheidungsprobleme wie Go für RL, weil das Belohnungssignal spärlich ist und die Verbesserung der Strategie nicht offensichtlich ist.
    • Ich persönlich würde RL nicht verwenden.
      RL ist in komplexen Situationen ohne Labels nützlich, aber selbst Probleme wie Schach lassen sich letztlich am besten in ein Problem des überwachten Lernens umwandeln.
    • RL ist eine Methode, um in einem Markov-Entscheidungsprozess (MDP) eine optimale Politik zu finden.
      Es eignet sich für sequenzielle Entscheidungsprobleme mit definierten Zustands- und Aktionsräumen, aber nicht für binäre Klassifikation oder Regression.
      RL ist stark bei Problemen, in denen man jetzt eine Entscheidung treffen muss, ohne die zukünftigen Ergebnisse zu kennen.
  • RL gilt oft als instabil und schwer zur Konvergenz zu bringen.
    Auch Forscher aus Stanford erkennen das an.
    Ich frage mich, ob es dafür eine Lösung gibt.

    • FlowRL ist eine mögliche Alternative.
      Es erhöht die Stabilität, indem es nicht nur ein einzelnes Maximum, sondern die gesamte Belohnungsverteilung lernt.
  • Wenn man zuvor Ilyas Podcast gehört hat, wirkt der Titel dieser Vorlesung besonders interessant.

    • Es wurde sogar gescherzt: „Kommt am Ende also doch der AI-Winter?“
    • Es gab auch die Frage, welcher Podcast genau gemeint ist.
  • Ich suche nach Buchempfehlungen zu RL.
    Deep Learning habe ich bereits ausreichend gelernt.
    Ich schaue mir gerade Suttons Reinforcement Learning, Kevin Patrick Murphys Reinforcement Learning, an overview und Sebastian Raschkas neues Buch an.

    • Algorithms for Decision Making von Kochenderfer und anderen behandelt ebenfalls RL-nahe Ansätze.
      Das kostenlose PDF gibt es unter algorithmsbook.com.