CS234: Reinforcement Learning Wintersemester 2025

(web.stanford.edu)

3 Punkte von GN⁺ 2025-11-28 | 1 Kommentare | Auf WhatsApp teilen

Eine Graduiertenveranstaltung der Stanford University zu den Kernkonzepten und Anwendungen des Reinforcement Learning (RL), die sich auf die Prinzipien konzentriert, nach denen autonome Systeme selbstständig Entscheidungsfindung erlernen
Vermittelt, wie Probleme aus verschiedenen Bereichen wie Robotik, Spielen, Verbrauchermodellierung und Gesundheitswesen als RL-Probleme formuliert und gelöst werden können
Durch Vorlesungen, schriftliche Aufgaben und Coding-Aufgaben werden die Inhalte praxisorientiert vermittelt – von grundlegenden RL-Algorithmen bis hin zu Deep Reinforcement Learning (Deep RL)
Teilnehmende sollten im Voraus Python, lineare Algebra, Wahrscheinlichkeitsrechnung und Statistik sowie Grundlagen des Machine Learning beherrschen; Aufgaben werden über Gradescope eingereicht
Der systematische Lehrplan umfasst unter anderem den Zielkonflikt zwischen Exploration und Exploitation, Policy Search, Offline RL und AlphaGo-Fallstudien und ist damit wichtig für den Aufbau zentraler Kompetenzen in AI-Forschung und angewandter Entwicklung

Kursüberblick und Organisation

Betont die Notwendigkeit von Systemen, die autonom Entscheidungsfindung lernen, um Ziele der künstlichen Intelligenz zu erreichen
- Reinforcement Learning ist ein leistungsfähiges Paradigma zur Umsetzung solcher Systeme und kann in vielen realen Anwendungen eingesetzt werden
Die Lehrveranstaltung findet dienstags und donnerstags live statt; Aufzeichnungen werden über Canvas bereitgestellt
Fragen und Antworten laufen über das Ed Forum; Gradescope verwaltet Aufgaben und Quizze
Emma Brunskill ist die verantwortliche Professorin, unterstützt von mehreren Teaching Assistants

Voraussetzungen

Python-Programmierkenntnisse sind erforderlich; alle Aufgaben werden in Python geschrieben
Kenntnisse in Analysis, linearer Algebra sowie Wahrscheinlichkeitsrechnung und Statistik auf Hochschulniveau sind notwendig
Verständnis von Grundlagen des Machine Learning (z. B. CS221, CS229) wird vorausgesetzt
- Einschließlich der Definition von Kostenfunktionen, Optimierung per Gradientenabstieg und Konzepten der konvexen Optimierung

Lernziele

Die zentralen Merkmale definieren, die Reinforcement Learning von nicht-interaktivem Machine Learning unterscheiden
Gegebene Anwendungsprobleme als RL formalisieren und Zustandsraum, Aktionsraum und Belohnungsmodell entwerfen
Wichtige Algorithmen wie Policy Search, Q-learning und MDP-Planung implementieren
Bewertungskriterien wie regret, Sample Complexity, Rechenkomplexität und Konvergenz verstehen
Verschiedene Ansätze für das Problem Exploration vs. Exploitation vergleichen

Zusammenfassung des Vorlesungsplans

Woche 1: Einführung in Reinforcement Learning, Tabular-MDP-Planung
Woche 2: Policy Evaluation, Q-learning und Funktionsapproximation
Wochen 3–4: Policy Search (1–3), Offline RL und Imitation Learning
Woche 5: Midterm, DPO-Thema
Wochen 6–7: Vertiefung in Offline RL, Exploration (1–3)
Woche 8: Exploration (4), Gastvortrag, Abgabe des Projekt-Meilensteins
Woche 9: Monte Carlo Tree Search / AlphaGo, Quiz
Wochen 10–11: Gastvorträge, Poster-Session des Abschlussprojekts und Abgabe des Berichts

Lehrmaterialien und Referenzen

Es gibt kein offizielles Lehrbuch; die wichtigste Referenz ist Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
Weitere Materialien sind Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning sowie David Silvers RL-Vorlesungen

Bewertungsanteile

Aufgabe 1: 10 %, Aufgabe 2: 18 %, Aufgabe 3: 18 %
Midterm: 25 %, Quiz: 5 %, Projekt: 24 %
- Proposal 1 %, Meilenstein 2 %, Poster 5 %, Paper 16 %
Bonus für Teilnahme an der Lehrveranstaltung: bis zu 0,5 %

Richtlinien zu Verspätungen und Abgaben

Insgesamt gibt es 5 late days
Pro Aufgabe können maximal 2 Tage genutzt werden; bei Überschreitung werden Punktabzüge angewendet
- Bei Einreichung innerhalb von 24 Stunden nach der Frist sind maximal 50 % der Punkte möglich, danach 0 Punkte
Für Posterpräsentation und abschließendes Paper sind keine late days erlaubt

Prüfungen

Es gibt eine Midterm-Prüfung und ein Quiz, beide als Präsenzprüfungen auf dem Campus
Bei offiziellen Gründen sind Remote- oder Ersatzprüfungen möglich
Erlaubte Hilfsmittel: 1 handschriftliches Notizblatt (Midterm), 1 doppelseitig beschriebenes Blatt (Quiz)
Nicht erlaubt: Taschenrechner, Laptops, Mobiltelefone, Tablets usw.

Aufgaben und Einreichung

Alle Aufgaben werden auf der Assignments-Seite veröffentlicht
Für einige Aufgaben können Cloud-Computing-Ressourcen verwendet werden
Einreichungsrichtlinien sind auf einer eigenen Seite beschrieben

Akademische Integrität und Nutzung von AI-Tools

Bei schriftlichen Aufgaben ist die Diskussion von Ideen erlaubt, aber die Lösungen müssen eigenständig verfasst werden
Bei Coding-Aufgaben dürfen nur Ein- und Ausgaben geteilt werden, das Teilen von Code ist verboten
Software zur Ähnlichkeitsprüfung wird eingesetzt, um Plagiate zu erkennen
Die Nutzung von generativer AI (GPT-4, Gemini, Copilot usw.) ist auf dem Niveau menschlicher Zusammenarbeit erlaubt
- Direkte Codegenerierung oder das Kopieren von Lösungen ist verboten
- Die Nutzung muss offengelegt werden; die letztendliche Verantwortung liegt bei der jeweiligen Person
LLMs dürfen nicht als Mitautor:innen des Projekts angegeben werden

Studienunterstützung und Einsprüche gegen Bewertungen

Unterstützung bei studienbezogenen Einschränkungen kann über das Office of Accessible Education (OAE) beantragt werden
Anträge auf Neubewertung können innerhalb von 3 Tagen nach Veröffentlichung der Note über Gradescope eingereicht werden
Bei einer erneuten Prüfung kann die gesamte Aufgabe neu bewertet werden

Benotung und Belegform

Auch bei Belegung als Credit/No Credit gelten dieselben Bewertungskriterien
Bei C- oder besser (ca. 70 %) wird CR vergeben

Sonstiges

SCPD-Studierende können administrative Anfragen über eine spezielle E-Mail-Adresse stellen
Das Webdesign stammt von Andrej Karpathy

1 Kommentare

GN⁺ 2025-11-28

Hacker-News-Kommentare

Ich hatte gehofft, dass die Vorlesungsvideos veröffentlicht wurden, aber beim Nachsehen stellte sich heraus, dass sie nicht öffentlich sind.
Während der Pandemie haben viele Einrichtungen ihre Materialien weltweit zugänglich gemacht, aber inzwischen geht der Trend dahin, nicht nur neue Vorlesungen, sondern auch ältere Videos wieder zu schließen.
Selbst bei MIT OCW verschwinden Materialien, sobald es um fortgeschrittene Graduiertenkurse geht.
Natürlich verstehe ich, dass Universitäten ihre Alumni priorisieren wollen, aber grundlegende Materialien wie Vorlesungsvideos öffentlich zu machen, verursacht in der Praxis fast keine Kosten.
Solche Materialien scheinen der Welt einen großen Wert zu bringen.
- Die Vorlesungsvideos von 2024 sind als YouTube-Playlist verfügbar.
- Es gibt auch die Behauptung, dass neue Materialien bei einer Veröffentlichung leichter von anderen Einrichtungen plagiiert werden können.
  Einige Professoren möchten ihre Vorlesungsfolien oder Aufzeichnungen aus urheberrechtlichen Gründen nicht teilen.
  Aber diese Haltung schafft Exklusivität eher durch rechtliche Hürden als durch echten Ruf.
  Am Ende profitieren davon nur Studierende, die hohe Studiengebühren zahlen, Lehrkräfte, die sich nicht verändern wollen, und Hochschulverwaltungen.
Es gibt den Spruch: „RL ist die schlechteste Lernmethode, abgesehen von allen anderen.“
Viele Wissenschaftler glauben, dass RL in zehn Jahren nicht mehr der Mainstream für das Training von State-of-the-Art-Modellen sein wird.
Ich stimme dem zu und würde empfehlen, beim Besuch dieser Vorlesung auch über andere Paradigmen nachzudenken.
So wie die Bildgenerierung mit diffusion model und GPT mit RLHF einen Sprung gemacht haben, wird auch RL nicht die letzte Stufe sein.
Unsere Aufgabe ist es, eine bessere Methode zu finden.
- Oft wird angenommen, dass sich Menschen nur für Bild- oder Textgenerierung interessieren, aber RL ist bei Steuerungsproblemen hervorragend.
  Wenn genügend Laufzeit zur Verfügung steht, garantiert es mathematisch eine optimale Lösung.
  Deshalb verwenden autonome Fahrzeuge RL und nicht GPT.
- RL ist eigentlich weniger eine Lernmethode als vielmehr eine Art der Datensatzgenerierung.
- Auch in der Werbebranche wird RL weiterhin aktiv eingesetzt.
  Wenn man Millionen bis Milliarden Besuche optimiert, ist das Hinzufügen eines contextual multi-armed bandit sehr wirksam, um Käufe zu fördern.
- Ich frage mich, welches Paradigma sich für Probleme der kombinatorischen Optimierung oder für simulationsbasierte Umgebungen eignet.
- Ich hatte RLHF früher als eine Strategie betrachtet, um als Student bessere Prüfungsergebnisse zu erzielen.
  In der Praxis habe ich jedoch erkannt, dass Out-of-Distribution-Generalization mit einfachem belohnungsbasiertem Lernen nicht möglich ist.
Ich hatte mich gefragt, ob die Videos öffentlich verfügbar sind; die Vorlesungen des Frühjahrssemesters gibt es als YouTube-Playlist.
Aus der Perspektive von jemandem, der nur traditionelles ML gelernt hat, ist es verwirrend, wie man RL auf allgemeine Probleme anwenden soll.
Zum Beispiel wüsste ich nicht, wie man RL auf Biegen und Brechen auf binäre Klassifikation mit BCE loss oder auf die Vorhersage von Immobilienpreisen anwenden sollte.
Ich habe kein Gefühl dafür, wie sich die Verlustfunktion anbinden lässt.
- Drei Dinge sollte man berücksichtigen, wenn man entscheidet, ob man RL einsetzt: ① der Informationsgehalt des Verlusts pro Beispiel, ② ob sich das Modell anhand des Verlustsignals anpassen lässt, ③ die Komplexität des Merkmalsraums.
  Eindeutige Regressionsprobleme wie die Vorhersage von Immobilienpreisen lassen sich mit klassischen Methoden bereits gut lösen, RL ist dort unnötig.
  Dagegen eignen sich sequenzielle Entscheidungsprobleme wie Go für RL, weil das Belohnungssignal spärlich ist und die Verbesserung der Strategie nicht offensichtlich ist.
- Ich persönlich würde RL nicht verwenden.
  RL ist in komplexen Situationen ohne Labels nützlich, aber selbst Probleme wie Schach lassen sich letztlich am besten in ein Problem des überwachten Lernens umwandeln.
- RL ist eine Methode, um in einem Markov-Entscheidungsprozess (MDP) eine optimale Politik zu finden.
  Es eignet sich für sequenzielle Entscheidungsprobleme mit definierten Zustands- und Aktionsräumen, aber nicht für binäre Klassifikation oder Regression.
  RL ist stark bei Problemen, in denen man jetzt eine Entscheidung treffen muss, ohne die zukünftigen Ergebnisse zu kennen.
RL gilt oft als instabil und schwer zur Konvergenz zu bringen.
Auch Forscher aus Stanford erkennen das an.
Ich frage mich, ob es dafür eine Lösung gibt.
- FlowRL ist eine mögliche Alternative.
  Es erhöht die Stabilität, indem es nicht nur ein einzelnes Maximum, sondern die gesamte Belohnungsverteilung lernt.
Wenn man zuvor Ilyas Podcast gehört hat, wirkt der Titel dieser Vorlesung besonders interessant.
- Es wurde sogar gescherzt: „Kommt am Ende also doch der AI-Winter?“
- Es gab auch die Frage, welcher Podcast genau gemeint ist.
Ich suche nach Buchempfehlungen zu RL.
Deep Learning habe ich bereits ausreichend gelernt.
Ich schaue mir gerade Suttons Reinforcement Learning, Kevin Patrick Murphys Reinforcement Learning, an overview und Sebastian Raschkas neues Buch an.
- Algorithms for Decision Making von Kochenderfer und anderen behandelt ebenfalls RL-nahe Ansätze.
  Das kostenlose PDF gibt es unter algorithmsbook.com.

CS234: Reinforcement Learning Wintersemester 2025

Kursüberblick und Organisation

Voraussetzungen

Lernziele

Zusammenfassung des Vorlesungsplans

Lehrmaterialien und Referenzen

Bewertungsanteile

Richtlinien zu Verspätungen und Abgaben

Prüfungen

Aufgaben und Einreichung

Akademische Integrität und Nutzung von AI-Tools

Studienunterstützung und Einsprüche gegen Bewertungen

Benotung und Belegform

Sonstiges

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare