Starker Anstieg bei Durchfallnoten in Berkeley-CS-Kursen durch AI-Nutzung und nachlassende Mathematikkenntnisse
(dailycal.org)- Die Durchfallquote in Berkeley-CS-Kursen lag im Frühjahr 2026 bei 35,3 % in CS 10 und 10,6 % in CS 61A und damit deutlich höher als in früheren Semestern; das weicht von den EECS-Richtlinien mit 7 % D- und F-Noten in Einführungskursen sowie einer durchschnittlichen GPA von 2,8 bis 3,3 ab
- Dan Garcia sieht den starken Anstieg akademischen Fehlverhaltens durch die Nutzung von LLMs wie Claude, ChatGPT und Google Gemini als „primary driver“ der ungewöhnlich hohen Durchfallquoten; in CS 10 wurden fast 30 Personen bei Betrug in einer take-home exam erwischt
- Beide Kurse wurden anhand veröffentlichter Punkteschwellen ohne Notenkurve bewertet, sodass die Noten der Studierenden nicht von den Leistungen ihrer Mitstudierenden abhingen; Garcia hält Notenkurven für eine Verschleierung des Problems
- Auch Gireeja Ranades EECS 127 verzeichnete mit einer F-Quote von 16,8 % Probleme durch unzureichende mathematische Vorbereitung und Personalmangel; das bisherige Abschlussprojekt entfiel wegen fehlender Tutor:innen, zudem nahm die Beteiligung an den Sprechstunden ab
- Die Berkeley-CS- und EECS-Lehre im AI-Zeitalter wird derzeit neu überdacht, um Studierenden stärker beizubringen, schwierige Probleme und Verwirrung auszuhalten und kritisches sowie analytisches Denken zu entwickeln, ergänzt durch zusätzliche Unterstützungsangebote
Sprunghafter Anstieg der Durchfallquoten und Abweichung von Notenrichtlinien
- Laut Berkeleytime erhielten im Frühjahr 2026 35,3 % der Studierenden in CS 10 und 10,6 % in CS 61A eine F
- Im Frühjahr 2025 und Frühjahr 2024 lag die F-Quote in beiden Kursen jeweils unter 10 %
- Die Notenrichtlinien des EECS-Fachbereichs sehen für Einführungskurse wie CS 10 und CS 61A einen Anteil von 7 % an D- und F-Noten vor
- Der typische GPA-Bereich für Einführungskurse liegt laut Richtlinie bei 2,8 bis 3,3, doch der Notendurchschnitt beider Kurse im Frühjahr 2026 entsprach mit C+ einer GPA von 2,3
Abhängigkeit von LLMs und Probleme mit akademischem Fehlverhalten
- Dan Garcia unterrichtete im Frühjahr 2026 sowohl CS 10 „The Beauty and Joy of Computing“ als auch CS 61A „The Structure and Interpretation of Computer Programs“
- Garcia sieht den Anstieg akademischen Fehlverhaltens durch die Nutzung großer Sprachmodelle wie Claude, ChatGPT und Google Gemini als „primary driver“ der ungewöhnlich hohen Durchfallquoten
- Ein Teil der Durchfallnoten entstand durch aufgedeckten Betrug und die Weitergabe an Disziplinarverfahren; in anderen Fällen seien Studierende nach übermäßiger Abhängigkeit von LLMs in Prüfungen unzureichend vorbereitet gewesen
- Im Frühjahr 2026 wurden in CS 10 fast 30 Personen bei Betrug in einer take-home exam erwischt
Benotung ohne Notenkurve
- Garcias beide Kurse wurden nicht mit einer Notenkurve, sondern anhand von Punkteschwellen für jede letter grade bewertet
- In diesem System hängt die Note eines Studierenden nicht von den Leistungen der Mitstudierenden ab
- Garcia bevorzugt ein Modell, bei dem die Kriterien für jede letter grade offengelegt werden und Studierende viele Chancen erhalten, diese Schwellen zu erreichen
- Garcia lehnt Modelle, bei denen wie in Harvard nur ein Teil der Studierenden ein A erhalten kann, entschieden ab und sieht in der Notenkurve eine Verschleierung der eigentlichen Probleme
Mathematische Vorbereitung und Schwierigkeiten in EECS 127
- Garcia sieht neben der Überabhängigkeit von AI auch viele Studierende als mathematisch unzureichend vorbereitet; Gireeja Ranade teilt diese Sorge
- Ranades EECS 127 „Optimization Models in Engineering“ verzeichnete im Frühjahr 2026 eine F-Quote von 16,8 % und lag damit weit über den 5 %, die der EECS-Fachbereich für Kurse höherer Stufe als typischen D-/F-Anteil angibt
- Von den Studierenden in EECS 127 wurde erwartet, dass sie lineare Algebra, Vektoranalysis und mathematische Beweise bereits absolviert hatten, doch Ranade stellte in den Sprechstunden fest, dass viele Schwierigkeiten mit linearer Algebra hatten
- Eine Person berichtete Ranade, dass in einem an der UC Berkeley besuchten Kurs in linearer Algebra für Hausaufgaben und Prüfungen eine „open-internet, open-AI policy“ galt
- Garcia und Ranade gehören zu den mehr als 1.300 UC-Lehrenden, die eine Petition zur Wiedereinführung standardisierter ACT- und SAT-Testergebnisse für die STEM-Zulassung im UC-System unterzeichnet haben
Personalmangel und sinkende Beteiligung der Studierenden
- EECS 127 hatte früher ein Abschlussprojekt, das von Teams aus Lehrenden und Tutor:innen betreut wurde; Ranade zufolge erzielten die meisten Studierenden in diesem Teil hohe Punktzahlen
- 2026 nahm Ranade dieses Abschlussprojekt wegen Personalmangels aus dem Kurs
- Laut einem X-Post von EECS-Dekan Jelani Nelson musste der Campus wegen der hohen Stundenlöhne für EECS-Tutor:innen sowohl die Zahl der eingeschriebenen CS-Undergraduates als auch die Zahl der studentischen Hilfskräfte reduzieren
- Ranades Sprechstunden waren früher überfüllt, doch in diesem Semester blieb die Beteiligung trotz wiederholter Aufforderungen an die Studierenden sehr niedrig
- Auch Garcia erlebte in den vergangenen beiden Semestern ähnlich geringe Teilnahme an den Sprechstunden und hatte erstmals Sprechstunden, zu denen niemand erschien
Neugestaltung der Lehre und Lernhaltung
- Garcia will künftig am ersten Kurstag erläutern, was im Frühjahr 2026 geschehen ist, und Wege finden, Studierende mit zusätzlichem Unterstützungsbedarf zu identifizieren
- Ranade ist der Ansicht, dass Lehrende im AI-Zeitalter den Studierenden „mehr, nicht weniger“ beibringen müssen
- Ranade möchte, dass Studierende das kritische und analytische Denken entwickeln, das nötig ist, um in einer wettbewerbsintensiven Welt Führung zu übernehmen
- Beide Lehrenden sind der Meinung, dass Studierende sich stärker daran gewöhnen müssen, mit schwierigen Problemen umzugehen
- Garcia zitierte die Formulierung eines Kollegen, „Confusion is the sweat of learning“, und ist der Ansicht, dass viele Studierende nicht genug von diesem „Schweiß“ aufbringen
1 Kommentare
Hacker-News-Kommentare
Wenn es LLMs gegeben hätte, als ich Student war, hätte ich sie wohl benutzt, um Hausaufgaben „schnell fertigzubekommen“, und dann alle Prüfungen verhauen, daher kann ich mich bis zu einem gewissen Grad in heutige Studierende hineinversetzen.
Heute arbeite ich meist mit promovierten Leuten zusammen, aber selbst bei Menschen, die immer zur Spitzengruppe gehörten, sieht man, wie die Denkfähigkeit schnell nachlässt. Wenn das LLM nicht 90 % übernimmt, gibt es inzwischen viele, die weder brainstormen noch programmieren noch tief nachdenken oder schreiben können, und selbst die für originelles Denken nötigen 30 Minuten stilles Allein-Nachdenken fallen schwer.
Erwachsene haben keine Prüfungen, und weil dank LLMs die Produktivität erhalten bleibt, lässt sich kognitiver Abbau wohl nur schwer messen, aber ich glaube, er passiert bereits überall um uns herum. Ich wollte das nicht wahrhaben, aber inzwischen ist es zu eindeutig, um es weiter zu ignorieren.
Einfache Arithmetik und Prozentrechnen, die ich früher im Kopf schnell konnte, habe ich an Taschenrechner und Tabellenkalkulation ausgelagert, und Allgemeinwissen überlasse ich dem Internet-RAM in meiner Tasche. Dieses Gefühl von „Ach, das wusste ich früher mal, ich muss es nachschlagen“ ist mir vertraut. Vielleicht habe ich meinen persönlichen Tiefpunkt an Verdummung schon vor den LLMs erreicht.
Was sich heute allerdings wie eine enorme mentale Last anfühlt, ist der Kommunikationszustand. E-Mail, Voicemail, Chats, Online, SMS, privat, beruflich, Zuhause, Kinder, Familie, Freunde, Messages, Messenger, WhatsApp — man muss gleichzeitig unzählige Gespräche und Threads am Laufen halten. Und trotzdem bin ich deutlich weniger vernetzt als die Leute um mich herum. Ich habe die Kapazität dafür nicht und deshalb die meisten Nachrichten und den gesamten Sport gestrichen.
Mein Gehirn wurde vor dem Internet geprägt, und es fühlt sich an, als stoße der Übergang von analog zu digital an seine Grenzen. Zumindest fühlt es sich wie eine Umwandlung mit sehr hohen Verlusten an.
In meinem neuen Job lerne ich gerade eine neue Codebasis, und KI ist wirklich ein zweischneidiges Schwert. Einerseits ist sie extrem nützlich, wenn man Fragen zur Codebasis stellt, aber wenn man nicht aufpasst und schon Änderungen anwenden lässt, bevor man überhaupt recherchiert hat, lernt man die Codebasis überhaupt nicht richtig kennen. Um das Verständnis zu bewahren, muss man tatsächlich selbst neuen Code schreiben und die dafür nötigen mentalen Muskeln benutzen.
Gleichzeitig zeigt diese große Codebasis auch die Grenzen von KI. Wenn man ohne Verständnis versucht, Features nach Gefühl durchzudrücken, produziert man zwangsläufig viele Probleme. Selbst bei gezielten Bugfixes gibt es viele unbeabsichtigte Folgen, die das LLM nicht sieht. Es ist keine schlechte Codebasis, aber sie hat eine Größe, mit der selbst Frontier-Modelle zu kämpfen haben. Deshalb halte ich die Behauptung „Das KI-Problem lösen wir einfach mit mehr KI, also muss man die Codebasis nicht verstehen“ derzeit nicht für haltbar.
Irgendetwas Radikales ist nötig. Im Mathematikunterricht der Highschool gab es immer noch viele Einschränkungen wie „keine Taschenrechner“, und ich mochte das nicht, weil ich fand, dass lange Arithmetik dem Lernen im Weg steht. Daher kann ich verstehen, dass Studierende sich gegen Unterricht nur mit Papier sträuben, aber ich weiß auch nicht, was man überhaupt lernen kann, wenn direkt neben einem eine hochwertige Hausaufgabenmaschine sitzt.
Man sollte Studierende die KI-Tools nutzen lassen, die sie wollen, ihnen aber zeigen, wie man sie professionell einsetzt, und die Fähigkeiten und Kenntnisse, die sie wirklich erwerben sollen, früh und häufig offline und in Präsenz prüfen. Und bei Betrug sollte man meiner Meinung nach nicht einfach ein F geben, sondern suspendieren.
Vor ein paar Jahren habe ich über eine Highschool-Lehrkraft gelesen, die Vorlesungen auf YouTube stellte, damit die Schülerinnen und Schüler sie selbst ansehen konnten, und die Unterrichtszeit dann für Interaktion, Fragen und Tests nutzte.
Edit: Claude war schneller als die Suche. Es ging um zwei Chemielehrer an einer Highschool im Jahr 2007, und es war das Flipped Classroom-Modell https://fltmag.com/the-flipped-classroom/
Von „kognitivem Abbau“ würde ich noch nicht sprechen, aber ich merke deutlich, dass ich fauler geworden bin. Dinge, die ganz am Anfang meiner Programmierzeit zum Alltag gehörten, fühlen sich jetzt schwerfällig an.
Anders als die Überschrift des Artikels andeutet, steckt der wahre Grund wahrscheinlich in einem einzigen Absatz des Artikels: „Garcia und Ranade unterzeichneten zusammen mit mehr als 1.300 UC-Fakultätsmitgliedern eine Petition, die die Wiedereinführung standardisierter ACT- und SAT-Testergebnisse bei STEM-Zulassungen im UC-System fordert. Die Petition und der offene Brief schildern ähnliche Sorgen über die mathematische Vorbereitung der Studierenden im Detail.“
Vor und nach COVID haben viele Spitzenuniversitäten aus Gründen der Chancengleichheit mit der Abschaffung von Zulassungstests experimentiert, aber das ist fast überall gescheitert, und viele Hochschulen rudern bereits zurück. Yale erklärte dazu: „In Studien vor und nach der Pandemie waren Testergebnisse unter allen Bestandteilen der Bewerbung der mit Abstand stärkste Einzelindikator für spätere Studienleistungen in Yale; das galt auch nach Kontrolle von Familieneinkommen und demografischen Variablen und nicht nur für ACT/SAT, sondern auch für fachbezogene Prüfungen wie AP und IB.“ https://archive.is/8zxfo
Dieser Link ist ein Archiv, weil die Originalseite gelöscht wurde. Yale hatte zeitweise eine „test flexible“-Strategie ausprobiert, bei der die Einreichung von Ergebnissen optional war, verwarf sie aber bald wieder und kehrte zur Pflicht von Testergebnissen zurück.
Man kann das kaum anders sehen als eine Alternative dazu, weniger asiatische Studierende aufzunehmen, die im Durchschnitt die höchsten SAT-/ACT-Ergebnisse haben. Kurz darauf bekam ich vom selben Präsidenten eine E-Mail, in der die Veränderung gelobt wurde, weil die ethnische Vielfalt zugenommen habe; in den Vorher-Nachher-Zahlen der E-Mail sank der Anteil asiatischer Studierender, während alle anderen Anteile stiegen.
Als CS-Professor habe ich erst gestern eine Projektdiskussion in einem Kurs über Parallel Computing geführt, und eine von drei Gruppen ist offensichtlich den ChatGPT-Weg gegangen. Sie verstanden nicht einmal die Entscheidungen, die das LLM in Bezug auf Architektur usw. getroffen hatte
Solche Studierenden erwischt man ähnlich wie früher diejenigen, die von anderen abgeschrieben haben. Man gibt ihnen sozusagen „das Seil, mit dem sie sich selbst aufhängen“, indem man Erklärungen verlangt, und sie geraten dabei unbeabsichtigt in eine Sackgasse
Wenn etwas verdächtig wirkt, halte ich es für sinnvoll, an die Ehrlichkeit zu appellieren, etwa mit: „Seien wir ehrlich, wie viel von diesem Code ist von dir und wie viel von ChatGPT?“, und zugleich Verständnis dafür zu zeigen, dass in derselben Woche mehrere Abgaben fällig gewesen sein könnten. Trotzdem sollte man die Gelegenheit nicht verpassen, die Lehre zu vermitteln, dass es richtig gemacht werden muss
Die anderen beiden Gruppen haben ebenfalls LLMs genutzt, aber als Unterstützung für Design und Architektur auf hohem Niveau. Auch wenn sie den Code nicht zu 100 % von Hand geschrieben haben, war klar, dass sie selbst die Verantwortung trugen und die beim Lösen des Problems eingesetzten Überlegungen und Strategien erklären konnten
Ich habe Kolleginnen und Kollegen gebeten, die Zahl solcher Fälle mitzuzählen, weil wir noch viele Projekte prüfen müssen; bisher steht es bei 1 von 3, also 33 %
Wäre es auch akzeptiert worden, ein Projekt durch Copy-and-Paste von Bibliothekscode zusammenzubauen? Wenn nicht, frage ich mich, warum die Nutzung von von LLMs erzeugtem Code anders sein soll
Der Mensch ist ein seltsames Wesen, das schlafwandlerisch in jede Krise hineinläuft, sich auf nichts einigen kann und, sobald es angekommen ist, sich nicht einmal über die Ursache einigen kann
Wenn wir den Punkt erreichen, an dem wir nicht mehr richtig „Ingenieurwesen“ oder „Wissenschaft“ betreiben können, werden wir das nächste Jahrzehnt damit verbringen zu diskutieren, ob wirklich KI das Problem war, ob es selbst dann unvermeidlich war und ob niemand oder alle schuld sind. Es wiederholt sich. Und doch sehen wir heute hier die düstere Zukunft und machen trotzdem noch einen Schritt nach vorn
Geht man davon aus, dass die Gesellschaft sich selbst reguliert? Bis zu einem gewissen Grad schon, aber die Kosten der Selbstregulierung sind wirklich hoch und schmerzhaft. Halten wir diese Kosten für hinnehmbar, solange die Möglichkeit besteht, dass wir nicht zu den Ersten gehören, die leiden?
Das ist kulturelle Evolution, und so funktioniert auch der Markt. Hattest du zentrale Planung erwartet?
Die Notendaten stammen von https://berkeleytime.com/grades
Weil ich befürchtete, dass nur Kurse ausgewählt wurden, die das gewünschte Narrativ stützen, habe ich für alle noch angebotenen CS-Kurse den F-Anteil als rote Linie eingezeichnet und die Anzahl der vergebenen Noten im zuletzt angebotenen Semester des jeweiligen Kurses als hellblaue Balken dargestellt und absteigend sortiert
Die Sorge scheint berechtigt gewesen zu sein. Wenn man sich die ersten paar Diagramme ansieht, gibt es in den letzten Semestern keinen großen Anstieg des F-Anteils
https://x.com/rahimnathwani/status/2062431813143019525?s=61
Für Professoren gibt es Anreize, nicht zu viele schlechte Noten zu vergeben. Schlechte Noten drücken in der Regel die Lehrveranstaltungsbewertungen, was sich auf Gehaltserhöhungen und Beförderungen auswirken kann, und viele schlechte Noten ziehen zusätzliche Aufmerksamkeit der Verwaltung auf sich, was kein Professor will
Im Januar hatte meine Tochter Schwierigkeiten im Mathematikunterricht, und ich habe mit Claude ein sehr fokussiertes Werkzeug zur Erstellung von Übungsblättern gebaut. Es erzeugte Aufgaben, um genau die Konzepte wiederholt zu trainieren, mit denen sie Probleme hatte
Es hat funktioniert, und auf traditionelle Weise wäre das viel schwieriger gewesen
Das Tool erzeugte PDFs mit Lösungsschlüssel und ausführlichen Lösungswegen und löste die Aufgaben mit verschiedenen Methoden, sodass ich die Lösungen meiner Tochter leichter prüfen und schneller iterieren konnte
Es ist ein mächtiges Werkzeug. Am Ende läuft es wieder darauf hinaus, wie man das Werkzeug benutzt. Nutzt man es, um besser zu werden, oder nimmt man die Abkürzung?
Wenn alle es auf die „richtige“ Weise machen würden, gäbe es kein Problem, aber die gesellschaftlichen Anreize sind komplex und widersprüchlich, sodass für viele die unmittelbare Abkürzung attraktiver erscheint
Das ist ebenso sehr ein gesellschaftliches Problem wie ein technisches
Das wirkt wie eine separate Nachricht, aber „mehr als 600 Professorinnen und Professoren der University of California, angeführt von Mathematikern der UC Berkeley, fordern die Wiedereinführung standardisierter Testanforderungen für Bewerberinnen und Bewerber in Naturwissenschaften, Technik, Ingenieurwesen und Mathematik. Als Begründung führen sie an, dass sechs Jahre zulassungsfreie Aufnahme ohne Tests die Vorbereitung nicht zuverlässig bewertet hätten und Professoren dadurch häufig Erstsemester in Mathematik auf Mittelschulniveau unterrichten müssten“
https://archive.ph/18spS
Und welche möglichen Vorteile soll das überhaupt haben?
Ich mache mir wegen LLMs wirklich große Sorgen
Ich habe einen 15-jährigen Sohn und verwalte seine Handynutzung mit Google Family Link. Meistens bin ich ziemlich offen und bekomme nur Installationsbenachrichtigungen, aber Gemini ist strikt verboten
Wir haben ausführlich über die Risiken gesprochen
Mein Sohn sagt, dass seine Freunde häufig LLMs benutzen, und vermutet, dass das der Grund für ihre Testergebnisse ist. Einige seiner Freunde liegen bei Prüfungen nur im Bereich von 20–40 %, während mein Sohn mit alten Prüfungsaufgaben lernt, bei der Wiederholung Fragen beantwortet und über 80 % erzielt
Ich mache mir Sorgen um die Zukunft, weil klar ist, dass AI-Anbieter sich nicht darum kümmern werden, ob Schüler mit LLMs ihre Hausaufgaben lösen
Man sollte AI nicht nur als Gefahr sehen, sondern auch darauf schauen, wie dein Sohn sie nutzen kann, um sein Lernen zu beschleunigen und zu vertiefen. Die eigentliche Gefahr ist eher ein politisches Umfeld, das standardisierte Tests abschaffen will, um Daten über Gruppen zu verbergen, die traditionell schlechter abschneiden
„Die Richtlinie besagt, dass der übliche GPA in den unteren Kursen im Bereich von 2,8 bis 3,3 liegen sollte. Laut Berkeleytime lag der Notendurchschnitt in beiden Kursen im Frühjahrssemester 2026 bei C+, was einem GPA von 2,3 entspricht“
Als Cal-Absolvent freue ich mich sehr zu sehen, dass bei Noteninflation eine Grenze gezogen wird. Ich habe wirklich hart gearbeitet, um meinen GPA zu bekommen, und ich würde es sehr hassen, wenn diese Leistung entwertet würde, weil Cal sich in eine Richtung entwickelt, in der wie in Yale 79 % A und A- verteilt werden: https://yaledailynews.com/articles/professors-face-grading-dilemma-too-many-a-s-little-taste-for-limits
Trotzdem bleibt gute Noten + Abschluss vor langer Zeit weiterhin ein Signal
Die Qualität von Lehrveranstaltungen absichtlich zu senken und Studierende in Prüfungen in Fallen tappen zu lassen, verbessert die Bildungsergebnisse von niemandem. Menschen, die sich über Noteninflation beschweren, haben völlig vergessen, warum öffentliche Bildung existiert
Wirklich schade. Ich habe vor Kurzem damit angefangen, als interessante Aktivität meine Mathematik wieder aufzufrischen, und bitte dabei den Gemini Live-Modus beim Lösen von Aufgaben um Kontrolle und Vorschläge und gehe manchmal Schritt für Schritt vor
Es hat ziemlich viel Spaß gemacht, fast so, als stünde ein sehr geduldiger Professor direkt neben mir. Es war eines der besten Erlebnisse, die ich bisher beim Mathematiklernen hatte, und ich muss Gemini auch keine Bestechung oder Geschenke schicken, damit es mir wohlgesonnen bleibt
Wenn man dagegen nicht selbst nachdenkt und das LLM die Arbeit vollständig erledigen lässt, klingt das wie Betrug an sich selbst