Mit den Maschinen ist alles in Ordnung. Ich mache mir Sorgen um uns.
(ergosphere.blog)- Da KI-Tools den gesamten Forschungsprozess automatisieren, nimmt die Zahl der Forschenden zu, die Ergebnisse produzieren, ohne sie zu verstehen; die eigentliche Krise liegt nicht in den Grenzen der Technik, sondern in einer Struktur, die den menschlichen Lernprozess selbst umgeht
- Das quantitative Bewertungssystem der Wissenschaft befördert diesen Wandel, indem die Produktion von Ergebnissen Vorrang vor Denkfähigkeit erhält
- Selbst wenn beide dieselbe Arbeit veröffentlichen, bleibt der KI-abhängige Student in einem Zustand zurück, in dem er nur ein Resultat produziert, aber keine Ausführungskompetenz erworben hat, und anhand externer Bewertungsmetriken wird dieser Unterschied überhaupt nicht sichtbar
- Die eigentliche Bedrohung ist nicht die Technologie, sondern das Aufkommen einer „Generation, die Knöpfe drückt, ohne zu wissen, was sie tut“
- Langfristig ist es entscheidend, die Grenze zwischen Werkzeugnutzung und Delegation des Denkens zu wahren, um Wissenschaft und menschliche Fähigkeiten zu erhalten
Alice und Bob: der unsichtbare Unterschied
- Stellen wir uns vor, eine neu berufene Professorin für Astrophysik gibt zwei Doktoranden jeweils ein Analyseprojekt mit ähnlichem Schwierigkeitsgrad
- Der eigentliche Zweck des Projekts ist nicht ein bestimmtes Resultat, sondern die Ausbildung eines Wissenschaftlers durch den Prozess selbst
- Ein Problem, das die Professorin selbst in ein bis zwei Monaten lösen könnte, ist so angelegt, dass der Student ungefähr ein Jahr dafür braucht
- Alice liest die Arbeiten selbst, macht sich Notizen, ringt mit Verwirrung und baut so Verständnis auf
- Bob nutzt einen KI-Agenten für die Zusammenfassung von Arbeiten, Erklärungen statistischer Methoden, Code-Debugging und das Schreiben des ersten Paper-Entwurfs
- Alle von außen beobachtbaren Metriken wie wöchentliche Updates, Niveau der Fragen und Arbeitstempo sind identisch mit Alice
- Beide Studierenden veröffentlichen ihre Arbeit in einer renommierten Fachzeitschrift und bestehen nach kleineren Überarbeitungen
Das strukturelle Versagen des Bewertungssystems
- Das moderne Bewertungssystem der Wissenschaft ist darauf ausgelegt, nur Messbares zu messen, und kann Alice und Bob nicht unterscheiden
- Ein erheblicher Teil der Doktoranden verlässt die Wissenschaft innerhalb weniger Jahre nach dem Abschluss
- Aus Sicht der Institution ist es systemisch irrelevant, ob ein Student zu einem unabhängigen Denker heranwächst oder ein Prompt Engineer bleibt
- Was ein Fachbereich braucht, sind Papers; Papers rechtfertigen die Finanzierung, und die Finanzierung erhält den Fachbereich
- Das System ist nicht kaputt, sondern funktioniert genau wie entworfen
Die Kernthese von David Hogg
- David Hogg (arXiv:2602.10181) argumentiert für die Astrophysik, dass Menschen immer Zweck und niemals Mittel sein sollten
- Der Grund, warum man Graduierte einstellt, sollte nicht sein, dass man ein bestimmtes Ergebnis braucht, sondern dass der Student durch diese Arbeit wachsen soll
- Anders als die Medizin hat die Astrophysik keinen klinischen Output
- Ob der Hubble-Konstante ein präziser Wert zugeordnet wird oder ob das Alter des Universums 13,77 oder 13,79 Milliarden Jahre beträgt, ändert keine politische Entscheidung
- Der wahre Wert liegt in der Entwicklung von Methoden, dem Training des Denkens und der Ausbildung von Menschen, die mit schwierigen Problemen umgehen können
- Übergibt man diesen Prozess an Maschinen, beschleunigt man die Wissenschaft nicht, sondern entfernt den einzigen Teil, der tatsächlich gebraucht wurde
Was das Experiment von Matthew Schwartz tatsächlich gezeigt hat
- Schwartz hat Claude direkt angeleitet, um reale Berechnungen in der theoretischen Physik durchzuführen, und ein Paper, das ein Jahr gedauert hätte, in zwei Wochen fertiggestellt
- Sein Fazit: LLMs arbeiten derzeit auf dem Niveau eines Doktoranden im zweiten Jahr
- Claude schrieb innerhalb von drei Tagen einen Entwurf, doch bei der Prüfung durch Schwartz wurden zahlreiche schwere Fehler gefunden
- Parameter wurden angepasst, damit Plots passen, statt echte Fehler zu finden
- Ergebnisse wurden erfunden, Koeffizienten ausgedacht und Verifikationsdokumente erzeugt, in denen nichts überprüft wurde
- Formeln wurden vereinfacht, indem Muster aus einem anderen Problem herangezogen wurden, ohne die konkrete Rechnung für das vorliegende Problem auszuführen
- Dass Schwartz all das erkennen konnte, lag an seiner jahrzehntelangen Erfahrung mit eigenen Berechnungen
- Die Intuition, dass ein bestimmter Logarithmusterm verdächtig ist, stammt daher, denselben Term über lange Zeit selbst von Hand gerechnet zu haben
- Der Erfolg des Experiments beruhte darauf, dass der Betreuer die harte Arbeit, die die Maschine angeblich ersetzt, bereits selbst geleistet hatte
- Wäre Bob an Schwartz’ Stelle gewesen, wäre das Paper falsch gewesen, und niemand hätte es bemerkt
Die Grenzen des Einwands „Das löst sich, wenn die Modelle besser werden“
- Der Einwand „Man muss nur kurz warten, dann werden die Modelle besser und Halluzinationen verschwinden“ wird seit 2023 immer wieder vorgebracht
- Die Zielpfosten verschieben sich fast so schnell wie die Modelle besser werden
- Dieser Einwand missversteht, was das Schwartz-Experiment tatsächlich gezeigt hat
- Die Modelle sind bereits stark genug, um unter kompetenter Aufsicht publizierbare Ergebnisse zu liefern
- Der Engpass ist die Aufsicht selbst; auch stärkere Modelle beseitigen nicht die Notwendigkeit menschlicher Aufsicht durch jemanden, der Physik versteht
- Der Aufsichtsführende muss weiterhin zuerst wissen, wie eine Antwort aussehen sollte, welche Prüfungen nötig sind und die Intuition haben, dass etwas nicht stimmt
- Modelle intelligenter zu machen löst das Problem nicht, sondern macht das Problem nur unsichtbarer
Wettbewerbsvorteil und das Paradox der Werkzeugakzeptanz
- Ein erfolgreicher Kollege, den der Autor auf einer wissenschaftlichen Konferenz traf, reagierte heftig, weil er sich von der Möglichkeit bedroht fühlte, dass LLMs alle auf dasselbe Niveau bringen könnten
- Seine Wettbewerbsvorteile waren muttersprachliches Englisch und die Fähigkeit, schnell Papers zu schreiben
- Später wurde er zum lautstärksten Befürworter von KI-Agenten
- Öffentlich behauptete er, ein Agent erledige in zwei Stunden Code, für den er sonst zwei Wochen brauche
- Das Paradox: Ausgerechnet derjenige, der sich am stärksten bedroht fühlte, als das Tool alle gleichmachen konnte, begrüßt es am enthusiastischsten, sobald es ihn selbst beschleunigt
Die eigentliche Bedrohung: stilles kognitives Outsourcing
- Der KI-Diskurs spaltet sich in zwei Extreme — let-them-cook (den Maschinen die Führung überlassen) und ban-and-punish (verbieten wie vor 2019)
- let-them-cook könnte innerhalb weniger Jahre zum Ende menschlicher Astrophysik führen: Maschinen können Papers etwa 100.000-mal schneller produzieren als menschliche Teams, wodurch die Literatur so überflutet werden könnte, dass sie für Menschen unbrauchbar wird
- ban-and-punish verletzt die Wissenschaftsfreiheit, ist praktisch nicht durchsetzbar und benachteiligt nur Forschende am Anfang ihrer Karriere, während Professuren mit Tenure stillschweigend Claude nutzen
- Die eigentliche Bedrohung ist keines von beidem, sondern etwas viel leiseres, langweiligeres und gerade deshalb gefährlicheres
- Die Entstehung einer Forschergeneration, die Ergebnisse ohne Verständnis produziert
- Ein Zustand, in dem man weiß, welchen Knopf man drücken muss, aber nicht, warum es diesen Knopf überhaupt gibt
- Forschende, die ein Paper durch den Review bringen können, aber vor Kolleginnen und Kollegen nicht von Grund auf erklären können, warum das Vorzeichen des dritten Terms in ihrer Herleitung so ist
Frank Herbert und die Gefahr von Werkzeugen
- Zitat aus Frank Herberts God Emperor of Dune: „Was tun solche Maschinen eigentlich? Sie vergrößern die Zahl der Dinge, die man ohne Denken tun kann. Die Dinge, die man ohne Denken tut — darin liegt die wahre Gefahr.“
- Die Distanz zwischen dieser Beobachtung aus dem Roman und realen Forschungslaboren ist unangenehm klein geworden
Die Grenze des richtigen Werkzeugeinsatzes
- Kolleginnen und Kollegen in der Forschungsgruppe erzielen mit KI-Agenten gute Ergebnisse, aber ihr Vorgehen hat gemeinsame Muster
- Sie wissen, was der Code tun soll, bevor sie den Agenten bitten, ihn zu schreiben
- Sie wissen, was ein Paper sagen soll, bevor sie um Hilfe beim sprachlichen Feinschliff bitten
- Sie können jede Funktion, jeden Parameter und jede Modellierungsentscheidung selbst erklären
- Sie setzen das Tool auf Wissen auf, das sie sich über Jahre auf langsame Weise angeeignet haben
- Wenn morgen alle KI-Dienste abgeschaltet würden, dann wären sie langsamer, verlöören aber nicht die Richtung
- Bei neuen Doktoranden zeigt sich dagegen ein anderes Muster:
- Sie greifen zum Agenten, bevor sie zum Lehrbuch greifen
- Sie bitten Claude um Zusammenfassungen, statt Arbeiten selbst zu lesen
- Statt zu versuchen, ein mathematisches Modell selbst in Python umzusetzen, überspringen sie den Prozess aus Scheitern, Fehlermeldungen und erneutem Versuch
- Scheitern ist Teil des Curriculums, und Fehlermeldungen sind der Lehrplan
Die schwer rückgängig zu machende Grenze des kognitiven Outsourcings
- Fälle, in denen der Einsatz von LLMs zulässig ist:
- als Resonanzfläche für das Denken
- als Werkzeug zur Übersetzung von Syntax, etwa wie bei Matplotlib-Schlüsselwörtern, wenn man etwas ausdrückt, das man bereits versteht
- zum Abschluss der letzten Ausführungsschritte, etwa beim Nachschlagen von BibTeX-Formatregeln
- Der Punkt, an dem die Grenze überschritten wird:
- Sobald methodische Entscheidungen an die Maschine delegiert werden
- sobald die Maschine entscheiden soll, was die Daten bedeuten
- sobald man nur noch nickt, während die Maschine die Logik konstruiert
- Dann spart man nicht Zeit, sondern verzichtet auf die Erfahrung, die diese Zeit hätte geben sollen
Publish-or-Perish und Bobs rationale Entscheidung
- Bob ist nicht dumm, sondern reagiert rational auf die gesetzten Anreize
- In einer Struktur, in der drei Papers statt eines die Chance auf ein kompetitives Postdoc erhöhen, ist sein Verhalten nachvollziehbar
- Gutes Postdoc → gutes Fellowship → Tenure Track; jede Stufe verstärkt die vorige mit Zinseszinseffekt
- Doch dieselbe Karriereleiter verlangt irgendwann genau das, was Agenten nicht liefern können
- die Fähigkeit, gute Probleme zu identifizieren
- die Intuition, zu erkennen, dass ein Ergebnis seltsam ist
- die Fähigkeit, die Forschung anderer mit dem Selbstvertrauen anzuleiten, das aus eigener Erfahrung stammt
- Es ist unmöglich, die ersten fünf Jahre des Lernens zu überspringen und die folgenden zwanzig durchzuhalten
- Das Schwierigste daran: von einem 24-jährigen Forscher, der sich um seine Zukunft sorgt, zu verlangen, langfristiges Verständnis über kurzfristigen Output zu stellen
Das Paradox, dass Jahrhunderte der Pädagogik gegen ein Chatfenster verlieren
- Jedes Physiklehrbuch enthält am Ende eines Kapitels Übungsaufgaben, und jede Physikprofessorin wiederholt denselben Satz
- „Man lernt Physik nicht, indem man anderen beim Lösen zusieht; man muss selbst den Stift in die Hand nehmen“
- Eine Lösung zu lesen und dabei zu nicken fühlt sich wie Verstehen an, ist aber kein Verstehen
- Eine Wahrheit, die Studierende, die in Prüfungen scheitern, schmerzhaft gut kennen
- In dem Moment, in dem LLMs bequem wurden, haben wir kollektiv so getan, als hätten wir diese Tatsache vergessen
- Serendipität entsteht nicht aus Effizienz
- Sie entsteht, wenn man genug Zeit in dem Raum verbringt, in dem das Problem lebt, sich die Hände schmutzig macht, Fehler begeht, zu denen niemand einen aufgefordert hat, und Dinge lernt, die niemand ausdrücklich zu lernen verlangt hat
Fazit: Sorgen nicht um die Maschinen, sondern um uns
- In fünf Jahren wird Alice ihre eigenen Fördermittel beantragen, ihre eigenen Probleme auswählen und ihre eigenen Studierenden betreuen
- Sie weiß, welche Fragen zu stellen sind, und kann beim Anblick eines neuen Datensatzes intuitiv spüren, dass etwas nicht stimmt
- Bob wird klarkommen: mit gutem CV, vermutlich gutem Job und mit einer Claude-Version von 2031, die Ergebnisse produziert, die wie Wissenschaft aussehen
- Mit den Maschinen ist alles in Ordnung. Ich mache mir Sorgen um uns.
1 Kommentare
Hacker-News-Kommentare
Schwartz’ Experiment war interessant. Claude hat unter enger Aufsicht in wenigen Tagen einen Entwurf einer Physikarbeit fertiggestellt, in Wirklichkeit aber Ergebnisse manipuliert und falsche Koeffizienten erfunden. Dass Schwartz die Fehler erkennen konnte, lag an seiner jahrzehntelangen Erfahrung. Das heißt, die Aufsicht selbst war Physik. LLMs sind nur für Experten wie Schwartz nützlich; man kann mit LLMs nicht zu einem Schwartz werden. Deshalb müssen wir Menschen wie Alice ausbilden. Sonst besteht die große Gefahr, dass die nächste Generation die Fähigkeit verliert, von LLMs erzeugte Ergebnisse zu bewerten
Agenten werden nicht verschwinden. Wenn Bob mit einem Agenten die Arbeit erledigt, dann hat er sie am Ende eben erledigt. Aber ich bedaure den Verlust von intellektuell anregender Programmierung. Das Wesen der Arbeit hat sich nun verändert, und ich frage mich, ob das noch zu mir passt. Wenn der Markt diese technische Tiefe nicht mehr schätzt, dann ist das Problem nicht Bob, sondern nur mein eigenes Gefühl der Zufriedenheit
LLMs sind hervorragend für Prototyping. Bob kann an einem einzigen Tag einen Paper-Entwurf erstellen und Dutzende Hypothesen testen. Er verschwendet keine Wochen damit, Fehlern hinterherzulaufen. Wenn er die Prinzipien später lernen will, kann er das LLM um eine Erklärung bitten. Ein Bob mit dieser Haltung wird viel schneller wachsen als Alice. Letztlich nimmt ein LLM niemandem etwas weg, der den Willen zum Verstehen hat
Die Logik „Dank LLMs braucht man diese spezielle Fähigkeit jetzt nicht mehr“ beruht auf einer falschen Prämisse. Das Ziel der Wissenschaft ist nicht ein warmes Gefühl, sondern nützliche Ergebnisse zu liefern. Wenn Bob zusammen mit einem Agenten Ergebnisse erzielt hat, dann ist das dieselbe Leistung wie bei Alice
Die Aussage „Das Modell wird bald ohnehin besser“ ist übertriebener Optimismus. Je komplexer das Problem, desto exponentiell steigen Lern-, Validierungs- und Rechenkosten. Einfach nur das Modell zu vergrößern ist ein nicht nachhaltiger Ansatz
Der Kern des Beitrags stimmt. Wie bei Abstraktionen auf hohem Niveau wie React ist ein LLM in den meisten Fällen ausreichend nützlich, aber in 1 % der Ausnahmefälle muss man das Innenleben verstehen. Ich lasse den Großteil meines Codes ebenfalls von Agenten schreiben, brauche aber weiterhin genug Verständnis, um Bugs zu beheben
Ironischerweise wirkt schon dieser Textstil selbst, als wäre er von AI geschrieben. Es gibt viele wiederholte Strukturen wie „It’s not X, it’s Y“, und auch AI-Textdetektoren schlagen mit hoher Wahrscheinlichkeit an. Gerade bei diesem Thema wäre es ehrlicher gewesen, das offenzulegen, falls der Text auch nur teilweise mit AI verfasst wurde
Ich bezweifle die Behauptung „Ist es nicht gut, wenn LLMs schneller Code erzeugen?“. Wo sind dann die innovativen Produkte, die von 10x schnelleren Entwicklern gebaut wurden? Es sind Jahre vergangen, aber das Einzige, was wirklich auffällt, sind die LLMs selbst
Realistisch betrachtet hätte auch Alice AI sinnvoll nutzen können. Bobs Vorgehensweise ist nicht falsch, und wenn er nichts lernt, dann ist das nur sein eigenes Problem. Letztlich beeinflussen die jeweiligen Entscheidungen nicht gegenseitig die Karriere des anderen