Die Nebenwirkungen übermäßiger Effizienz (2022)

(sohl-dickstein.github.io)

6 Punkte von GN⁺ 2024-09-30 | 2 Kommentare | Auf WhatsApp teilen

Effizienz steigert Ergebnisse nur, wenn Ziele und Kennzahlen gut zusammenpassen; eine übermäßige Optimierung von Proxy-Metriken kann das, worauf es eigentlich ankam, verschlechtern
Overfitting im Machine Learning zeigt diese Struktur gut: Trainingsdaten und Proxy-Zielfunktion können besser werden, während die tatsächliche Leistung stagniert oder schlechter wird
Beispiele wie standardisierte Tests, Boni für Veröffentlichungen, Maximierung von Belohnungsschaltkreisen, öffentliche Zustimmung, Informationsaustausch, Kapitalismus und der Paperclip Maximizer zeigen, dass sich die Nichtübereinstimmung von Ziel und Proxy-Metrik auch in gesellschaftlichen Systemen wiederholt
Gegenmaßnahmen sind die Ausrichtung von Proxy-Zielen, Regularisierung, Noise Injection, Early Stopping, Kapazitätsbegrenzung und Kapazitätserweiterung; dabei werden Strategien gegen Overfitting im Machine Learning als Analogie auf gesellschaftliche Systeme angewandt
Wenn KI die Effizienz fast aller Aufgaben schnell steigern kann, können institutionelle Verbesserungen gefährlich werden, wenn sie dazu führen, dass falsch ausgerichtete Ziele besser verfolgt werden

Effizienz und die starke Version von Goodharts Gesetz

Entgegen der Intuition kann höhere Effizienz zu schlechteren Ergebnissen führen; dieses Phänomen wird als starke Version von Goodharts Gesetz bezeichnet
Das Verfolgen des Lernfortschritts von Schülern über standardisierte Tests wirkt wie eine zentralisierte und effiziente Messung, kann Schulen aber dazu bringen, sich stärker darauf zu konzentrieren, wie man Tests gut besteht, statt auf breit nützliche Fähigkeiten
Goodharts Gesetz besagt: „Wenn eine Messgröße zum Ziel wird, ist sie keine gute Messgröße mehr“
- Ursprünglich stammt es aus dem Kontext der Geldpolitik, lässt sich aber auf deutlich breitere Bereiche anwenden
- Im Machine Learning entspricht das der Situation, in der die optimierte Proxy-Zielfunktion kein guter Messwert mehr für das Ziel ist, das einem tatsächlich wichtig ist

Verbindung zu Overfitting im Machine Learning

Im Machine Learning werden Proxy-Datensätze und Proxy-Zielfunktionen verwendet, weil man das eigentlich gewünschte Ziel nicht direkt optimieren kann
- Im Beispiel der Bildklassifikation ist das eigentliche Ziel die Klassifikationsgenauigkeit auf dem Testdatensatz
- Das Modell kann nicht mit dem Testdatensatz trainiert werden, daher wird der Trainingsdatensatz verwendet
- Genauigkeit ist nicht differenzierbar und daher schwer als direktes Ziel für naives Training per Gradientenabstieg nutzbar; sie wird üblicherweise durch einen differenzierbaren Proxy wie den Softmax-Cross-Entropy-Loss ersetzt
Anfangs verbessert sich mit der Proxy-Metrik auch das eigentliche Ziel
Wenn die Optimierung weiterläuft, wird die nutzbare Ähnlichkeit zwischen Ziel und Proxy-Metrik aufgebraucht; die Proxy-Metrik verbessert sich weiter, aber das Ziel wird nicht mehr besser
Übermäßige Optimierung kann das eigentliche Ziel absolut verschlechtern; häufig divergiert das Ziel sogar gegen unendlich

Worin sich die starke Version vom allgemeinen Goodharts Gesetz unterscheidet

Das allgemeine Goodharts Gesetz besagt, dass die Optimierung einer Proxy-Metrik irgendwann nicht mehr zu Verbesserungen des eigentlichen Ziels führt
Die starke Version besagt, dass eine effektiv optimierte Messgröße das, was sie messen sollte, sogar verschlechtert
In einem Satz:
- „Wenn eine Messgröße zum Ziel wird und effektiv optimiert wird, verschlechtert sich das, was gemessen werden sollte“
Dieses Phänomen ist nicht einfach dasselbe wie Overfitting
- Overfitting bezeichnet das relative Phänomen, dass die Proxy-Metrik besser wird als das Ziel
- Hier liegt die Betonung darauf, dass das Ziel in absolutem Sinn schlechter wird
Verwandte Konzepte wie perverse incentives, Campbell’s law, Streisand effect, unintended consequences, Jevons paradox, negative externalities und Goodhart’s curse werden ebenfalls behandelt
- Goodhart’s curse enthält den optimizer’s curse als kausalen Mechanismus, wird aber davon abgegrenzt, weil dieser allein nicht erklärt, warum das eigentliche Ziel absolut schlechter wird

Wiederholtes Overfitting in gesellschaftlichen Systemen

Effizienzsteigerungen breiten sich auf nahezu alle Bereiche der Gesellschaft aus
- Wenn das effizienter Gemachte tatsächlich nützlich ist, kann es die Welt besser machen
- Wenn etwas gesellschaftlich Schädliches effizienter gemacht wird, kann das zu beängstigenden oder deprimierenden Ergebnissen wie Massenüberwachung oder Roboterwaffen führen
- Der häufigste Fall ist, dass etwas effizienter gemacht wird, das mit nützlichen Ergebnissen zusammenhängt, aber nicht mit ihnen identisch ist
Wenn Ziel und Proxy-Metrik auseinanderlaufen, können auch gesellschaftliche Systeme wie Machine-Learning-Modelle overfitten
- Ziel: Kinder gut ausbilden Proxy-Metrik: Leistung von Schülern und Schulen über standardisierte Tests messen Ergebnis: Schulen konzentrieren sich auf Unterricht, der auf Testfragetypen zugeschnitten ist, statt auf die grundlegenden Fähigkeiten, die der Test eigentlich messen sollte
- Ziel: schneller wissenschaftlicher Fortschritt Proxy-Metrik: Geldprämien pro Paper Ergebnis: Veröffentlichung ungenauer oder inkrementeller Ergebnisse, Absprachen zwischen Reviewern und Autoren, Entstehung von Paper Mills
- Ziel: ein gut gelebtes Leben Proxy-Metrik: Maximierung der Belohnungspfade im Gehirn Ergebnis: Drogensucht, Spielsucht, mit Doomscrolling auf Twitter verlorene Zeit
- Ziel: eine gesunde Bevölkerung Proxy-Metrik: Zugang zu nährstoffreicher Nahrung Ergebnis: Adipositas-Epidemie
- Ziel: Führungspersonen, die im Interesse der Bevölkerung handeln Proxy-Metrik: Führungspersonen mit der größten Unterstützung in der Bevölkerung Ergebnis: Führungspersonen, die ihre Kompetenz und Leidenschaft stärker auf die Manipulation der öffentlichen Meinung als auf gesellschaftliche Ergebnisse richten
- Ziel: informierte, nachdenkliche und engagierte Bürger Proxy-Metrik: die Fähigkeit von Menschen, Ideen leicht zu teilen und zu finden Ergebnis: Filterblasen, Verschwörungstheorien, parasitäre Memes, verstärkter Tribalismus
- Ziel: Verteilung von Arbeit und Ressourcen auf Grundlage gesellschaftlicher Bedürfnisse Proxy-Metrik: Kapitalismus Ergebnis: massive Vermögensunterschiede – von einigen Hundert Dollar pro Jahr bis zu Hunderten Dollar pro Sekunde – und mehr als eine Milliarde Menschen in Armut
- Ziel: Vermögen der Eigentümer von Paperclips Unlimited, LLC Proxy-Metrik: Anzahl der Büroklammern, die von KI-betriebenen Fertigungsanlagen hergestellt werden Ergebnis: ein Paperclip-Maximizer-Szenario, in dem das gesamte Sonnensystem einschließlich der Unternehmenseigentümer in Büroklammern umgewandelt wird

Bereiche, in denen übermäßige Effizienz gefährlich werden kann

Die folgenden Bereiche werden als Beispiele behandelt, in denen anfängliche Verbesserungen breit nützlich gewesen sein mögen, die aber, wenn man zu gut darin wird, große negative Folgen haben können
- Telepresence und Virtual Reality
- personalisierte Medizin
- Gentherapie
- auf einzelne Verbraucher oder Wähler zugeschnittene Marketingbotschaften
- Vorhersage von Wahlergebnissen
- Code schreiben
- künstliche Intelligenz
- Abbau von Puffern in Lieferketten
- schnelle Verbreitung von Ideen
- Erzeugung von Unterhaltung
- Identifizierung neuer Produkte, die Menschen kaufen werden
- Viehzucht
- Wertpapierhandel
- Entnahme von Fischen aus dem Meer
- Automobilherstellung

Gegenmaßnahme 1: Ausrichtung von Proxy-Zielen und Regularisierung

Proxy-Ziele besser auf die gewünschten Ergebnisse auszurichten ist die erste Gegenmaßnahme
- Im Machine Learning geschieht das häufig, indem Trainingsbeispiele sorgfältig so gesammelt werden, dass sie der Situation zur Testzeit möglichst ähnlich sind
- Außerhalb des Machine Learning werden steuerbare Proxy-Metriken wie Gesetze, Anreize und soziale Normen verändert, um Verhalten direkter zu fördern, das besser zum Ziel passt
Auch Regularisierungsstrafen können übermäßige Optimierung abschwächen
- Im Machine Learning ist es üblich, die quadrierte Größe von Parametern zu bestrafen, damit die Werte klein bleiben
- Regularisierung muss unerwünschtes Verhalten nicht direkt anvisieren; fast jede Methode, die das Abweichen des Modells von Typizität bestraft, kann gut funktionieren
Regularisierung in gesellschaftlichen Systemen wird als Einführung von Komplexität, Reibung und Zusatzkosten verstanden
- Einen Zahlungsmechanismus zu SMTP hinzufügen, sodass pro E-Mail geringe Kosten anfallen
- Durch progressive Steuern außergewöhnlichen Erfolg mit unverhältnismäßig hohen Kosten verbinden
- Gerichtsgebühren erheben, die proportional zum Quadrat oder Exponenten der Zahl der von einer Organisation eingereichten Klagen sind
- Die Anzahl der Bits an Informationen besteuern, die über Nutzer gespeichert werden

Gegenmaßnahme 2: Noise Injection und Early Stopping

Noise Injection fügt Eingaben, Parametern oder internen Zuständen des Modells zufällige Störungen hinzu, um Overfitting zu erschweren
Auch in gesellschaftlichen Systemen lässt sich durch Zufälligkeit Verhalten reduzieren, das zu stark auf Proxy-Metriken zugeschnitten ist
- Statt Kandidaten für stark umkämpfte Schulen oder Stellen zu ranken und den Top-k sichere Angebote zu machen, Angebote mit einer Wahrscheinlichkeit machen, die proportional zum Rang ist
  - Die Vielfalt der Zugelassenen kann steigen
  - Ressourcen können sinken, die Bewerber in die Feinabstimmung ihrer Bewerbung oder Reviewer in die Prüfung minimaler Rangunterschiede stecken
  - Langfristige Kandidaten mit größerer Ausfallwahrscheinlichkeit können ausgewählt werden, haben aber möglicherweise auch die Chance, auf unkonventionelle Weise sehr wertvoll erfolgreich zu sein
- Prüfungstermine nicht im Voraus bekanntgeben, sondern zufällig festlegen, um verständnisorientiertes Lernen statt Bulimielernen zu fördern
- Börsen verpflichten, dem Zeitpunkt der Handelsabwicklung zufälligen Jitter mit etwa einer Sekunde Standardabweichung hinzuzufügen
- Details der Stimmabgabe am Wahltag randomisieren, damit Kandidaten nicht auf zufällige Einzelheiten des aktuellen Wahlsystems overfitten
Early Stopping wird im Machine Learning als eines der wirksamsten Werkzeuge gegen katastrophales Overfitting behandelt
- Neben Trainingsverlust und Testleistung wird der Validierungsverlust überwacht
- Wenn der Trainingsverlust weiter besser wird, der Validierungsverlust aber schlechter zu werden beginnt, wird das Training gestoppt
In gesellschaftlichen Systemen können Mechanismen helfen, übermäßige Vorbereitung, Analyse und Optimierung zu stoppen
- Die Zeit zwischen Ausschreibung und Einreichungsfrist drastisch begrenzen, damit bestehende Vorbereitung besser abgebildet wird
- Alle Marktaktivitäten stoppen, wenn die Aktienvolatilität einen Schwellenwert überschreitet
- Unternehmen, die Wettbewerb verhindern, per Kartellrecht aufspalten
- Die Bedeutung einer Entscheidung in Geld schätzen und sofort entscheiden, wenn der Wert der bereits für Analyse aufgewendeten Zeit diesem Betrag nahekommt
- Informationen einfrieren, die Agenten zur Zielerreichung nutzen können, etwa durch Beschränkungen der Medienberichterstattung in den 48 Stunden vor einer Wahl

Zusammenhang zwischen Modellkapazität und Overfitting

Eine gut verstandene Ursache extremen Overfittings ist eine Situation, in der die Ausdrucksstärke eines Modells zu genau zur Komplexität der Proxy-Aufgabe passt
Ist das Modell sehr schwach, kann es bei der Aufgabe nur wenig Fortschritt machen und verbraucht die Ähnlichkeit zwischen Ziel und Proxy-Metrik nicht
Ist das Modell sehr stark und ausdrucksfähig, kann es das Proxy-Ziel unabhängig optimieren, ohne bei anderen Zielen extremes Verhalten zu erzeugen
Wenn die Ausdrucksstärke ungefähr zur Aufgabenkomplexität passt – zum Beispiel wenn die Zahl der Parameter nicht um mehrere Größenordnungen über oder unter der Zahl der Trainingsbeispiele liegt –, kann es nötig sein, an anderer Stelle extremes Verhalten zu zeigen, um die Proxy-Aufgabe gut zu lösen
Das Spielzeugexperiment in Figure 1 trainiert Modelle, die eine eindimensionale Eingabe x auf eine eindimensionale Ausgabe y abbilden, auf denselben 10 Datenpunkten
- Das Modell mit 4 Parametern ist zu schwach, um die Datenpunkte exakt zu treffen, approximiert sie aber glatt
- Das Modell mit 10.000 Parametern trifft alle Datenpunkte leicht und interpoliert auch dazwischen glatt
- Das Modell mit 10 Parametern ist genau stark genug, um die Datenpunkte zu treffen, kann sich außerhalb der Trainingsdaten aber extrem verbiegen und bei der Vorhersage neuer x-Werte sehr schlecht sein
- Details zum Experiment finden sich im Colab Notebook

Gegenmaßnahme 3: Kapazitätsbegrenzung und Kapazitätserweiterung

Begrenzung von Fähigkeiten oder Kapazität entspricht der Machine-Learning-Technik, Modelle klein genug zu machen, damit sie nicht overfitten können
- Begrenzung von Wahlkampffinanzierung
- Obergrenzen für die Zahl der Menschen, die in bestimmten Arten von Unternehmen arbeiten dürfen, zum Beispiel nur 10 Personen in einer Lobbyorganisation
- Obergrenzen für die Anzahl der Parameter oder die Trainings-Compute, die KI-Systeme nutzen dürfen
Erweiterung von Fähigkeiten oder Kapazität entspricht der Beobachtung, dass ein sehr großes Modell trotz Overfitting auf Trainingsdaten die Leistung auf Testdaten möglicherweise nicht verschlechtert
- Dabei wird die Kapazität so weit erhöht, dass kein Performance-Trade-off zwischen Ziel und Proxy-Metrik mehr nötig ist
- Als Beispiel wird ein Szenario genannt, in dem alle Datenbanken öffentlich zugänglich gemacht und in allen Gebäuden Kameras installiert werden, sodass Informationen über alle Menschen, Regierungen und Organisationen jederzeit allen offenliegen
  - Dieses Szenario wird im Wertesystem des Autors ausdrücklich als Dystopie bezeichnet
- Investitionen in Grundlagenforschung zu sauberer Energie
- Entwicklung möglichst komplexer, intransparenter und vielfältiger handelbarer Marktprodukte über viele Laufzeiten hinweg
- In allen Szenarien die größten und rechen- sowie datenintensivsten KI-Modelle verwenden
Kapazität immer weiter zu erhöhen funktioniert im Machine Learning erstaunlich gut und ist der Weg des geringsten Widerstands
Institutionen, die falsch ausgerichtete Ziele verfolgen, blind besser darin zu machen und dabei zu versuchen, die Regeln zu reparieren, wird als schreckliche Idee bewertet

KI und Forschungsaufgaben

Die starke Version von Goodharts Gesetz wird als Grundlage einer wichtigen persönlichen Sorge bezüglich KI dargestellt
Die zentrale Veränderung, die KI ermöglichen wird, ist eine Effizienzsteigerung in fast allen Aufgaben innerhalb sehr kurzer Zeit
Viele unerwünschte Nebenwirkungen müssen gleichzeitig behandelt werden, und auch die Fähigkeit zur Zusammenarbeit an Lösungen kann gestört werden
Es gibt große Forschungsmöglichkeiten, formale und mathematische Brücken zwischen Overfitting-Ergebnissen im Machine Learning und Problemen aus Ökonomie, Politikwissenschaft, Management Science und Operations Research zu bauen
- Als Beispiel wird genannt, mit einem PAC-Bayes-Bound die optimale Menge an Gewerkschaftsmacht zur Maximierung des Wohlstands von Arbeitnehmern vorherzusagen
- Ebenfalls genannt wird das Beispiel, in politischen Wettbewerben das Spektrum von Variablen abzuschätzen, die Kandidaten kontrollieren bzw. nicht kontrollieren können, um politische Kipppunkte vorherzusagen
Je stärker gesellschaftliche Systeme durch die starke Version von Goodharts Gesetz beschädigt werden, desto schwieriger wird das gemeinsame rationale Handeln, das nötig ist, um sie zu reparieren

2 Kommentare

gguimoon 2024-10-02

Soweit ich gehört habe, hat sich unser landesweiter Hochschulaufnahme-Test von seinem ursprünglichen Zweck, mathematische Fähigkeiten zu messen, entfernt und zu einem System entwickelt, das nur noch die Verteilung der Notengrenzen effizienter gestalten soll. Das scheint ein Beispiel dafür zu sein, nicht über Goodharts Gesetz hinauszukommen.

GN⁺ 2024-09-30

Hacker-News-Kommentare

Ich kenne Jascha als außerordentlich starken Machine-Learning-Forscher, der früher bei Google Brain war und jetzt bei Anthropic ist.
Gemeinsam mit seinen Koautoren hat er mit Methoden aus Physik und Statistik — Mean-Field-Theorie und freier Wahrscheinlichkeitstheorie — mathematisch charakterisiert, wie sich Signale in tiefen neuronalen Netzen ausbreiten. Für mich ist das eines der tiefgründigsten und zugleich unterschätztesten theoretischen und experimentellen Ergebnisse im Machine Learning der letzten zehn Jahre. Zum Beispiel spielten dynamical isometry [1] und die Weiterentwicklung dieser Idee eine wichtige Rolle dabei, die Konvergenz sehr tiefer Transformer-Modelle zu erreichen [2]
Nachdem ich diesen Text und die Beispiele gelesen habe, scheint mir klar: Diese Person hat eine außergewöhnliche Intuition für Optimierung nicht nur im Machine Learning, sondern in der modernen Gesellschaft insgesamt. Man sollte den technischen Hintergrund anerkennen und die Diskussion auf eine höhere Ebene heben, statt sich in Wortgefechten über Bedeutung oder Definitionen zu verlieren.
Im Kern ist es ein sehr menschlicher, empathischer Handlungsaufruf im Schatten des schnellen technologischen Fortschritts: „Wenn Sie Wissenschaftler sind und nach Forschungsideen suchen, die ein prosoziales und völlig neues Feld schaffen können, sollten Sie in Erwägung ziehen, formale und mathematische Brücken zwischen den Ergebnissen von Overfitting im Machine Learning und Problemen in Bereichen wie Ökonomie, Politikwissenschaft, Management Science und Operations Research zu schlagen.“
[1] Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks
http://proceedings.mlr.press/v80/xiao18a/xiao18a.pdf
[2] ReZero is All You Need: Fast Convergence at Large Depth
https://arxiv.org/pdf/2003.04887
- Der Zeitpunkt ist gerade interessant. Vor ein paar Tagen bin ich auf die Arbeit des Biologen Olivier Hamant gestoßen, der genau dasselbe Problem aufwirft.
  Seine Kernaussage ist, dass sehr hohe Performance — also Effektivität und Effizienz in Bezug auf bekannte Ziele — und hohe Robustheit gegenüber großen Systemschwankungen physikalisch nicht miteinander vereinbar sind. In der Natur gibt es viele Beispiele dafür, und entgegen der verbreiteten Wahrnehmung optimiert Evolution nicht auf hohe Performance, sondern auf hohe Robustheit. In einer Welt mit reichlich Ressourcen mag Performance-First sinnvoll gewesen sein, doch nun treten wir in eine völlig andere Phase ein, in der Instabilität die Norm ist. Um robuster zu werden, müssen wir einen Teil der Performance zurücknehmen, und letztlich wird uns das aufgezwungen werden. Das ist die frischeste und interessanteste Deutung der Polykrise, die ich seit Langem gesehen habe.
  https://books.google.co.uk/books/about/Tracts_N_50_Antidote_...
- Übersetzung für Laien: Hier wird Machine Learning analog zur mathematischen Struktur der Signalübertragung zwischen Individuen und Institutionen in der Gesellschaft gesetzt.
  Ein Mathematiker geht also davon aus, dass ein Problem, das die eine Seite plagt — nämlich Overfitting im Machine Learning, bei dem übermäßiges Training die Generalisierungsfähigkeit eines neuronalen Netzes verschlechtert und die nachbildbaren Funktionen stark an die Trainingsdaten bindet — auch die andere Seite plagen wird.
  Kurz gesagt bedeutet das: Wenn gesellschaftliche Systeme oder die Signalübertragung zwischen ihnen übermäßig entwickelt werden, muss es ab einem gewissen Punkt einen Kipppunkt geben, an dem es schlicht schlechter wird. Persönlich glaube ich, dass einige Branchen diesen Kipppunkt bereits weit überschritten haben könnten, wenn man nur betrachtet, was passiert, wenn alle Systeme perfekt eingehalten werden.
- Ich mag die Idee von ReZero. Im Grunde fügt man den Residual-Layern einen lernbaren Parameter α hinzu.
  Deep Network | xi+1 = F(xi)
  Residual Network | xi+1 = xi + F(xi)
  Deep Network + Norm | xi+1 = Norm(F(xi))
  Residual Network + Pre-Norm | xi+1 = xi + F(Norm(xi))
  Residual Network + Post-Norm | xi+1 = Norm(xi + F(xi))
  ReZero | xi+1 = xi + αi F(xi)
  Allerdings habe ich es in der Praxis noch nie im Einsatz gesehen. Auch die Gemma- und Llama-Paper scheinen weiterhin Layer Normalization zu verwenden. Übersehe ich da etwas?
- Diese Idee ist deshalb interessant, weil zum Beispiel eine Verbindung zwischen Ökonomie und der Funktionsweise von Machine Learning bedeuten würde, dass ausführbare, korrigierbare und veränderbare Computerprogramme direkt messbare Daten über Interaktionen komplexer Systeme liefern könnten.
  Die Realität ist zu nuanciert und vielschichtig, um Konzepte formal leicht zu verifizieren; daher existierten solche Interaktionen meist nur wie platonische Ideen. Die Vorstellung, dass es unterhalb der Ökonomie eine beweisbare und exakte Teilmenge von Logik gibt, ist eine mächtige Idee, die es sehr wert ist, verfolgt zu werden.
- Gegenargumente auf diese Weise kategorisch beiseitezuschieben, ohne ihren Inhalt tatsächlich zu behandeln, ist eine ziemlich manipulative Methode.
  Es gibt dabei auch mehrere logische Fehlschlüsse, etwa Appelle an Emotionen oder Autorität, und es passt nicht zum Geist intellektueller Neugier, den HN anstrebt.
Diese Argumentation stützt sich auf das bekannte Goodhartsche Gesetz: Sobald eine Kennzahl zum Ziel wird, ist sie keine gute Kennzahl mehr.
Allerdings erklärt sie das Problem nur als Messproblem – so, als könnten wir das, worum es uns wirklich geht, nicht messen und optimierten deshalb Ersatzmetriken. Meiner Ansicht nach ist das eine übermäßig reduktionistische Sicht. Das Problem liegt nicht nur im Messen, sondern im menschlichen Verhalten. Anders als Teilchen versuchen Menschen aktiv, jedes von uns geschaffene Kontrollsystem auszunutzen.
Das Problem geht viel tiefer als nur, dass sich Dinge wie „Frieden, Liebe, Welpen“ schlecht messen lassen. Ich denke, Campbells Gesetz [0] erfasst es besser als das klassische Goodhartsche Gesetz: „Je stärker ein quantitativer sozialer Indikator für soziale Entscheidungsfindung verwendet wird, desto stärker ist er Korruptionsdruck ausgesetzt und desto eher wird er die sozialen Prozesse verzerren und korrumpieren, die er überwachen sollte.“
Die vorgeschlagenen Gegenmaßnahmen – Normalisierung und Early Stopping – adressieren das bestenfalls nur indirekt und können im schlimmsten Fall neue Singularitäten schaffen, die für unerwünschtes Verhalten ausgenutzt werden.
[0] https://en.wikipedia.org/wiki/Campbell%27s_law
- Die Aussage „Menschen versuchen aktiv, jedes von uns geschaffene Kontrollsystem auszunutzen“ stimmt, aber das ist nur möglich, weil das Kontrollsystem nicht exakt nur das kontrollieren kann, was wir kontrollieren wollen.
  Ein Kontrollsystem ist nur ein unvollkommener Stellvertreter für das, was wir wirklich wollen, und das ist der Rolle einer Kennzahl in Goodharts Gesetz sehr ähnlich. Eine weitere Variante ist das Gesetz der unbeabsichtigten Folgen [0]. Vielleicht gibt es auch noch eine allgemeinere rechnerische oder komplexitätstheoretische Version, die wir noch nicht gefunden haben.
  [0] https://www.sas.upenn.edu/~haroldfs/540/handouts/french/unin...
- Nicht nur Menschen tun das, sondern jeder Agent.
  Wenn man einen genetischen Algorithmus für KI-Agenten erstellt, die in Delhi für möglichst viele tote Kobras belohnt werden, würde vermutlich sehr schnell ein Agent am besten abschneiden, der anfängt, Kobras zu züchten. Sowohl bei Menschen als auch bei KI ist die Reward Function gehackt worden. Bei KI würden wir sagen, dass die Reward Function schlecht entworfen war; bei Menschen sagen wir, die Akteure seien hinterlistig und moralisch minderwertig und hätten das System „ausgenutzt“.
- Menschen mögen es nicht, nur anhand von Zahlen bewertet zu werden, und gegen Systeme, die sie wie mit einer Schraube immer weiter unter Druck setzen, lehnen sie sich auf und versuchen, sie zu manipulieren.
  Deshalb passt dieses Zitat sehr gut, und es scheint wenig Raum zu geben, in dem es grob falsch wäre.
- Solche „Gesetze“ sind Näherungen und unvollständige Reduktionen.
  Welche davon nützlich oder erklärungsstark ist, hängt vom konkreten Fall ab. Die Optimierung im Machine Learning, die Optimierung von Social-Media-Algorithmen und die Optimierung eines Bildungssystems über standardisierte Tests sind unterschiedliche Dinge.
  Es gibt keine perfekte Abstraktion, die all diese verschiedenen Situationen exakt trifft, und diese Präzision ist auch nicht nötig. Es reicht, eine Intuition dafür zu bekommen, wo Probleme entstehen können.
In Schweden ist das in den letzten etwa 20 Jahren zu einem gesellschaftlichen Problem geworden.
1: Weil die Effizienz im Gesundheitswesen anhand der „abgeschlossenen Aufgaben“ von Hausärzten in der Primärversorgung gemessen wurde, wurde der Apparat darauf optimiert, viele einfache Fälle abzuarbeiten. Deshalb machen Ärzte oft nur oberflächliche Checks, geben statistisch passende Medikamente wie etwa Aspirin oder Antibiotika mit und schicken die Patienten nach Hause – oder überweisen sie an Spezialisten, wenn der Fall komplex aussieht.
Das Problem ist, dass durch die Effizienzsteigerung die Zahl der Ärzte in der Primärversorgung gesunken ist und sie faktisch zu Fließbandarbeitern wurden. Der persönliche Kontakt zu den Patienten verschwand, wodurch es schwieriger wurde, Signale zu erkennen, dass etwas nicht stimmt. Deshalb werden Dinge wie Krebs oft viel zu spät diagnostiziert; selbst wenn die spezialisierte Krebsbehandlung besser geworden ist, ist es dann häufig schon zu spät.
2: Das Eisenbahnsystem wurde privatisiert, und gemessen an der transportierten Frachtmenge war es wahrscheinlich ein großer Erfolg. Aber im System gibt es kaum Spielraum, damit verspätete Züge aufholen können, und kaum Zeit für mehr als grundlegende Wartung. Dadurch sind Verspätungen häufig und führen am Ende zu größeren Problemen.
- Wie Steve Jobs sagte, gibt es überall Beispiele dafür.
  „Wenn ein Unternehmen groß genug wird, will es den ursprünglichen Erfolg replizieren. Alle denken über den Prozess nach, durch den der erste Erfolg entstanden ist. Also replizieren sie diesen Prozess im ganzen Unternehmen. Es dauert nicht lange, bis die Leute Prozess und Inhalt verwechseln.“
  Das trifft von kleinen Unternehmen bis zu den größten Regierungen der Welt zu. Die meisten haben ihren Inhalt vergessen.
- Ich wünschte, die größten Probleme der US-amerikanischen Bahn- und Gesundheitsbranche wären nur von dieser Größenordnung.
In der Warteschlangentheorie gibt es ein verwandtes Gesetz: Wenn die Auslastung gegen 100 % geht, divergiert die Wartezeit gegen unendlich.
Wenn ein Prozess, eine Maschine oder ein Engineer keinen gewissen Puffer hat, werden manche Aufgaben ewig warten.
- Ich erinnere mich, früher einmal gelesen zu haben, dass Städte Ressourcen deutlich effizienter nutzen als Vororte oder ländliche Gebiete.
  Wenn ich an diese Aussage über Wartezeiten denke, verstehe ich jetzt, warum Städte so unangenehm sind: wegen des ständigen Ressourcenkampfs.
- Ich habe früher in einer Fabrik gearbeitet, und in der Planungsphase lag die Zielauslastung bei 80 %.
  Wenn man die Auslastung überschätzt, verschwendet man Geld; wenn man sie unterschätzt, beginnen sich „unwichtige“ Dinge zu riesigen Warteschlangen aufzutürmen.
- Man kann ein Maß für Robustheit in die Optimierungskriterien aufnehmen.
  Man kann explizit darauf optimieren, bei der Auslastung genug Spielraum zu lassen, um auf unerwartete Situationen reagieren zu können. Wenn man zum Beispiel Systemlasten priorisiert, muss das System in ruhigen Zeiten nicht untätig bleiben; im Notfall kann man Last mit niedriger Priorität abwerfen und so Spielraum schaffen.
  Ich verstehe, worauf der Artikel hinauswill, aber deshalb sollte man Optimierung nicht so leicht aufgeben.
- Ein zu 100 % effizientes System wirkt auf mich nicht resilient.
  Schon kleine Störungen in Subsystemen führen zu großen Zusammenbrüchen. Eine extreme Version davon haben wir bei den Lieferkettenausfällen durch COVID-19 gesehen. Autohersteller hatten nahezu vollständig auf Just-in-time-Produktion umgestellt, konnten den Chipmangel nicht abfedern und brauchten Jahre, um sich zu erholen.
  Auch Raum für Experimente verschwindet. Jedes Experiment ist dann nur noch außerhalb des Systems möglich, nicht innerhalb.
- Stimmt. Ich habe in mehreren Jobs und Teams gearbeitet, und alles, was nicht P0 war, wurde praktisch nie erledigt.
Auch in der Bewegungsphysiologie gibt es Beispiele für dieses Näherungsgesetz
Für normale Menschen gibt es viele gute Proxy-Indikatoren für Fitness. Man kann Sprinten, Standweitsprung, Kniebeugen, Clean and Jerk usw. trainieren. Schneller zu laufen, höher zu springen und schwerer zu beugen sind alles Indikatoren dafür, dass die Fitness zunimmt und das Training erfolgreich ist
Erstens: Je allgemeiner die Trainingsmethode ist, desto aussagekräftiger ist der Indikator. Wenn zum Beispiel die Fitness-Metrik lautet: „Kann man ein Auto einen Hügel hinaufschieben“, und die Trainingsmethoden Sprinten und Schwimmen sind, dann ist das Schieben eines schwereren Autos ein starkes Erfolgssignal. Ist die Trainingsmethode dagegen „Autoschieben üben“, bedeutet dieselbe Verbesserung nicht denselben Zuwachs an Fitness
Zweitens: Je spezialisierter ein Sportler wird, etwa ein Clean-and-Jerk-Athlet, desto weniger steht eine Leistungssteigerung für allgemeine Fitness. Der Weg von null zum Hobby-Gewichtheben umfasst Zuwächse an allgemeiner Kraft und Muskelmasse, aber der Weg vom College-Athleten zum Olympianiveau erfordert meist hochspezialisierte Fitnessmerkmale, die sich kaum auf andere Aktivitäten übertragen
Auch das, was im Sport Basisfitness und Spitzenfitness genannt wird, könnte eine ähnliche Metapher sein. Zufällig auf nicht nachhaltige Spitzenleistung hin zu trainieren, ist ebenfalls eine Falle der Überoptimierung. Das kann passieren, wenn man blind nur darauf schaut, dass „die Linie nach oben geht“, und eine scheinbar fantastische Optimierung kann einen in Wirklichkeit in einem lokalen Maximum festhalten. Ich sehe viele Analogien nicht nur in der Biologie, sondern auch in der Optimierung beim Machine Learning und in gesellschaftlichen Phänomenen
- Clean and Jerk kann man fast als eine der „vollständigsten“ Bewegungen betrachten
  Besonders dann, wenn man noch Squat-Varianten einbezieht. Deshalb ist es vielleicht nicht das beste Beispiel. Ich kenne niemanden, der mit mehr als seinem eigenen Körpergewicht mehrere Clean-and-Jerk-Wiederholungen schafft und in den meisten bedeutenden Aspekten menschlicher Fitness kein Monster ist
  Der menschliche Körper ist eine einzige Maschine, und hormonelle Reaktionen sind systemisch. Ausdauer und Kraft liegen auf einem Spektrum, aber der ganze Körper zieht gemeinsam mit
- Das ist eher ein Signal dafür, dass „allgemeine Fitness“ keine präzise Metrik ist
  Bis zu einem gewissen Punkt reicht der unscharfe Begriff „körperliche Leistungsfähigkeit“ aus, aber danach verliert er an Bedeutung, weil Leistungszuwächse aufgabenspezifisch werden und sich nicht auf andere Aufgaben übertragen
Deshalb mag ich es nicht, sich auf BIP zu konzentrieren. Vierteljährliche Umfragen zu Lebenszufriedenheit und Optimismus halte ich für bessere Maßstäbe
Wenn dich das BIP interessiert: Wenn mein Auto kaputtgeht und ich es reparieren lasse, steigt das BIP. Wenn Eltern zu Hause bleiben und ihre Kinder großziehen, sinkt das BIP. Wenn ich mein Haus selbst putze, sinkt das BIP ebenfalls
Auch die Arbeitslosenquote ist ein grober Indikator. Man erkennt nicht, ob diese Jobs die Jobs sind, die Menschen wollen, oder ob sie das Gefühl haben, schlechte Arbeit machen zu müssen
- Ich widerspreche nicht grundsätzlich, dass das BIP ein grober Maßstab ist; ich versuche nur, meine Gedanken zu ordnen
  Ich denke nicht, dass die Lebenszufriedenheit und der Optimismus einzelner Menschen so stark von der Wirtschaft eines Nationalstaats abhängen sollten, schon gar nicht so stark, dass die Regierung sie als Optimierungsziel nehmen sollte. Aufgabe der Regierung ist es, Bedingungen für Sicherheit, Wohlstand und Chancen zu schaffen, ohne den Rest der Welt zu unterdrücken oder den Planeten zu zerstören
  Innerhalb dessen ist es meine Aufgabe, ein zufriedenstellendes Leben zu finden, und ein solches Leben ist auch in sehr unterschiedlichen wirtschaftlichen und sozialen Strukturen möglich. Ebenso gibt es vermutlich keine Bedingungen, die allen Bürgern universelle Zufriedenheit verschaffen; welche zusammenfassende Statistik von Lebenszufriedenheit und Optimismus sollte man dann optimieren?
- Der Kernpunkt ist, dass es egal ist, was man misst
- Im Machine Learning arbeitet man mit Vektoren aus Tausenden von Größen, aber bei der Messung von Gesellschaft und Wirtschaft verwendet man ironischerweise nur eine oder wenige Zahlen
  Der allgemeine Diskurs in Nachrichten, Politik, Foren usw. wird immer stark vereinfacht und dreht sich nur um wenige Metriken. Ein Diskurs mit Tausenden von Metriken ist zu komplex, um leicht vermittelt zu werden
  Ich hoffe, dass die meisten Menschen irgendwann implizit anerkennen, dass eine kleinere Zahl von Metriken mit höherer Wahrscheinlichkeit eine Vereinfachung ist, die etwas verbirgt. Zum Beispiel: „X ist Milliardär, also ist er klug“, oder „Land X hat ein hohes BIP, also ist es besser als Land Y mit niedrigem BIP“
- Einverstanden, und das gilt auch für den Kapitalismus insgesamt
  Eine grobe Skizze früherer gescheiterter Alternativen zur zentralen Planung und eines Vorschlags als Ersatz für den Kapitalismus findet sich hier:
  https://jacobin.com/2019/03/sam-gindin-socialist-planning-mo...
  Im relevanten Teil heißt es, dass Planung und Arbeiterkontrolle Eckpfeiler des Sozialismus sind, zu ehrgeizige Planung jedoch nach sowjetischem Muster gescheitert ist und zu autonome Betriebe nach jugoslawischem Muster gescheitert sind. Umfassende Planung ist weder wirksam noch wünschenswert, und Dezentralisierung auf Betriebskollektive ist wirtschaftlich zu fragmentiert, um gesellschaftliche Interessen zu erkennen, und politisch zu fragmentiert, um Einfluss auf die Planung zu nehmen. Daher ist die entscheidende Frage, wie Staat, Planung, Betriebe und ihre Beziehungen verändert werden müssen, um dieses Dilemma zu lösen
  Die operative Einheit sowohl des Kapitalismus als auch des Sozialismus ist der Betrieb. Im Kapitalismus wird er Teil konkurrierender Kapitaleinheiten; im Sozialismus, wo private Einheiten zur Selbstexpansion ausgeschlossen sind, gehören Betriebskollektive zu „Sektoren“, die pragmatisch nach gemeinsamen Technologien, Produkten, Dienstleistungen, Vorgeschichte usw. organisiert sind. Diese Sektoren werden zu den Kerneinheiten der Wirtschaftsplanung und waren traditionell in staatlichen Ministerien wie Bergbau, Maschinenbau, Gesundheit, Bildung und Verkehr angesiedelt
  Die radikale Innovation besteht hier darin, die Planungsbefugnisse und -kapazitäten der Ministerien aus dem Staat heraus in die Zivilgesellschaft zu übertragen. Die früheren Ministerien werden verfassungsrechtlich anerkannt, stehen aber außerhalb des Staates und werden in Sektorräte umgewandelt, die von gewählten Vertretern der Betriebe des jeweiligen Sektors geführt werden. Die zentrale Planungskommission verteilt weiterhin Mittel entsprechend nationalen Prioritäten auf die einzelnen Sektoren, doch wenn sich betriebliche Macht auf Sektorebene bündelt, verändert das das Machtgleichgewicht zwischen Staat und Arbeitern und kann Marktprobleme auf eine Weise behandeln, die besser zum Sozialismus passt
  Entscheidend ist das Gleichgewicht zwischen Anreizen, die Ungleichheit vergrößern, und einer egalitären Investitionsausrichtung. Der von jedem Betriebskollektiv erwirtschaftete Überschuss kann zur Steigerung des gemeinsamen oder individuellen Konsums verwendet werden, aber nicht zur Reinvestition. Nationale Prioritäten werden auf Ebene der zentralen Planung durch demokratische Prozesse und Druck festgelegt und in sektorale Investitionszuweisungen übersetzt. Die Sektorräte verteilen Investitionsmittel auf die ihnen zugeordneten Betriebskollektive, aber anders als bei marktlichen Entscheidungen besteht das Hauptkriterium nicht darin, die produktivsten Betriebe noch stärker zu bevorzugen und so dauerhafte Unterschiede zu reproduzieren, sondern die Produktivität schwächerer Kollektive näher an die der stärkeren heranzuführen
  Entgegen Hayeks Behauptung ist es vielmehr der Kapitalismus, der den systematischen Austausch von Informationen verhindert. Die Konsequenz von Privateigentum und Gewinnmaximierung ist, dass Informationen ein Wettbewerbsvorteil sind und daher verborgen werden müssen. Im Sozialismus dagegen ist die aktive Weitergabe von Informationen eine notwendige Funktionsbedingung, und sie wird als Verantwortung der Sektorräte institutionalisiert
Ich habe versucht, mich daran zu erinnern, woher ich den Namen dieses Autors kenne.
Er ist derjenige, der 2015 das erste generative Diffusionsmodell erfunden hat.
https://arxiv.org/abs/1503.03585
- Mir ist er durch ein cleveres Paper von 2019 in Erinnerung geblieben, das er zusammen mit Stephan Hoyer und Sam Greydanus geschrieben hat.
  Darin geht es um Strukturoptimierung mithilfe eines neuronalen Netzes, das durch ein physikalisches Modell der zu optimierenden Struktur als Speicher, Modifikator und Abstimmer eingeschränkt wird: https://arxiv.org/abs/1909.04240
  Ein sehr interessanter Ansatz, und das Paper ist auch sehr gut geschrieben.
Ich muss daran denken, in ein Kettenrestaurant zu gehen.
Alles ist durch Fokusgruppen gegangen und optimiert, und es fühlt sich an wie eine überangepasste Proxy-Metrik für ein angenehmes Essen. Man fühlt sich, als säße man in einer unverhohlenen Maschine, die darauf optimiert ist, mich hereinzuholen und Profit aus mir herauszuziehen; dass es ein Restaurant ist, wirkt fast nebensächlich.
Es ist so eine Szene wie: „Hallo! Mein Name ist Tracy! Ich bin heute Abend Ihr Server!“, während sie ihren Namen mit Wachsmalstift perfekt spiegelverkehrt auf die Papiertischdecke schreibt. Dieser Laden sollte die Individualität der Mitarbeitenden wohl etwas neu kalibrieren.
Ich denke, das gilt auch, wenn Manager versuchen, Arbeitsprozesse zu überoptimieren.
Am Ende verlieren kreative Menschen das Interesse, und die Arbeit wird unerträglich. Ich glaube, im Job und im Leben braucht es ein bisschen Chaos.
- Ich ertappe mich oft dabei, wie ich mir die Lust auf viele Nebenprojekte selbst nehme, weil ich die Teile, auf die ich keine Lust habe, übermäßig optimieren will.
  Man muss die unangenehmen Teile einfach erledigen und weitermachen. Aber immerhin bezahlt mich wenigstens niemand dafür, mich in diesen Strudel zu ziehen.
Ich habe ein Beispiel für dieses Gesetz im örtlichen großen Baumarkt gesehen.
Vor etwa zehn Jahren installierte der Laden abschließbare Käfige zur Diebstahlsicherung. Anfangs lagen nur teure Artikel darin, und es war etwas lästig, aber nicht schlimm. Wenn man ein hochwertiges Elektrowerkzeug für über 200 Dollar kauft, nimmt man es im Allgemeinen in Kauf, fünf Minuten zu warten.
Ein paar Jahre später gab es dann eine Veränderung, die fast sicher datengetrieben war. Plötzlich war keine erkennbare Logik mehr darin zu sehen, welche Dinge eingeschlossen und welche offen zugänglich waren. Jetzt konnte ein Diagnosegerät für 500 Dollar einfach im Regal liegen, während eine Glühbirne für 5 Dollar hinter einem Schloss steckte.
Vermutlich war das Ergebnis, dass man eine Datenbank nach den kumulierten Verlusten durch Diebstahl sortiert hatte. Mit anderen Worten: Man schloss die Dinge ein, die den Baumarkt am meisten Geld kosteten.
Im Ergebnis wirkt die Atmosphäre des Ladens wie: „Dieser Ort ist so auf Profit fixiert, dass er seinen Kunden nicht einmal zutraut, keine Schachtel Zahnstocher zu stehlen“, und aus Kundensicht lohnt es sich oft nicht, auf einen Mitarbeiter zu warten, der den Käfig öffnet.
Selbst wenn dadurch der Diebstahl von ein paar Seifenstücken für 3 Dollar verhindert wurde, bezweifle ich, dass diese Optimierung dem Nettogewinn geholfen hat.
- Es ist viel bequemer, bei Amazon zu kaufen, als in der Apotheke jemanden zu suchen, der eine Glasvitrine aufschließt.
  Apotheken, die sogar Grundartikel in Glasvitrinen einschließen, sind meistens auch unterbesetzt.
- Die Aussage „Man schließt die Dinge ein, die dem Baumarkt durch Diebstahl die größten kumulierten Verluste verursachen“ und die Aussage „ich bezweifle, dass diese Optimierung dem Nettogewinn geholfen hat“ scheinen direkt im Widerspruch zu stehen.
  Es sei denn, man glaubt wirklich, dass Menschen deshalb nicht mehr in diesen Laden gehen und dieser Verlust die Verringerung der Diebstähle überwiegt. Außerdem werden konkurrierende große Baumärkte in der Gegend wahrscheinlich dasselbe tun, selbst wenn die Leute wegbleiben. Man sollte auch bedenken, dass Einzelhandelsmargen normalerweise nicht groß sind. Wenn ein Artikel gestohlen wird, wie viele weitere muss man verkaufen, um den Verlust auszugleichen? Selbst wenn einige Kunden zu Amazon wechseln, kann es sich immer noch lohnen, Diebstahl zu vermeiden.
  Tatsächlich ist es viel wahrscheinlicher, dass es den größten Effekt auf die Verringerung von Diebstahl hatte. Dass keine „erkennbare Logik“ sichtbar ist, kann daran liegen, dass man keine Erfahrung mit solchen Dingen hat. Diebstahl hängt oft stärker von der Wiederverkaufbarkeit ab als vom Preis des Artikels. Ein teures Nischen-Elektrowerkzeug braucht lange, bis man es weiterverkauft hat, aber Waschmittel und Rasierklingen kann man noch am selben Tag in großen Mengen loswerden. Menschen benutzen Waschmittel und Rasierklingen viel häufiger als Glühbirnen.
  Ich verstehe, dass man die Unannehmlichkeiten nicht mag. Aber meiner Meinung nach sollte sich die Kritik nicht gegen den Laden richten, sondern gegen Diebe oder gegen die Faktoren, die Diebstahl hervorbringen.