AI-Suche: Die bitterere Lektion

(yellow-apartment-148.notion.site)

1 Punkte von GN⁺ 2024-06-16 | 1 Kommentare | Auf WhatsApp teilen

Wenn man Basismodellen die Fähigkeit zur Suche (search) hinzufügt, bei der mehr Inferenzzeit aufgewendet wird, könnte sich ein anderer Pfad für den Fortschritt der KI eröffnen, als nur auf die Veröffentlichung größerer Modelle zu warten
Leela Chess Zero besiegte Stockfish mit Self-Play und Deep Learning, doch Stockfish gewann die Oberhand zurück, indem es ein kleineres neuronales Netz mit einer starken Such-Pipeline kombinierte
Suche bedeutet hier die Fähigkeit, durch den Einsatz von mehr Inferenz-Compute statt Trainings-Compute die Problemlösungsleistung zu erhöhen; gemeint sind nicht nur schachtypisches MCTS oder AlphaBeta
Suche kann Compute nur auf die benötigten Bereiche konzentrieren und Unternehmen wie Pfizer die Option geben, Inferenzkosten direkt zu bezahlen, statt auf größere Modelle von OpenAI zu warten
Wenn Suche zuerst in der KI-Forschung eingesetzt wird, könnte sie dabei helfen, effizientere Suchalgorithmen und Modellarchitekturen zu finden; selbstverbessernde KI könnte daher näher sein als erwartet

Leela und Stockfish zeigen die „bitterere Lektion“

Leela Chess Zero ist eine Schach-Engine, die nur mit den Regeln begann und durch Milliarden von Self-Play-Partien lernte
- Ohne menschliches Schachwissen direkt hart zu codieren, spielte sie Züge, die etablierte menschliche Schachlehren auf Basis selbst erlernter Methoden auf den Kopf stellten
- Sie zeigte langfristige Opfer und kreative Züge und gewann die Weltmeisterschaft
Leelas Stärke lag im Deep Learning und veranschaulichte gut die Macht groß angelegter Berechnung und des Lernens, von der The Bitter Lesson spricht
- Das passt zu der Entwicklung, dass selbst gelernte Repräsentationen mächtiger werden können als von Menschen entworfenes Wissen
Das Leela-Team beobachtete 2018, dass größere Netzwerke durchweg stärker waren als kleinere
- Größere Netzwerke zeigten emergente Eigenschaften, als könnten sie auch ohne explizite Suche einige Züge vorausblicken
2020 sammelte das Leela-Team Compute von Unternehmenssponsoren und den GTX 1070 von Bekannten, um ein größeres Netzwerk zu trainieren; kurz vor der Weltmeisterschaft hatte es sein größtes Modell vorbereitet, verlor jedoch

Stockfishs Comeback: kleines Modell und starke Suche

Stockfish war das dominierende Schachprogramm der 2010er-Jahre und ähnelte 2019 eher einer klassischen KI, bei der Menschen Spielwissen mit mathematischen Techniken in Code gegossen hatten
Leela besiegte Stockfish 2019 mit Deep Learning und einem tabula-rasa-Ansatz, doch Stockfish übernahm anschließend Leelas Deep-Learning-Techniken und trainierte ein deutlich kleineres Modell
- Dieses Modell war Hunderte Male kleiner als die besten Leela-Modelle
- Stockfish integrierte dieses kleine Modell in seine bestehende Such-Pipeline und dominierte Leela unmittelbar darauf
Dieser Sieg wirkt wie ein Gegenbeispiel zu den Scaling Laws, die größere Modelle nahelegen
- Denn das Modell war zwar kleiner, doch der Suchalgorithmus war effizienter, nutzte die Hardware besser und konnte weiter vorausblicken
Die „bitterere Lektion“ besteht darin, dass man auch in der glanzvollen Ära des Deep Learning die Macht der KI-Suche nicht unterschätzen sollte

Definition und aktuelle Grenzen der Suche in Basismodellen

Basismodellen wie GPT-4 fehlt Suche in dem Sinn, in dem dieser Text sie meint
- Es ist derzeit nicht möglich, GPT-4 zu bitten, einen Monat lang über ein Problem nachzudenken, und dadurch eine bessere Antwort zu erwarten
- Die Aufforderung, „Schritt für Schritt zu denken“, kann die Leistung verbessern, doch der Ertrag nimmt schnell ab
Suche in Basismodellen ist die Fähigkeit, Probleme durch den Einsatz von mehr Inferenz-Compute statt Trainings-Compute besser zu lösen
- Damit ist nicht nur schachtypische MCTS- oder AlphaBeta-Suche gemeint
- Auch introspektives Denken und Zusammenarbeit von Menschen fallen unter diese Definition
KI-Forschende, Ökonomen und CEOs könnten unterschätzen, wie nah und wichtig es ist, Basismodellen Suche zu verleihen
Warum Suche wichtig ist, lässt sich in drei Punkten zusammenfassen
- Für die Umsetzung muss möglicherweise nicht zwingend ein größerer Modellmaßstab erforderlich sein
- Compute kann nur dort konzentriert werden, wo er benötigt wird
- Sie kann die Automatisierung der KI-Forschung beschleunigen

Skalierung ist möglicherweise keine Voraussetzung für Suche

Eine verbreitete Annahme lautet, dass größere Modelle nötig sind, um LLM-Suche möglich zu machen
- Sholto Douglas sagt, für langfristiges Denken brauche es in der Zuverlässigkeit von LLMs mehr „Nines“
- Leopold Aschenbrenner meint, Pretraining könne bereits die für Suche nötigen Zutaten enthalten, benötige aber „etwas mehr Scaling“ und zusätzliche Tokens
Doch das Schachbeispiel stellt die Vorstellung infrage, dass Skalierung eine Voraussetzung für Suche sei
- DeepMind untersuchte in einem Schachalgorithmus ohne Suche, dass vorausschauendes Verhalten ohne externes Scaffolding natürlich entsteht
- Weil es im Schach bereits Suchalgorithmen gibt, ist das Argument schwach, man müsse darauf warten, dass eine ineffiziente Fähigkeit zum Vorausblicken in großen Modellen zufällig entsteht
Scaling Scaling Laws with Board Games zeigte, dass sich mit jeder Verzehnfachung des Compute beim Training der Compute beim Testen um etwa das 15-Fache reduzieren lässt
- Dieses Ergebnis wurde sogar bis hinunter zu einem Ein-Neuron-Modell beobachtet
- Es passt zu dem Fall, dass Stockfish mit einem Modell gewann, das um drei Größenordnungen kleiner war als Leelas Modell
Aktuelle Modelle könnten bereits groß genug sein, um Suche zu ermöglichen, und vielleicht sogar größer als nötig

Ökonomie der Suche und die Möglichkeit automatisierter KI-Forschung

Suche ermöglicht einen Tausch zwischen Compute beim Training und Compute bei der Inferenz und erlaubt es, Kosten nur in bestimmten Domänen auszugeben
Das Beispiel Pfizer zeigt, wie Suche zu domänenspezifischen Compute-Ausgaben führen kann
- Wenn Pfizer ein neues Medikament erforschen will, könnte das Unternehmen warten, bis OpenAI 2030 ein um vier Größenordnungen größeres Modell veröffentlicht
- Oder es könnte versuchen, schon jetzt eine ähnliche Fähigkeit zu erreichen, indem es um vier Größenordnungen mehr Inferenz-Compute einsetzt
Angenommen, Pfizer gibt jährlich 100.000 Dollar für GPT-4 aus: Um 2030 Zugang zu ASI-ähnlichen Fähigkeiten zu erhalten, müsste es sein KI-Budget um vier Größenordnungen auf 1 Milliarde Dollar pro Jahr erhöhen
- Pfizers R&D-Budget liegt bereits bei 12 Milliarden Dollar
- Ein Modell mit derselben Fähigkeit zu trainieren, könnte OpenAI nach dieser Sichtweise Billionen von Dollar kosten
Leopold Aschenbrenners Weg zu ASI im Jahr 2030 verläuft über große Cluster, Umsatzwachstum, umfangreiche Unternehmenskredite und den Aufbau noch größerer Cluster durch Regierungen, bis die Modelle groß genug werden, um selbst KI-Forschung zu betreiben
- In einer Welt ohne Suche wirkt dieser Pfad plausibel
In einer Welt, in der Suche funktioniert, ist ein anderer Pfad möglich
- Suche funktioniert mit bestehenden Modellen
- Große Labore und Regierungen wenden Suche sofort auf KI-Forschung oder Auslandsaufklärung an
- Inferenz-Compute ist begrenzt, sodass Regierungen oder große Labore seine Nutzung auf Sicherheit oder KI-Forschung beschränken
- Suchbasierter KI-Fortschritt findet effizientere Suchalgorithmen und Modellarchitekturen
- Weil Suche nicht mehr Trainingsdaten erfordert, wird das Problem der Datenbarriere schwächer
- Daraus ergibt sich die Aussicht, dass eine Intelligenzexplosion nicht 2030, sondern bereits im folgenden Jahr beginnen könnte
Wenn Suche in der KI-Forschung eingesetzt wird, können die Ergebnisse – anders als bei der Entdeckung neuer Medikamente – direkt zur Entwicklung besserer KI beitragen
- Frühe durch Suche verstärkte Modelle haben möglicherweise noch keine menschenähnliche Agency, um Tools zu nutzen oder Tests auszuführen
- Dennoch könnten sie wie übermenschliche „armchair theorists“ algorithmische Fortschritte vorantreiben
- Wenn GPT-4 mit 1 Billion Tokens und 15 Millionen Dollar einen Algorithmus findet, der die Trainingskosten um 3 % senkt oder die Sucheffizienz um 10 % erhöht, könnte sich das nach dieser Rechnung amortisieren
Diese Vorhersage stützt sich auf zwei Annahmen
- Es existieren Suchalgorithmen für Basismodelle, die Leistungssteigerungen ähnlich denen ermöglichen, die in RL-Systemen beobachtet wurden
- Suche wandelt vorhandenes Kapital effizienter in Intelligenz um als Modell-Scaling
Anders als bei den Scaling Laws der 2020er-Jahre gibt es noch wenig gute Evidenz zur Leistung und Wirtschaftlichkeit von Suche; übrig bleibt eine Extrapolation aus Erfahrungen mit Reinforcement Learning in Spielen

1 Kommentare

GN⁺ 2024-06-16

Meinungen auf Hacker News

Die Wirkung von Suche hängt mit der Qualität der Value Function zusammen. Die heutigen Value Functions sind jedoch sehr domänenspezifisch, und die Belege dafür, dass man eine Value Function bauen kann, die gut auf neue Domänen generalisiert, sind schwach oder fehlen ganz.
Der Beitrag macht im Grunde einen konzeptionellen Sprung von „für Schach gibt es eine gute Value Function“ zu „wir können eine gute Value Function bauen, die Suche für KI-Forschung ermöglicht“.
Wenn das klappt, wäre das natürlich großartig und so etwas wie der Heilige Gral, aber ich bezweifle, dass es wirklich möglich ist. Außerdem würden Inferenzzeit-Kosten von 1000- oder 10000-fach pro LLM-Ausführung die Kosten in absurde Höhen treiben.
- Eine generalisierte Value Function, also LLM-Benchmarks, gibt es meiner Meinung nach bis zu einem gewissen Grad. Das Problem ist, dass es zur Inferenzzeit keine billige Approximation gibt, die günstig genug für Tree Search wäre.
  Schach funktioniert, weil materieller Vorteil eine ziemlich gute Approximation für den Sieg ist und sich sehr leicht berechnen lässt.
- Ich frage mich, ob du an einen Durchbruch bei „General AI“ glaubst. Was du hier beschreibst, bringt gut auf den Punkt, warum ich gegenüber KI-Forschern skeptisch bin, die glauben, „wir sind bald so weit“.
  Schon General AI selbst scheint gar nicht genau definiert zu sein.
- In manchen Domänen kann Selbstbewertung allein ausreichen. Dann versucht die KI mehrfach, Antworten zu finden, die nach ihren eigenen Kriterien höhere Punktzahlen bekommen, und bewertet sich wiederholt selbst.
- Alles, was man für eine gute Value Function braucht, ist eine hochwertige Simulation der jeweiligen Aufgabe.
  In manchen Domänen funktioniert das besser. Bei mathematischen Theorembeweisern zum Beispiel weiß man exakt, ob sie erfolgreich waren.
  Nebenbei könnte man in Lean eine suchähnliche Funktion einbauen, die menschlichen Forschern hilft; das könnte dann auch Fortschritte von KI in der Mathematik unterstützen.
- Stockfish hat in einer gegebenen Stellung nur eine begrenzte Zahl legaler Züge, und verlierende Äste können früh und aggressiv beschnitten werden; trotzdem bewertet es beim Blick 40 Züge voraus wahrscheinlich Millionen von Stellungen.
  Die Kosten, Millionen möglicher Fortsetzungen eines LLM zu bewerten, um eine optimale Antwort auszuwählen, sind kaum vorstellbar.
  Der Punkt, an dem Tree Search bei LLMs eher Sinn ergibt, ist womöglich nicht die Suche über Alternativen auf Wortebene, sondern Inferenz, die gröbere „Was wäre, wenn ich so denke?“-Pfade durchsucht. Trotzdem können die Kosten für Generierung sowie Bewertung und Pruning schnell untragbar werden, und ein so voreingenommener Ansatz wirkt nicht so, als entspräche er der bitteren Lektion; in mancher Hinsicht scheint er ihr eher direkt zu widersprechen.
Das ist generell ein wirklich schwer zu lösendes Problem, und auch kluge Forscher wie Yann LeCun versuchen herauszufinden, welche Rolle Suche beim Bau von AGI spielt.
Yanns aktuelle Wette scheint zu sein, Joint Embedding Predictive Architectures, also JEPA, für Representation Learning zu nutzen, um robuste Weltmodelle aufzubauen, und Agenten verschiedene Handlungen ausprobieren zu lassen, um Theorien zu testen.
Dieses Paper [0] fasst seine mögliche Vision gut zusammen, aber natürlich ist das weit schwieriger als einfach Suche + Transformer.
Dahinter steht die Annahme, dass Sprache die Welt gut genug repräsentiert, damit ein Agent effektiv darauf suchen und neue, nützliche Ideen hervorbringen kann. Das wirkt wie eine offene Frage. Was wissen LLMs? Wissen sie wirklich irgendetwas? Das müssen Forscher herausfinden.
Wenn heutige LLMs ein ausreichend reichhaltiges Weltmodell simulieren können, kann Suche tatsächlich nützlich werden; wenn sie aber nur nachahmen, dann sucht man lediglich über unzuverlässige Überzeugungen.
Deshalb ist Video wichtig: Es ist ein Beleg dafür, dass Menschen aus einer Abfolge von Bildern nützliche Weltmodelle extrahieren können.
Sprache und Schach haben praktisch diskrete Handlungsräume, sodass man generative Modelle trainieren kann, die für die Verlustberechnung die gesamte Eingabe rekonstruieren. Bei Video müssen Transformer über kontinuierliche Verteilungen skalieren, wodurch es deutlich schwieriger wird, ein nützliches prädiktives Weltmodell zu bauen.
[0]: https://arxiv.org/abs/2306.02572
- Ich habe den Eindruck, dass schon die Idee, AGI sei möglich, aus einer tiefen und weitverbreiteten Vorstellung entsteht, das menschliche Gehirn als Computer zu sehen. Aber das menschliche Gehirn ist kein Computer.
  Egal wie komplex ein Programm ist, es bleibt eine Turingmaschine, und Menschen sind das fundamental nicht.
  https://aeon.co/essays/your-brain-does-not-process-informati...
  Die Informationsverarbeitungs-Metapher für menschliche Intelligenz beherrscht heute sowohl den Alltag als auch die Wissenschaft, wenn es um menschliches Denken geht. Aber letztlich ist auch sie nur eine weitere Metapher, die wir geschaffen haben, um etwas zu verstehen, das wir eigentlich nicht verstehen; eines Tages wird sie durch eine andere Metapher oder durch tatsächliches Wissen ersetzt werden.
  Selbst wenn wir im selben Konzert Beethovens 5. hören, sind die Veränderungen, die in meinem Gehirn stattfinden, und die in einem anderen Gehirn mit ziemlicher Sicherheit völlig verschieden. Denn sie finden auf neuronalen Strukturen statt, die durch jeweils einzigartige Erfahrungen geprägt wurden.
  Deshalb wiederholen zwei Menschen dieselbe Geschichte, die sie hören, nicht identisch, und mit der Zeit werden diese Wiederholungen immer unterschiedlicher. Es entsteht keine „Kopie“ der Geschichte; vielmehr verändert sich jede Person, die die Geschichte gehört hat, bis zu einem gewissen Grad.
- Auf die Frage „Wissen sie wirklich irgendetwas?“ würde ich mit Ja antworten. Allerdings glaube ich auch, dass sie Dinge „wissen“, die völlig falsch sind.
  Das größte Merkmal, das ich bei LLMs beobachtet habe, ist, dass sie mit Logik und Mathematik schlecht umgehen. Sie liefern selbstbewusst offensichtlich falsche Informationen, obwohl es besser wäre, „ich weiß es nicht“ zu antworten. Ich halte es für sehr unwahrscheinlich, dass das absichtlich so designt wurde.
Der Beitrag beginnt mit einer interessanten Prämisse, bleibt aber unzureichend, weil er im Kontext von LLMs nicht definiert, was Suche bedeutet, und auch nicht erklärt, was gemeint ist mit „Pfizer könnte mit mehr Inference-Compute schon heute an die Fähigkeiten von GPT-8 herankommen“
Selbst als AI-Praktiker fiel es mir schwer zu folgen. Es bräuchte jemanden, der genauer erklären kann, was der Originalbeitrag meint
Die Suche einer Chess Engine, also mehrere Züge vorauszuschauen, scheint möglich zu sein, weil es eine Zielfunktion gibt, mit der sich Ergebnisse ranken lassen. Es gibt eine Metrik dafür, welcher mögliche Zug „besser“ ist, und das ist meist eher eine inhärente Eigenschaft von Reinforcement Learning. Ich frage mich, ob LLMs eine solche Metrik haben
- Genau dieser Punkt verwirrt mich ebenfalls sehr
  Vermutlich ist gemeint, dass man für jedes der Top-Vorhersagetokens des Modells ein paar Tokens in die Zukunft ausführt, verfolgt, welcher Zweig im Vergleich zu den Trainingsdaten am besten abschneidet, und diese Information dann fürs Training nutzt
  Aber Suche sollte die Effizienz zur Inference-Zeit erhöhen, und das leistet dieser Ansatz nicht
- Wahrscheinlich ist es so gemeint, und ich glaube nicht, dass es eine solche Metrik gibt. Leute werden adversariale Evaluation versuchen, aber am Ende dürfte es stark zu durchschnittlichen Vorhersagen konvergieren
  Außerdem ist LLM-Inference nicht billig. Der Trade-off zwischen Inference-Kosten und Trainingskosten ist je nach Anwendung sehr unterschiedlich. Es kann Domänen geben, in denen es sinnvoll ist, 100- oder 1000-fache Inference-Kosten zu akzeptieren, wenn man dafür die Trainingskosten um den Faktor 10 senkt
Charlie Steiner hat das schon vor 5 Jahren auf Less Wrong angesprochen
Wenn man GPT-3 mit einem Stapel medizinischer Lehrbücher trainiert und es bittet, eine Behandlung für Alzheimer zu nennen, wird es keine Behandlung nennen, sondern das wiedergeben, was Menschen über Alzheimer-Behandlung gesagt haben
Die Stoßrichtung ist: Es ist weniger ein logisches Orakel als ein intuitives Orakel, das auf Basis von Zusammenhängen in den Trainingsdaten plausibel klingende Geschichten erzählt
Dass Alzheimer schwer zu behandeln ist, bedeutet, dass in diesem Design etwas fehlt, und dieses Etwas ist Suche. Das heißt nicht, dass ein neuronales Netz unmöglich direkt eine Behandlung ausgeben kann, aber es scheint so, als müsste es im trainierten Modell bereits eine Dimension „Alzheimer-Behandlung“ geben
Wenn man die Behandlung noch nicht kennt, besteht der realistische Weg darin, sich über viele logische Schritte langsam durch den logischen Raum zu bewegen, Möglichkeiten immer weiter einzugrenzen und schließlich etwas zu finden, das die Bedingungen erfüllt. Also ein Suchproblem zu lösen
Wenn eine AI eine Alzheimer-Behandlung nennen kann, sucht sie wahrscheinlich entweder explizit nach einer Behandlung, oder ihr interner Zustand führt implizit eine Suche aus
https://www.lesswrong.com/posts/EMZeJ7vpfeF4GrWwm/self-super...
- Ich frage mich, ob man das, ohne es auf GPT zu beschränken, so verallgemeinern könnte
  „Wenn man eine Logikmaschine mit einem Stapel medizinischer Lehrbücher trainiert und sie bittet, eine Behandlung für Alzheimer zu nennen, wird sie nicht die Behandlung nennen, sondern das, was diese Lehrbücher über Alzheimer-Behandlung gesagt haben“
  Wahrscheinlich eher nicht. GPT scheint im Wesentlichen darauf beschränkt zu sein, Gelesenes wiederzugeben und neu zu kombinieren, aber ein anderer Algorithmus mit besserer Logik könnte praktisch Meta-Forschung betreiben. Das heißt, er könnte alle bisherigen Alzheimer-Experimentergebnisse nehmen und den Lösungsraum stärker eingrenzen, als Menschen es geschafft haben
  Menschen haben möglicherweise nicht die Kapazität, alle relevanten Ergebnisse gleichzeitig im Kopf zu halten, ein Computer aber vielleicht schon
  Wenn man GPT sagt: „Denke Schritt für Schritt“, wird die Leistung besser, also besitzt es eindeutig irgendeine Form der nötigen Logik. Auch „Hier sind Daten, bitte transformiere sie“ erledigt es gut
  Die Grenzen liegen in der Qualität der Logik und in der Fenstergröße, in der diese Transformation ausgeführt werden kann. Allerdings können die im Training gespeicherten Daten viel umfangreicher sein als das Eingabetokenfenster, was ein teilweiser Workaround sein kann
  Wenn es beide Fähigkeiten hat, ist es schwer zu behaupten, dass Skalierung unmöglich sei. Ich weiß nicht, ob man ausschließen kann, dass eine weiterentwickelte Form von GPT in vorhandenen Daten eine Alzheimer-Behandlung findet; und ein System, das für diese Aufgabe besser geeignet ist, bräuchte dafür vielleicht nicht einmal AGI
  Natürlich müssen die für die Lösung nötigen Bausteine in den Daten enthalten sein. Das Zitat scheint aber schon die Möglichkeit auszuschließen, eine Behandlung zu identifizieren, selbst wenn alle Informationen in den Daten enthalten sind und nur die fertige Lösung noch fehlt
Suche ist mit ziemlicher Sicherheit nötig, und die Leute, die Cluster im Billionen-Dollar-Maßstab fordern, sollten inzwischen mit den Leuten sprechen, die übermenschliche Chess Engines gebaut haben, die heute sogar auf Smartphones laufen
Denn jemand könnte einen Weg finden, mit einem Cluster für eine Million Dollar – oder mit 500.000 Clustern zu je einer Million Dollar – einen Billionen-Dollar-Cluster zu schlagen
Meine Schlussfolgerung zu Schach ist, dass der Verzweigungsfaktor im Schach nicht so groß wird, dass ein Breitensuche-Ansatz unmöglich wäre. Der mediane Verzweigungsfaktor, also die Zahl legaler Züge, liegt höchstens bei etwa 40 und meist um 30
Die höchste Zahl, die ich in einer realen Partiestellung gesehen habe, waren 147 Züge, aber zu diesem Zeitpunkt waren fast alle Züge Schachmatt
Der Grund, warum es lange schwierig war, Go Engines übermenschlich zu machen, lag darin, dass der Verzweigungsfaktor viel größer war als beim Schach
MCTS ist weniger gründlich, daher ergibt es Sinn, dass eine vollständige Suche Schwächen finden und ausnutzen kann. Die Frage ist, ob man einen Breitensuche-Ansatz auf größere Spiele und Situationen anwenden kann, und ich denke, die Antwort ist klar nein
Der Verzweigungsfaktor realer Situationen ist im Unterschied zu Schach um mehrere Größenordnungen höher
Allerdings sind in der Realität, anders als im Schach, die meisten kleinen Entscheidungen ziemlich unwichtig. Ob man von New York nach LA mit dem Auto fährt, fliegt oder zu Fuß geht, ist sehr wichtig. Aber ob man beim Hinausgehen zuerst den linken oder den rechten Fuß setzt, oder ob man jetzt blinzelt oder in zwei Sekunden, ist meist nicht wichtig
- Der Verzweigungsfaktor von LLMs dürfte, gemessen an der Zahl möglicher nächster Tokens, bei etwa 50.000 liegen
Der Text wirkt bei seinen Zukunftsprognosen ziemlich schwer greifbar und überheblich, scheint aber einen Versuch wert zu sein
„Suche“ ist eine Verallgemeinerung von „generieren und testen“ und Rejection Sampling. Das ist klassische KI
Als ich vor der Dotcom-Ära einen Einführungskurs in KI belegte, lernte ich, wie man in Prolog Suchprogramme schreibt
Die Geschwindigkeit hängt davon ab, wie lange es dauert, einen Kandidaten zu erzeugen, wie lange es dauert, ihn zu testen, und wie viele Kandidaten man ausprobieren muss. Wenn diese Dinge langsam sind, ist auch das Ganze langsam
Ein Beispiel für Rejection Sampling mit einem Menschen in der Schleife ist die Nutzung eines Bildgenerators, bei der man immer neue Prompts ausprobiert, bis ein Bild entsteht, das einem gefällt. Da das Erzeugen neuer Bilder aber lange dauert, ist die Schleife langsam
Wenn Bilderzeugung so schnell funktionieren würde wie die Google-Bildersuche, könnte daraus etwas wirklich Bedeutendes werden
Theorembeweisen und Programm-Fuzzing sind automatisiert und schnell und haben gute Bewertungsfunktionen, daher scheinen sie gut geeignet, um LLMs mit Suche zu kombinieren
Google scheint einen Fuzzer [1] veröffentlicht zu haben, den man mit einem LLM nach Wahl verbinden kann; ich frage mich, ob ihn schon jemand ausprobiert hat
[1] https://github.com/google/oss-fuzz-gen
- Die bekannten Suchverfahren und „Bewertungsfunktionen“ im Theorembeweisen oder in der Planung liegen theoretisch bereits nahe an optimalen Grenzen
  Was man daher braucht, ist nicht eine neue Bewertung oder ein neues Suchverfahren, sondern neue Mathematik, die überhaupt garantiert, dass sich der Versuch lohnt
  Nehmen wir Theorembeweisen als Beispiel: SLD-Resolution ist ein korrektes und vollständiges automatisches Theorembeweisverfahren für induktive Inferenz. Als speichereffiziente Implementierung kann man Tiefensuche verwenden, sie kann sich aber bei Linksrekursion in Schleifen verfangen; als zeiteffiziente Implementierung kann man Breitensuche mit Memoisierung verwenden, dann wächst die Speicherkomplexität jedoch exponentiell
  Eine „Bewertungsfunktion“ greift hier nicht. Denn Resolution selbst ist gewissermaßen eine Funktion, die die Wahrheit formallogischer Sätze bzw. die Gewissheit ihres Wahrheitswerts bewertet
  Und sie ist korrekt und vollständig sowie für klar definierte Logiken semientscheidbar. Solange man Church-Turing nicht verletzt, ist das das Beste, was geht
  Mit heuristischer Suche kann man die Effizienz verbessern. Zum Beispiel gab es solche Versuche, um die NP-Härte von Enthaltenseinsbeziehungen zu vermeiden, die ein wichtiger Teil praktischer SLD-Resolution sind; dabei kommt eine heuristische Kostenfunktion im weiteren Sinn ins Spiel
  Es gibt aber zwei Probleme: a) Heuristische Suche zu verwenden bedeutet, Vollständigkeit zu opfern, und b) in der Planung gibt es bereits recht solide Methoden, um heuristische Funktionen durch Relaxierung des Planungsproblems abzuleiten
  Die Lehre lautet: Wähle zwei aus Korrektheit, Vollständigkeit und Effizienz. Statistische Machine-Learning-Ansätze wie LLMs können lediglich zwei andere auswählen als die bisherigen Verfahren
  Im Grunde sind wir bei den gesamten Leistungsgrenzen suchbasierter KI an einem Punkt angekommen, an dem nur noch marginale Gewinne möglich sind. Dort wird es bleiben, bis jemand bessere Mathematik liefert
- Der berühmte Mathematiker und starke Befürworter computergestützter Theorembeweise Terence Tao geht davon aus, dass Machine Learning im Bereich der Theorembeweiser neue Wege eröffnen wird
Ich glaube, ich verstehe den Spielraum, den Leela und das heutige Stockfish durchsuchen. Aber ich weiß nicht, welchen Möglichkeitsraum der Autor LLMs durchsuchen sieht
1. geschriebene Wörter, 2) Modelle aus Mathematik, Reinforcement Learning und Materialwissenschaft, 3) kleinere, formalisierte Räume wie den Spielraum im Schach, all das oder etwas anderes — das ist unklar. Vielleicht hat er es irgendwo klargestellt und ich habe es übersehen
- Es scheint, als wolle er, dass der Suchalgorithmus selbst nach besseren Suchalgorithmen sucht. Also Selbstverbesserung. Dann könnten einige der engeren Domänenbeschränkungen wegfallen
Bevor LLMs ein Heilmittel gegen Krebs entdecken, würde ich vorschlagen, sie zuerst das handlichere Problem des „göttlichen Cheesecakes“ entdecken zu lassen
Ein Cheesecake, der so gut ist, dass 100 faire Köche ihn als den leckersten beurteilen, den sie je gegessen haben
Das LLM müsste nur den viel stärker kombinatorisch begrenzten „Cheesecake-Raum“ intelligent durchsuchen und ein möglichst leckeres Cheesecake-Rezept finden
Aber ein LLM kann keinen Cheesecake backen, und selbst wenn es ihn backen würde, könnte es seinen Geschmack nicht bewerten
Bis KI das Problem des „göttlichen Cheesecakes“ löst, sollten wir uns alle in Sachen AGI etwas beruhigen
- Diese Cookies waren sehr lecker, aber nicht göttlich. Mit etwas Investition und moderneren Methoden ließen sich ziemlich gute Rezepte erstellen, vielleicht sogar bessere als von irgendeinem Menschen
  Ich denke, KI könnte ein Rezept erstellen, das bei einem sehr kompetitiven Backwettbewerb gewinnt. Allerdings alle 100 Juroren zu überzeugen, ist für niemanden möglich
  https://static.googleusercontent.com/media/research.google.c...
- Ich frage mich, wie man es sähe, wenn die Antwort wäre: „Für eine sinnvolle Antwort brauche ich 2 Wochen und 5000 Dollar“
- Selbst innerhalb der Grenzen eines rein auf einem Computer laufenden LLMs würde es die Welt verändern, wenn ein LLM wirklich großartige Kurzgeschichten oder gute Werbetexte schreiben könnte
- TikTok ist die digitale Version dieses Problems
- Gibt es jemanden, der glaubt, dass dabei nicht der beste Cheesecake der Geschichte herauskäme, wenn man mit einem LLM-gestützten Programm Cheesecake-Rezepte per Trial-and-Error ausprobiert und von einer Jury bewerten lässt?
  Der Backteil ist Robotik, daher ist der Vergleich etwas weniger fair, aber in gewissem Umfang ist das bereits möglich
Das größte Problem, das der Autor nicht erkannt hat, ist, wie enorm der dafür nötige Compute ist
Der Text ist wie die Aussage, dass ein Affe, wenn man ihm nur genug Zeit gibt, Shakespeare schreibt. Natürlich stimmt das, aber der Suchraum ist unbeherrschbar groß, und selbst wenn irgendwo eine Antwort existiert, findet man sie in diesem Chaos nicht
Seit über einem Jahr arbeite ich Vollzeit an Pruning- und evolutionären LLM-Systemen
Ich habe mehrere „Such-“ oder „Explorations“-Algorithmen gebaut. Das Problem ist: Nach mehreren Schritten erzählt ein Agent, dem ursprünglich die Aufgabe gegeben wurde, Biologie zu erforschen oder zu betreiben, plötzlich Geschichten über Kriegsschiffe. Das ist ein Beispiel aus echter früherer Arbeit
Ein einzelner Schritt ist fast die einzige Situation, in der eine Suchfunktion tatsächlich funktioniert. Bei mehrstufigen Agenten explodieren die Möglichkeiten sehr schnell ins Unendliche
Auch ein einzelner Schritt hat Probleme. Wenn man zum Beispiel eine Zero-Shot-Frage zur Lösung eines Coding-Problems 1000-mal ausführt, kann das helfen, eine bessere Lösung zu finden, aber nur, weil der Suchraum begrenzt ist. Diese Begrenzung ist etwas Gutes
Kürzlich habe ich bei mehreren LLM-Modellen einen Test gemacht, bei dem ein einzelner Eingabe-Prompt mit nur geänderten Eingabeeinstellungen 10.000-mal inferiert wurde. Ein einzelner Prompt hat keine unendlichen Antwortmöglichkeiten. Sie sind begrenzt. Genau deshalb kann er heute mit LLMs funktionieren
Das Phänomen, dass Agenten nicht gut funktionieren, ist ein Beispiel für dieses Problem. Schon der Suchraum eines einzelnen Schritts ist riesig, aber mit jedem Schritt eines Agenten wächst er exponentiell
Ich baue Tools und Systeme, um dieses Problem zu lösen, aber groß angelegte Suche scheint ungefähr so weit entfernt zu sein wie die Aussage: „Wenn man die Größe von KI-Modellen um den Faktor 100 erhöht, ist es gelöst“
Autonomie ist nicht dasselbe wie Intelligenz oder Schlussfolgern
Die Formulierung „Leela Chess Zero hieß zero, weil es nur mit den Regeln begann“ ist verbreitet, aber falsch
Leela und seine Verwandten enthalten noch ein anderes schachspezifisches Wissen, das für die Leistung entscheidend ist: ein Game-World-Model, das eine Schachpartie als Spielbaum darstellt. Die Struktur ist in je einen Ply pro Zug eines Spielers unterteilt
Dieser Spielbaum wird von adversarialen Suchalgorithmen wie Minimax oder Monte Carlo Tree Search durchsucht. Soweit ich es verstehe, setzt Leela auf MCTS
Die genauere Modellierung eines Spiels als Spielbaum lässt sich nicht nur auf Schach, sondern auf viele Spiele anwenden. Der konkrete Spielbaum, wie er in Schach-Engines verwendet wird, ist jedoch auf zweipersonale, nullsummige Brettspiele mit perfekter Information zugeschnitten, die Schach ähneln
Für andere Arten von Spielen braucht man andere Modelle und andere Suchalgorithmen. Siehe zum Beispiel Poker und Libratus [1]
Solche Spielbäume, also Game-World-Models, lassen sich derzeit nicht weglassen, wenn das Ziel hohe Leistung ist. Der Text erwähnt suchfreie Algorithmen und streift kurz deren zentrale Grenze, nämlich das „Warum?“
Genau darin liegt auch das Unbehagen gegenüber der bitteren Lektion. Denn es wird opportunistisch gewählt, was als Domänenwissen gilt, also als „Modell“ im Sinne einer Theorie
Wie auch Rodney Brooks [2] und andere gesagt haben, dominierten Convolutional Neural Networks die Bildklassifikation, weil sie Convolutional Layers nutzten, um Positionsinvarianz zu etablieren. Das ist ein von Menschen erfundenes Modell maschinellen Sehens
Genauso wie ein Spielbaum ein von Menschen erfundenes Spielmodell ist, gilt das auch für das meiste, was in KI und Machine Learning bisher getan wurde. Menschen bauen Modelle der Welt, der Umgebung, der Domäne und von Prozessen, und Computer rechnen mit diesen Modellen; manchmal übertreffen sie dabei Menschen, wie bei Schach und Go, oder liefern zumindest Ergebnisse, die sich mit handgebauten Lösungen nicht erreichen lassen
Die eigentliche Lektion ist eine andere: menschliche Modelle + maschinelle Berechnung haben in den letzten 80 Jahren alle schwierigen Probleme der KI gelöst. Und wir wissen überhaupt nicht, wie man etwas macht, das auch nur ein wenig davon abweicht
[1] https://en.wikipedia.org/wiki/Libratus
[2] https://rodneybrooks.com/a-better-lesson/
- Einen Algorithmus, der allein aus Beobachtungen ein World Model erstellt, habe ich noch nicht gesehen. Ansätze ja, aber nichts auf menschlichem Niveau
  Eines Tages wird es so weit sein. Wir leben in interessanten Zeiten

AI-Suche: Die bitterere Lektion

Leela und Stockfish zeigen die „bitterere Lektion“

Stockfishs Comeback: kleines Modell und starke Suche

Definition und aktuelle Grenzen der Suche in Basismodellen

Skalierung ist möglicherweise keine Voraussetzung für Suche

Ökonomie der Suche und die Möglichkeit automatisierter KI-Forschung

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News