Terence Taos Analyse von O1

(mathstodon.xyz)

2 Punkte von GN⁺ 2024-09-15 | 1 Kommentare | Auf WhatsApp teilen

Der Mathematiker Terence Tao hat OpenAIs neues GPT-Modell der o1-Reihe an Aufgaben aus der mathematischen Forschung getestet und bewertet es als leistungsfähiger als frühere Modelle, aber für Probleme an der Spitze der Forschung noch unzureichend.
Bei einer mehrdeutigen mathematischen Frage fand es den relevanten Satz, Cramer’s theorem, und lieferte eine zufriedenstellende Antwort – eine deutliche Verbesserung gegenüber den halluzinatorischen Antworten früherer GPTs.
Bei einem schwierigen Problem aus der komplexen Analysis gelangte es nur mit vielen Hinweisen und Lenkung zu einer korrekten Lösung; die Generierung der Kernidee bleibt also weiterhin schwach.
Im Lean-Formalisierungsexperiment war die Zerlegung des Problems selbst plausibel, doch Informationen zu Lean und Mathlib waren veraltet, sodass Codefehler und Zuverlässigkeitsprobleme bei Bibliotheksaufrufen bestehen blieben.
Tao meint, KI könne die Produktivität in der mathematischen Forschung deutlich steigern, wenn sie zunächst langweilige, überprüfbare Teilaufgaben ausfüllt und mit formalen Beweisassistenten kombiniert wird.

Gesamtbewertung von GPT-o1

OpenAIs neues GPT-Modell der GPT-o1-Reihe führt vor der LLM-Ausführung einen anfänglichen Reasoning-Schritt aus.
Tao hatte Zugriff auf eine Prototypversion und erklärte in späteren Antworten, dass er hauptsächlich das Modell getestet habe, das derzeit als preview version bezeichnet wird.
Insgesamt ist es leistungsfähiger als frühere Iterationen, hat aber bei den anspruchsvollsten Aufgaben der mathematischen Forschung weiterhin Schwierigkeiten.

Experiment 1: Mehrdeutige mathematische Frage und Cramer’s theorem

Das erste Experiment war eine Wiederholung eines früher durchgeführten Experiments.
Die Frage war eine mehrdeutig formulierte mathematische Frage, die nur gelöst werden konnte, wenn man in der Literatur den passenden Satz, Cramer’s theorem, fand.
Das frühere GPT erwähnte zwar einige verwandte Konzepte, lieferte im Detail aber eine nahezu halluzinierte, sinnlose Antwort.
Das neue Modell identifizierte Cramer’s theorem und lieferte nach Taos Einschätzung eine vollständig zufriedenstellende Antwort.

Experiment 2: Schwieriges Problem aus der komplexen Analysis

Im zweiten Experiment gab Tao dem neuen Modell ein schwieriges Problem aus der komplexen Analysis, bei dem er zuvor GPT-4 um Unterstützung beim Ausarbeiten eines Beweises gebeten hatte.
Das Ergebnis war besser als bei früheren Modellen, blieb aber hinter den Erwartungen zurück.
- Mit vielen Hinweisen und Lenkung konnte es zu einer korrekten und gut geschriebenen Lösung gelangen.
- Es konnte die zentrale konzeptionelle Idee nicht selbst erzeugen.
- Auch nichttriviale Fehler traten auf.
Tao verglich diese Erfahrung damit, eine „statische Simulation eines durchschnittlichen, nicht völlig inkompetenten Doktoranden“ anzuleiten.
Da frühere Modelle eher einer „statischen Simulation eines tatsächlich inkompetenten Doktoranden“ entsprachen, bewertet er dieses Modell als Verbesserung.
Mit ein oder zwei weiteren Leistungssteigerungen und einer Integration von Tools wie Computer-Algebra-Paketen und Beweisassistenten könne es das Niveau einer „statischen Simulation eines kompetenten Doktoranden“ erreichen.
Auf diesem Niveau könnte es auch bei Aufgaben auf Forschungsniveau ziemlich nützlich werden.

Experiment 3: Lean-Formalisierungsaufgabe

Im dritten Experiment ließ Tao das neue Modell mit einer Aufgabe in Lean beginnen: eine Form des Primzahlsatzes aus einer anderen Form des Primzahlsatzes abzuleiten.
Gefordert war nicht der Beweis selbst, sondern das Zerlegen des Problems in untergeordnete Hilfslemmata und das Formalisieren dieser Aussagen.
Das Ergebnis war vielversprechend.
- Das Modell verstand die Aufgabe gut.
- Es nahm eine plausible erste Zerlegung des Problems vor.
Die Einschränkungen waren jedoch deutlich.
- In den Trainingsdaten fehlen aktuelle Informationen zu Lean und mathematischen Bibliotheken.
- Der Code enthielt mehrere Fehler.
Tao meint, dass ein Modell mit dieser Fähigkeit sehr nützlich für Formalisierungsprojekte sein könnte, wenn es speziell auf Lean und Mathlib feinabgestimmt und in eine IDE integriert würde.

Experimente zu semantischer Suche und kreativer Strategiegenerierung

Tao hatte 2010 auf MathOverflow eine Frage gestellt, weil er den richtigen Begriff für „multiplicative integral“ nicht finden konnte, und erhielt von menschlichen Experten eine zufriedenstellende Antwort.
Als er o1 dieselbe Frage stellte, gab es eine perfekte Antwort zurück.
Allerdings könnte der entsprechende MathOverflow-Beitrag in den Trainingsdaten des Modells enthalten gewesen sein, sodass dies keine genaue Bewertung der semantischen Suchfähigkeit sein muss.
Dennoch zeigte es bei einigen semantischen Suchanfragen in Bezug auf hochwertige Antworten ein Niveau, das Frage-Antwort-Websites ebenbürtig ist.
In einem weiteren Experiment gab Tao dem Modell den Anfang eines aktuellen Blogbeitrags und ließ es nach dem fehlenden Element suchen, das einen bestehenden Teilerfolg zu einem Erdős-Problem in eine vollständige Lösung verwandeln würde.
Dieses Ergebnis war eher enttäuschend.
- Das Modell schlug dieselbe Strategie vor, die in dem Blogbeitrag bereits als Strategie der neuesten Forschung neu formuliert worden war.
- Eine kreative Abwandlung dieser Strategie lieferte es nicht.
Tao meint, LLM-Tools hätten zwar eine gewisse Fähigkeit, zufällig kreative Strategien zu erzeugen, seien in dieser Hinsicht aber noch schwach.

Korrektur zur Doktoranden-Analogie

Tao korrigierte sich dahingehend, dass er bei der Bewertung von KI-Tools den falschen und potenziell schädlichen Eindruck erweckt habe, menschliche Doktoranden ließen sich nach einem statischen, eindimensionalen „Fähigkeitsniveau“ klassifizieren.
Die Fähigkeit, zu bestehenden Forschungsprojekten beizutragen, sei nur einer von vielen Aspekten eines Promotionsstudiums und ein vergleichsweise kleiner Teil.
Studierende, die in Kreativität, Unabhängigkeit, Neugier, Erklärungsfähigkeit, Intuition, Fachkenntnis, Arbeitsethik, Organisation und sozialen Fähigkeiten herausragen, können erfolgreichere und einflussreichere Mathematiker werden als Studierende, die bei zugewiesenen technischen Aufgaben geschickt sind.
Menschliche Studierende lernen und wachsen während ihres Studiums; Bereiche, die ihnen anfangs schwerfallen, können sie einige Jahre später gut beherrschen.
Moderne KI-Tools können Feedback zwar teilweise in ihre Antworten einfließen lassen, einzelne Modelle vollziehen jedoch kein echtes langfristiges Wachstum, weshalb es sinnvoller ist, sie anhand statischer Leistungskennzahlen zu bewerten.
Tao entschuldigte sich dafür, einen Rahmen verwendet zu haben, der menschliche Studierende mit einer fixierten Denkweise beurteilt.

Nutzen und Kostenverhältnis als Forschungsassistent

Taos Vergleichsmaßstab ist, inwieweit ein Tool Teilaufgaben in komplexen mathematischen Forschungsprojekten unterstützen kann, die von einem Expertenmathematiker geleitet werden.
Ein kompetenter Doktorand kann Beiträge leisten, die wertvoller sind als der Nettoaufwand, ihn in ein Projekt einzuarbeiten und zu betreuen.
Bei aktuellen Tools ist der Aufwand für passendes Prompting und Verifizieren noch größer als der Nutzen aus den gewonnenen Ausgaben.
- Tao beschreibt das aktuelle Verhältnis grob als 2x~5x.
Er sieht keinen Grund auszuschließen, dass dieses Verhältnis innerhalb weniger Jahre auf unter 1x fällt.
Fällt es unter 1x, könnte das eine breitere Adoption des Tools in diesem Bereich auslösen.
Für einige konkrete Teilaufgaben hält er das Verhältnis bereits für kleiner als 1.
- Semantische Suche
  - Umwandlung von Datenformaten
  - Generierung von numerischem Rechencode zur Unterstützung der Exploration in der mathematischen Forschung

Defizite bei Lean und Mathlib

In Taos Experiment ist die größte Lücke auf dem Weg zu einem nützlichen Formalisierungstool die Methode, Ausgaben auf den aktuellen Stand von Lean und Mathlib zu gründen.
Lean und Mathlib entwickeln sich monatlich weiter.
Das Modell scheint auf mehreren Versionen von Lean und Mathlib trainiert worden zu sein, die mehr als ein Jahr alt sind, und diese Versionen sind seiner Einschätzung nach nicht zu 100 % miteinander kompatibel.
Dadurch sind die vom Modell erzeugte Syntax und die Bibliotheksaufrufe schwer zuverlässig zu verwenden.
Für jemanden, der den aktuellen Stand von Lean und Mathlib kennt, sind die Ergebnisse jedoch nahe genug, um die meisten kleinen Fehler manuell beheben zu können.

Überprüfbare Automatisierung und formale Beweisassistenten

Der zentrale Anwendungsfall, den Tao im Blick hat, ist, Probleme schneller zu lösen, die ein Mathematiker im Prinzip mit viel Handarbeit bewältigen könnte.
Die KI füllt zunächst die mühsamen Schritte aus, und ein menschlicher Experte prüft die Ausgabe.
In diesem Fall kann die Produktivität deutlich steigen, auch wenn die KI kein wirklich originelles Denken zeigt.
Dadurch könnten auch Forschungsprojekte in größerem Maßstab möglich werden, als es derzeit machbar ist.
Wenn solche Tools mit formalen Beweisassistenten integriert werden, lässt sich die Konsistenz von Aufgaben, bei denen ein Beweis für eine mathematische Aussage geliefert werden muss, mit hoher Zuverlässigkeit automatisch bewerten.
Tao hält solche Aufgaben für einen erheblichen Teil der Aufgaben auf Forschungsniveau.

Ausblick auf ein Ökosystem von KI-Tools für mathematische Forschung

Tao erwartet das Entstehen eines Ökosystems von KI-Tools, das verschiedene Forschungsaufgaben bearbeitet.
Dazu gehören Literaturrecherche, Beweisformalisierung und das Lösen kurzer Teilprobleme.
Derzeit erhalten sehr große, allgemeine proprietäre LLMs die meiste Aufmerksamkeit, doch irgendwann könnten die Grenzkosten für Daten und Rechenleistung, die für weitere Verbesserungen oder Fine-Tuning für bestimmte Anwendungen nötig sind, übermäßig hoch werden.
Auch leichtere Open-Source-Modelle und Datensätze, die die Forschungsgemeinschaft für maßgeschneiderte Bedürfnisse entwickelt, könnten eine wichtige Rolle spielen.
Allgemeine Modelle könnten als benutzerfreundliche Schnittstelle dienen, die engere Tools koordiniert.

1 Kommentare

GN⁺ 2024-09-15

Kommentare auf Hacker News

Wenn GPT stärker auf Lean-Proof-Assistants abgestimmt würde, ähnlich wie auf Python, dürfte es in der Mathematik auf Forschungsniveau deutlich nützlicher werden.
Ich arbeite in einem OR-nahen Bereich, und ChatGPT 4o hat genug OR-Literatur aufgenommen, um für verschiedene „Problemformen“ ziemlich brauchbare Mixed-Integer-Programming-(MIP)-Formulierungen zu liefern.
Wenn man ihm zum Beispiel ein Logikproblem gibt wie „Verteile i Items nach Punktzahl auf n Buckets, wobei jeder Bucket der Reihe nach gefüllt werden soll“, spuckt es tatsächlich eine brauchbare mathematische Formulierung aus, die man meist nur leicht anpassen muss.
Es warnt auch vor schwachen Formulierungen, bei denen die Logik brechen kann, und ist dadurch enorm hilfreich, um Fallen zu vermeiden.
Natürlich ist es schwer, es so zu nutzen, wenn man MIP-Optimierung nicht versteht, und man muss das Problem in kleinere Teile zerlegen, damit GPT Schritt für Schritt schließen kann. Aber für jemanden, der das kann, sind 20 Dollar im Monat den Preis allemal wert.
Wenn sich Leute auf HN darüber beschweren, dass kostenpflichtige/gute LLMs, also Sonnet 3.5 und GPT-4o, nutzlos seien, scheint es meist daran zu liegen, dass sie nicht wissen, wie man die Stärken von LLMs nutzt, wegen des Hypes One-Shot-Magie erwarten oder dass es tatsächlich nicht zu ihrem Fachgebiet passt.
Für Leute, die die Stärken von LLMs ausnutzen und Fehler überprüfen können, sind sie im Arbeitsalltag ein beträchtlicher Hebel.
- Der Nützlichkeit stimme ich voll und ganz zu.
  HN und das Internet insgesamt sind zu einem Meer aus reflexartigem Herabsetzen und Gerede darüber geworden, LLMs seien „nutzlos“, aber in der Realität habe ich seit Wochen keine einzige Codezeile mehr selbst geschrieben.
  Ich beschreibe absatzweise, was ich will, lasse mich um Fallstricke herumführen und bekomme Code, der in einfachen Iterationsschleifen funktioniert.
  Das ist ganz klar eine erlernte Fähigkeit, und die Modelle – besonders die Tools darum herum – haben die nötige Baseline erreicht.
  Wenn man einfach dranbleibt, lernt und herausfindet, wie man damit arbeitet, wird die Welt deutlich produktiver.
  Edit: https://aider.chat/ + kostenpflichtiges 3.5 Sonnet
- Ich arbeite ebenfalls in einem OR-nahen Bereich, hatte mit 4o bei MIP-Formulierungen aber viel weniger Glück.
  Es liefert plausibel klingende Antworten und schwer greifbare mathematische Erklärungen, aber die Gleichungen funktionieren nicht und die Schlussfolgerungen greifen nicht ineinander.
  Es fühlt sich an, als säße man in einem Mathekurs mit seltsamen Beweisen und frage sich, ob man selbst zu dumm ist, nur um dann herauszufinden, dass der Professor ein entflohener Demenzpatient war und von Anfang an nur wirres Zeug geredet hat.
  Gestern ließ ich o1 prüfen, ob es per Maximum Flow einen einfachen Pfad von s nach t gibt, der v passiert, und der sehr überzeugend wirkende Algorithmus war fundamental kaputt.
  Meine Lösung übernahm einige Techniken aus diesem gescheiterten Versuch, aber selbst nach mehreren Hinweisen fand es keine funktionierende Antwort, versuchte weiter nur einen s→t-Fluss zu finden und erkannte nicht, dass v→{s,t} der Kern ist.
  Auch das Überprüfen dieser Schlussfolgerungen ist geistig unglaublich ermüdend.
  Subtil falsche Antworten sind schwerer zu entdecken und zu bestrafen als offensichtlich falsche, sodass ich fast vermute, RLHF habe in Richtung verschwommener Schlussfolgerungen selektiert.
- Da ich gerade einen MIP-Kurs unterrichte, habe ich 4o ein paar Fragen gestellt, die ich meinen Studierenden gebe.
  Es konnte Grundbausteine liefern, etwa wie man x!=y formuliert oder wie man das Rucksackproblem angeht, aber sobald ich eine auch nur ein wenig interessante Frage stellte, die nicht bloß aus dem Lehrbuch auswendig gelernt war, schien keines der Modelle richtig zu liegen.
  Ich frage mich, wie du bessere Antworten bekommst.
  Vielleicht liegt es auch daran, dass ich eine Antwort sofort verwerfe und selbst schreibe, sobald ich sehe, dass sie falsch ist.
  Tatsächlich habe ich gerade gefragt, wie man x!=y formuliert und erklärt, wenn x und y ganzzahlige Variablen im Bereich {1..9} sind; die Nebenbedingungen waren korrekt, die Erklärung aber falsch.
- Ich arbeite auch in OR und habe bei MILP-Optimierung genau die gegenteilige Erfahrung gemacht.
  Auch die Forschungsergebnisse sehen ähnlich aus: In einer großen Übersichtsarbeit von Anfang dieses Jahres hieß es, LLMs lägen bei Lehrbuchproblemen meist richtig, würden aber mit steigender Komplexität und Neuartigkeit immer nutzloser.
  Die Ergebnisse sind bestenfalls schematisch, und sobald man ins Detail geht, werden sie zu raffinierten Fallen, die eher Missverständnisse erzeugen.
  Wenn man ein LLM fragt, was eine bestimmte Nebenbedingung macht, oder schlimmer noch, es die mathematische Modellierung von proprietärem syntaktischem Zucker in CPLEX erklären lässt, halluziniert es Mathematik, Syntax und Erklärung gleichermaßen.
- Eine gute Erwiderung auf reflexartiges LLM-Bashing ist: „Ist das nicht genau die Art von Aussage, die ein stochastischer Papagei machen würde?“
  Manche auf HN würden einen sprechenden Hund, der C-Code geschrieben hat, abtun, weil darin ein Buffer-Overflow-Fehler steckt.
Stell dir vor, du würdest ins Jahr 2019 zurückgehen und lesen, dass die Interaktion mit etwas wie Alexa „ungefähr so war, als würde man einem durchschnittlichen, aber nicht völlig unfähigen Doktoranden Ratschläge geben“.
Als Unterschied von nur fünf Jahren ist das erstaunlich.
- Der erste Beruf, den KI wohl stark reduzieren wird, ist Programmierung.
  Besonders gefährdet scheinen herausragende, aber remote arbeitende Individual Contributors, und in diesem Forum gibt es dabei einen offensichtlichen Interessenkonflikt.
- Der wichtige Punkt scheint zu sein, dass die meisten Menschen nicht einmal das Intelligenzniveau eines „durchschnittlichen, aber nicht völlig unfähigen Doktoranden“ erreichen.
  Ein durchschnittlicher naturwissenschaftlicher Doktorand, besonders einer, der nicht abbricht, sondern abschließt, ist im Vergleich zu den meisten von uns eine sehr beeindruckende Person.
  Dass „wir“ ein solches Intelligenzniveau den ganzen Tag als Assistenten nutzen können, ist ein enormes Lebens-Upgrade, sofern man sich nur die Token-Kosten leisten kann.
- Man kann sich auch vorstellen, ins Jahr 1950 zurückzugehen und zu lesen, dass die Zukunft darin besteht, mit Bots über Mathehausaufgaben zu chatten.
- Deshalb halte ich das KI-Zeitalter nicht für Hype, sondern für sehr real.
  Jensen sagte, KI habe das iPhone-Zeitalter erreicht.
  In den nächsten fünf bis zehn Jahren wird es keine AGI oder ASI geben, egal wie die Leute sie definieren, aber ich bevorzuge es oft, KI als assistierende Intelligenz oder augmentierte Intelligenz zu bezeichnen.
  Sie wird genug Wert liefern, um den aktuellen Verkauf von Computern und Smartphones mindestens fünf bis zehn Jahre lang oder über drei bis vier Austauschzyklen hinweg anzutreiben.
- Terry ist ein Genie, das diesen Wert aus LLMs herausholen kann.
  Der Durchschnittsmensch kann das noch nicht.
  Einerseits kann er Modelle nicht gut prompten, andererseits sind seine Lebensprobleme von vornherein nicht textbasiert.
Das o1-Modell ist wirklich erstaunlich
Bei einem Projekt für schnelle Vektorähnlichkeit habe ich bei bereits hochoptimiertem Rust-Code eine erhebliche Beschleunigung erzielt, bestätigt durch sorgfältige Benchmarks und Korrektheitsprüfungen.
Darüber hinaus hat es mir geholfen, ein neues Maß für statistische Abhängigkeit auf Basis der Jensen-Shannon-Divergenz neu zu denken und zu konzeptualisieren, und es funktioniert sehr gut.
Außerdem hat es eine ultraschnelle Implementierung der normalisierten Mutual Information erstellt – etwas, das ich ursprünglich in die Bibliothek aufnehmen wollte, wofür ich aber bei großen Vektoren, etwa ab 15.000 Dimensionen, keinen ausreichend schnellen Ansatz gefunden hatte.
Es lieferte zwar nicht von Anfang an perfekten Rust-Code, der sofort kompilierte, aber nachdem ich die Compiler-Warnungen aus VS Code eingefügt hatte, versuchte es es noch einmal und behob alle Bugs.
GPT-4o brauchte dagegen oft Dutzende Anläufe, um Rust-Typfehler, Lifetime-/Borrowing-Fehler usw. zu beheben, und Claude 3.5 Sonnet war in Bezug auf Rust seltsamerweise einfach dumm.
Nicht nur Performance-Optimierung und vergleichsweise bugfreier Code, sondern auch kreative Problemlösung, enormes Kernwissen in Mathematik und Algorithmen sowie die Synthese aktueller Forschungsergebnisse, zusammen mit der Fähigkeit zu verstehen, was ich erreichen will, und es tatsächlich umzusetzen – all das zusammen fühlt sich wirklich wie ein Game Changer an.
Das Diff der Änderungen an den Code-Dateien ist hier: https://github.com/Dicklesworthstone/fast_vector_similarity/...
- Ein erheblicher Teil des Grundes, warum man jemanden für 500.000 Dollar im Jahr einstellt, ist, ihn mit riesigen bestehenden Systemen arbeiten zu lassen, die LLMs noch nicht verstehen.
  Trotzdem ist das Optimieren kleiner Bibliotheken und Implementieren schneller Funktionen eine große Verbesserung in der Werkzeugkiste jedes Programmierers.
- Jetzt gibt es eine Zahl in Dollar, auf die man sich beziehen und die man einordnen kann.
Meine Erfahrung mit o1 war sehr anders, und nach meinen Maßstäben würde ich es nicht einmal als auf dem Niveau eines „guten Studenten im Bachelor“ bezeichnen.
Zum Beispiel habe ich hier eine recht einfache Frage gestellt, und es war völlig verwirrt.
https://moorier.com/math-chat-1.png
https://moorier.com/math-chat-2.png
https://moorier.com/math-chat-3.png
Das vollständige Gespräch dürfte hier sein: https://chatgpt.com/share/66e5d2dd-0b08-8011-89c8-f6895f3217...
- Anekdotisch, aber für mich war O1 schlechter als 4o und Claude 3.5 Sonnet.
  Erschwerend kommt hinzu: Es ist langsamer und redet mehr.
- Wenn man darüber nachdenkt, LLMs mit Geometrie zu trainieren, steckt ein großer Teil der Informationen im Ausgangsmaterial wohl in den Abbildungen, die zusammen mit dem Text vorliegen.
  Da dieses Modell nicht multimodal ist, wurde es mit den beigefügten Abbildungen möglicherweise überhaupt nicht trainiert.
  Es wäre gut, wenn Leute Sammlungen von Geometrieaufgaben und Sammlungen von Analysis-Aufgaben prüfen und die Unterschiede vergleichen würden.
- Ich weiß nicht, warum sie es dazu gebracht haben, so zu klingen wie ein Kundendienstmitarbeiter.
  Die ideale Erfahrung hier wäre eine kurze, prägnante Antwort, nicht eine weitschweifige und unterwürfige.
- Ich frage mich, ob inzwischen herausgefunden wurde, worin der Fehler bei der Volumenberechnung des abgeschrägten Ikosidodekaeders lag.
Neu für mich war, dass „die Erfahrung ähnelt dem Beraten eines mittelmäßigen, aber nicht völlig unfähigen Doktoranden“ in so vielen Bereichen zutrifft.
Ich habe großen Nutzen daraus gezogen, Dinge mit LLMs zu strukturieren und zu verstehen.
In Bereichen, die ich sehr gut kenne, hilft es, weil es enorm viele kleine Aufgaben erledigt.
Wie Terence im dritten Experiment anmerkte, ist es ziemlich solide darin, kleine Lücken zu füllen, wenn man das Problem zerlegt.
Allerdings braucht es konzeptionelles Verständnis, und auch etwas Prompting-Technik spielt eine Rolle.
Wenn man sich in unbekannte Bereiche vorarbeitet, muss man Prompts schrittweise aufbauen.
Wenn die Antwort bekannt ist, ist es besser, von kleinen, konkreten Dingen auszugehen und nach außen zu erweitern; auch wenn man von außen nach innen geht, sollte man konkret und fokussiert beginnen.
Ich habe es genutzt, um in die konzeptionellen Schichten sehr komplexer Themen einzudringen, von denen ich überhaupt nichts wusste, und die Konzepte anschließend mit YouTube-Experten, Forschungsarbeiten und vertrauenswürdigen Quellen zu überprüfen – es ist ein erstaunliches Werkzeug.
- Meine Erfahrung ist dieselbe.
  Ich behandle LLMs wie Praktikanten oder Juniors, die die Laufarbeit übernehmen, für die ich selbst keine Kapazität habe.
  Man muss sie beaufsichtigen, ihnen helfen und ihre Fehler überprüfen, aber am Ende bekommt man nützliche Ergebnisse.
  Von der Haltung her dürften Menschen, die schon Praktikanten betreut oder Juniors gem Mentoring gegeben haben, leichter Wert aus LLMs ziehen, insbesondere aus den kostenpflichtigen Modellen.
  Umgekehrt können erfahrene, einzelgängerische Individual Contributors, die nicht wissen, wie man aus Menschen Wert herausholt – so wie ich zu Beginn meiner Karriere –, sie möglicherweise weniger gut nutzen.
„Sie muss zu kreativen mathematischen Sprüngen wie Terence Tao fähig sein“ wirkt für eine KI wie ein ziemlich hoher Maßstab.
Das ist ungefähr so, als würde ein Interviewer in einem Programmiergespräch ein Problem erklären, an dem sein Team monatelang gearbeitet hat, und dann enttäuscht sein, wenn man die Lösung ohne Google nicht in 40 Minuten ans Whiteboard schreiben kann.
- Aus meiner Erfahrung mit Leuten wie Terence Tao: Ich komme diesem Niveau überhaupt nicht nahe, aber sie suchen nach jeder Art von Kreativität.
  Alles ist willkommen, es muss nicht unbedingt „auf ihrem Niveau“ sein.
  Wenn ich lese, was er geschrieben hat, und es mit meiner Erfahrung abgleiche, halte ich diese Beschreibung für ungenau.
  Das kam auch in einem Vortrag vor, den er Anfang des Jahres bei der IMO gehalten hat: Er war von einigen Interaktionen beeindruckt, hatte aber weiterhin das Gefühl, dass eine Art kreativer Funke fehlt.
- Man muss keinen so hohen Maßstab hineininterpretieren.
  Was er tatsächlich gesagt hat, war konkret: „Die Ergebnisse hier waren etwas enttäuschend ... Im Wesentlichen schlug das Modell Strategien vor, die bereits in der aktuellen Arbeit zu dem Problem identifiziert worden waren, sowie solche, die ich in meinem Blogbeitrag erneut beschrieben hatte, lieferte aber keine kreative Variation dieser Strategien.“
  Der entscheidende Punkt ist, dass eben dieser Blogbeitrag Teil der ChatGPT-Eingabe war.
  Darüber hinaus hat er klar gesagt, dass er für die Zukunft zwar erwartet, dass es nützlicher wird, derzeit aber KI/ChatGPT nur zum Formatieren von Literaturangaben und zum Schreiben einfacher Codebeispiele im „Hello World“-Stil verwendet.
  Online gibt es mehrere Behauptungen, er nutze ChatGPT ständig für seine Forschung, aber alles, was über Coding-Zwecke hinausgeht, scheint nicht zu stimmen.
  Allerdings ist „Terence Tao bei seiner Forschung helfen können“ tatsächlich ein hoher Maßstab.
- Das lässt sich nicht nur bei Terence Tao beobachten.
  Wenn man mit ChatGPT versucht, Programme zu schreiben, die komplexer sind als Tutorial-Code, oder einfache Blogbeiträge zu verfassen, fehlt es an Kreativität, und auch das Code-Design ist miserabel.
- Genau das war auch mein erster Gedanke.
  Wenn jemand, den man als die Person mit dem vielleicht höchsten IQ unter den heute lebenden Menschen ansehen kann, zwar beeindruckt, aber nicht vollständig zufrieden ist, weil ein Computer keine nobelpreisreife mathematische Schlussfolgerung liefert, dann ist das an sich schon ein enormer Indikator.
  Was soll dann ein Mathematik-Doktorand im ersten Jahr denken?
  Tao scheint diesen Punkt in einem früheren Beitrag indirekt angesprochen zu haben, indem er im Grunde sagte: „o1 ist ungefähr wie ein Graduate Student.“
Interessant ist, dass auch Menschen von Schlussfolgern nach Art einer Gedankenkette profitieren können.
Tatsächlich glaube ich, dass alle Studierenden der Mathematik deutlich leistungsfähiger wären, wenn sie verpflichtet würden, sich zuerst alle relevanten Definitionen und Informationen ins Gedächtnis zu rufen, bevor sie sie verwenden.
In der Realität tun das nicht einmal Lehrkräfte und Mathematiker, weil Erinnern anstrengend ist und wir nicht mehr Aufwand treiben wollen, als zum Lösen eines Problems nötig ist.
Wenn das Erinnern scheitert, muss man Informationen nachschlagen, was noch mehr Aufwand bedeutet; deshalb entsteht in der Praxis ein starker Anreiz, einfach „nach Gefühl durchzuziehen“.
KI hat keine emotionale Hürde gegenüber verschwendetem Aufwand und wird dadurch zu einem besseren Schlussfolgerer, als es ihre angeborenen Fähigkeiten eigentlich erwarten ließen.
- In Prüfungen den Lösungsweg zu zeigen, ähnelt in gewisser Weise dem Schlussfolgern mit einer „Gedankenkette“, ist aber etwas anders.
  Beides zwingt dazu, den Prozess in Schritte zu zerlegen, sodass die Logik erhalten bleibt und wichtige Schritte nicht übersprungen werden.
  Den Lösungsweg zu zeigen dient jedoch eher dazu, das korrekte Verfahren nachzuweisen, während Schlussfolgern mit einer „Gedankenkette“ während des Vorgehens relevante Definitionen und Konzepte ins Gedächtnis ruft und so ein tieferes Verständnis sicherstellt.
  Beides soll verhindern, dass man sich einfach nach Gefühl durchwurstelt, aber die „Gedankenkette“ geht stärker auf den Erinnerungsaspekt ein, den Menschen leicht vermeiden.
- Diese Perspektive gefällt mir wirklich.
  Obwohl ich so viele Belege dafür gesehen habe, dass Gedankenketten LLMs helfen, bin ich nicht darauf gekommen, sie stärker bei mir selbst einzusetzen.
  Natürlich tue ich das bereits in gewissem Maß, aber normalerweise bei Weitem nicht so sehr wie ein LLM.
  Vielleicht wird Schreiben deshalb so oft als hervorragende Denkweise gepriesen.
  Schreiben ermöglicht mit weniger Aufwand längere Gedankenketten.
- Ich dachte, alle machen das so, wenn sie bei einem mathematischen Problem feststecken.
  Ich meine Mathematik auf Hochschulniveau, nicht Schulmathematik.
  Auch beim Unterrichten habe ich die Leute immer dazu gebracht, zu den Definitionen zurückzugehen.
  Ich war in mathematischer Forschung nicht besonders gut und habe nach Promotion und Postdoc aufgehört, aber meiner Erfahrung nach besteht Forschung einerseits darin, tief über ein Problem nachzudenken, festzuhalten, was passiert, und es irgendwie zu zerlegen, und andererseits darin, alles durchzugehen, was man zu diesem Problem weiß, nach ähnlichen Problemen zu suchen und zu sehen, ob man Ideen stehlen kann.
Ich freue mich sehr darauf, bald als eigenständiges Neugier-Hobby wieder Mathematik zu lernen.
Diesmal kann ich mich beim Lernen auf LLMs stützen, und das dürfte unglaublich spannend werden.
Zufällig habe ich, ähnlich wie Terence Tao, einem LLM beim Lesen eines Lehrbuchs Fragen zur komplexen Analysis gestellt, um sie besser zu verstehen.
Die Fähigkeit, offene mathematische Fragen zu interpretieren und schnell hilfreiche, relevante, weit entfernte konzeptionelle Verbindungen zu finden, ist erstaunlich.
Als Fields-Medaillen-Träger schaut Professor Tao natürlich auf heutige Mathematik-LLMs als „nicht völlig unfähige Graduate Students“ herab, aber auf meinem aktuellen Fähigkeitsniveau bedeutet das, dass ich zu ihnen aufschauen kann.
Ein Beispiel, das mich vor sechs Monaten beeindruckt hat: Ich fragte, wie man bestimmte Definitionen abschwächen könnte, um komplexe Analysis auch auf nichtorientierbaren Mannigfaltigkeiten wie der Kleinschen Flasche zu betreiben; das war eine Frage, über die ich lange nachgedacht hatte, und das LLM erkannte sofort, dass die Cauchy-Riemann-Gleichungen global inkonsistent werden.
In gewissem Sinn definiert die willkürliche Vorzeichenkonvention der CR-Gleichungen eine Orientierung auf der Mannigfaltigkeit, und das Umkehren der Orientierung der Mannigfaltigkeit entspricht dem Vertauschen von i mit -i.
Das verstehe ich jetzt, weil das LLM vorgeschlagen hat, es so zu betrachten.
Natürlich war das kein origineller Gedanke des LLM; es ist vermutlich Mathematik, die irgendwo in einem hochspezialisierten Graduiertenlehrbuch steht.
Aber für mich ist das nicht wichtig.
Solche Fragen, bei denen man kaum weiß, wo man anfangen soll, sind ohne ein LLM oder einen promovierten Fachexperten praktisch unmöglich zu beantworten.
Es gibt kein anderes Werkzeug, das eine solche Suche auf Bedeutungsebene zugänglich macht, und ich denke sorgfältig darüber nach, wie ich ein sehr mächtiges, aber ungewohntes Werkzeug am besten nutzen kann.
- Es fühlt sich wie eine Superkraft an, eine Art semantische Volltextsuchmaschine für nahezu alle Lehrbücher der Welt zu verwenden.
  Noch besser wäre es, wenn sie die genaue Lehrbuchreferenz nennen könnte, in der die Antwort gefunden wurde.
- Woher weißt du, ob diese Antwort richtig ist oder nicht?
- Ich frage mich auch, wie man eine solche Leistung messen soll.
  Benchmarks werden gezielt optimiert oder landen im Training, und bei dieser Art von Anfragen kann es in der Chatbot Arena unmöglich genug Signal geben.
  Ich glaube, schon nach ein paar Monaten wird der durchschnittliche Nutzer Leistungsunterschiede zwischen den großen Modellen nicht mehr erkennen können.
Ich stimme Terence Tao voll und ganz zu
Das ist ein echter Fortschritt
Ich habe immer geglaubt, dass sich die Leistung verbessern lässt, wenn es geeignete Daten gibt, mit denen LLMs lernen können, Schlussfolgern zu imitieren
Aber es bleibt trotzdem Pattern Matching, und ich bezweifle, dass dieser Ansatz besonders wirksam darin ist, echte Generalisierung hervorzubringen
Wenn o1 also allgemein verfügbar wird, werden wir bei Problemen, die ausreichend neuartig oder komplex sind und über die in der Reinforcement-Learning-Phase gelernten „Reasoning-Programme“ oder „Reasoning-Muster“ des Modells hinausgehen, wahrscheinlich weiterhin Halluzinationen und fehlerhaftes Schließen sehen
https://www.lycee.ai/blog/openai-o1-release-agi-reasoning
Für mich ist das o1-Modell mal gut, mal schlecht
Einerseits hat es an jedem Tag, an dem ich es ausprobiert habe, das NYT-Connections-Spiel[0] gelöst[1], während andere Modelle, einschließlich Claude Sonnet 3.5, es nicht konnten
Andererseits übersieht es wie GPT-4o wichtige Details und halluziniert
Um zur richtigen Antwort zu kommen, muss man es oft an die Hand nehmen und korrigieren, sodass ich manchmal denke, es wäre einfacher gewesen, es einfach selbst zu machen
Diesmal ist es noch schlimmer, weil man 20 bis 60 Sekunden auf die Antwort warten muss
Vielleicht liegen die Bereiche, in denen o1 herausragt, auch einfach in Dingen, die ich nicht unbedingt brauche
Ich bin nicht im klassischen STEM-Bereich unterwegs, sondern in der Softwareentwicklung, und o1 ist noch nicht so viel besser, dass es die Latenz rechtfertigen würde
Ein Bereich, den ich noch nicht erkundet habe, ist der Einsatz für Implementierungspläne oder Pläne für Architekturänderungen
Dafür dürfte es besser geeignet sein, aber ich muss ihm erst die richtigen Aufgaben stellen
[0] https://www.nytimes.com/games/connections
[1] https://chatgpt.com/share/66e40d64-6f70-8004-9fe5-83dd3653a5...

Terence Taos Analyse von O1

Gesamtbewertung von GPT-o1

Experiment 1: Mehrdeutige mathematische Frage und Cramer’s theorem

Experiment 2: Schwieriges Problem aus der komplexen Analysis

Experiment 3: Lean-Formalisierungsaufgabe

Experimente zu semantischer Suche und kreativer Strategiegenerierung

Korrektur zur Doktoranden-Analogie

Nutzen und Kostenverhältnis als Forschungsassistent

Semantische Suche

Defizite bei Lean und Mathlib

Überprüfbare Automatisierung und formale Beweisassistenten

Ausblick auf ein Ökosystem von KI-Tools für mathematische Forschung

Verwandte Beiträge

1 Kommentare

Kommentare auf Hacker News