2 Punkte von GN⁺ 2024-09-15 | 1 Kommentare | Auf WhatsApp teilen

Vorstellung von mathstodon.xyz

  • mathstodon.xyz ist Teil eines dezentralen sozialen Netzwerks auf Mastodon-Basis und eine Instanz für Nutzerinnen und Nutzer mit Bezug zur Mathematik.
  • Unterstützt LaTeX-Rendering in der Weboberfläche.
  • Administrator: Christian Lawson-Perfect (@christianp)
  • Server-Statistik: 3K aktive Nutzer

Terence Taos GPT-o1-Experimente

  • GPT-o1: Eine neue GPT-Version von OpenAI, die vor der Ausführung des LLM eine anfängliche Reasoning-Phase durchläuft.
  • Experiment 1: Identifizierte in einer Antwort auf eine mehrdeutige mathematische Frage korrekt das Cramer's theorem und lieferte eine zufriedenstellende Antwort.
    • In früheren Versionen wurden verwandte Konzepte zwar erwähnt, die Details waren jedoch falsch.
  • Experiment 2: Bei der Herausforderung durch ein komplexes Problem der Analysis leitete es mit vielen Hinweisen und Zwischenschritten die richtige Lösung her, konnte die zentrale konzeptionelle Idee jedoch nicht selbst erzeugen und machte einige Fehler.
    • Gegenüber früheren Modellen verbessert, aber noch immer unzureichend.
    • Mit einigen weiteren Verbesserungen könnte es für Arbeit auf Forschungsniveau nützlich werden.
  • Experiment 3: Bei der Aufgabe, ein Ergebnis in Lean zu formalisieren, verstand es das Problem gut und zerlegte es anfangs sinnvoll, aber wegen fehlender aktueller Lean-Informationen enthielt der Code mehrere Fehler.
    • Könnte in einer integrierten IDE mit auf Lean und Mathlib spezialisierten Modellen sehr nützlich sein.

Weitere Diskussion

  • Fortschritt von AI-Tools: Erwartet wird das Entstehen eines Ökosystems von AI-Tools, das verschiedene Forschungsaufgaben bearbeiten kann.
    • Derzeit stehen große, allgemeine LLMs im Mittelpunkt, doch auch leichte Open-Source-Modelle für spezifische Anwendungen dürften eine wichtige Rolle spielen.
  • Vergleich von AI und Doktoranden: Diskussion darüber, ob AI-Tools Beiträge auf dem Niveau von Doktoranden leisten können.
    • Derzeit erfordern sie noch mehr Aufwand als Doktoranden, aber in den kommenden Jahren könnte dieses Verhältnis auf 1 oder weniger sinken.

# Zusammenfassung von GN⁺

  • Terence Tao testete das neue Modell GPT-o1 von OpenAI, um seine Fähigkeit zur Lösung mathematischer Probleme zu bewerten.
  • GPT-o1 ist gegenüber früheren Versionen verbessert, hat aber weiterhin einige Grenzen.
  • Mit einigen weiteren Verbesserungen könnte es für Arbeit auf Forschungsniveau nützlich werden.
  • Erwartet wird das Entstehen eines Ökosystems verschiedener AI-Tools zur Unterstützung von Forschungsarbeit.
  • Derzeit stehen große, allgemeine LLMs im Mittelpunkt, doch auch leichte Open-Source-Modelle für spezifische Anwendungen dürften eine wichtige Rolle spielen.

1 Kommentare

 
GN⁺ 2024-09-15
Hacker-News-Kommentare
  • Es gibt die Erwartung, dass GPT für Mathematik auf Forschungsniveau nützlicher wird, wenn es in Lean (einem Beweisassistenten) ähnlich wie für Python feinabgestimmt wird

    • In Bereichen des Operations Research (OR) hat ChatGPT 4o die OR-Literatur offenbar ausreichend gelernt, um nützliche Formulierungen für gemischt-ganzzahlige Programmierung (MIP) zu liefern
    • Wenn man Logikprobleme vorgibt, erzeugt es nützliche mathematische Formeln, die nur geringfügige Anpassungen brauchen
    • Es warnt vor schwachen Formulierungen, bei denen die Logik versagen könnte, und hilft so, Probleme zu vermeiden
    • GPT löst Probleme, über denen man früher ein ganzes Wochenende gegrübelt hätte, und spart dadurch viel Zeit
    • Für Menschen, die MIP-Optimierung verstehen und Probleme in kleine Teile zerlegen können, ist das monatliche ChatGPT-Abo für 20 US-Dollar den Preis absolut wert
    • Viele Menschen sind unzufrieden, weil sie LLMs nicht gut einsetzen oder überzogene Erwartungen haben
    • Wer die Stärken von LLMs kennt und Fehler überprüfen kann, bekommt im Arbeitsalltag große Hilfe
  • Stell dir vor, du reist ins Jahr 2019 zurück und liest, dass sich die Interaktion mit Alexa "anfühlt wie die Beratung eines durchschnittlichen, aber nicht völlig unfähigen Doktoranden"

    • In nur fünf Jahren ist der Unterschied enorm
  • Das o1-Modell ist sehr beeindruckend

    • In einem Projekt zur Optimierung von Rust-Code wurden deutliche Geschwindigkeitsgewinne erzielt und die Korrektheit verifiziert
    • Es konzipierte und implementierte ein neues Maß statistischer Abhängigkeit auf Basis der Jensen-Shannon-Divergenz
    • Es implementierte normalisierte Mutual Information schnell für große Vektoren (z. B. mit mehr als 15.000 Dimensionen), für die bislang kaum schnelle Implementierungen zu finden waren
    • Anfangs lieferte es keinen perfekten Rust-Code, behob aber in einem einzigen Versuch alle Bugs
    • GPT-4o brauchte mehrere Versuche, um Rust-Typfehler zu beheben
    • Claude 3.5 Sonnet ist bei Rust sehr unfähig
    • Bei sehr anspruchsvollen Aufgaben ist es eine große Hilfe
    • Es verbindet Performance-Optimierung und relativ bugarmen Code mit kreativer Problemlösung sowie umfangreichem mathematischem und algorithmischem Wissen, um das Ziel zu verstehen und umzusetzen
  • Die Erfahrungen mit dem O1-Modell fallen sehr unterschiedlich aus

    • Es wirkt selbst bei einfachen Fragen verwirrt
  • Neu ist, dass sich LLMs bei vielen Themen "anfühlen wie die Beratung eines durchschnittlichen, aber nicht völlig unfähigen Doktoranden"

    • In Bereichen, in denen man viel Erfahrung hat, sind sie eine große Hilfe bei kleinen Aufgaben
    • Wenn man Probleme in kleine Stücke zerlegt, leisten sie solide Arbeit
    • Konzeptuelles Verständnis ist nötig, und Prompting ist wichtig
    • Man nutzt LLMs, um komplexe Themen zu verstehen, und prüft die Konzepte anschließend mit Expertenvalidierung
  • Auch Menschen können von einer Art "Chain-of-Thought"-Argumentation profitieren

    • Wenn alle Studierenden in der Mathematik die relevanten Definitionen und Informationen im Gedächtnis behalten könnten, würde ihre Leistungsfähigkeit stark steigen
    • KI kann besser schlussfolgern, weil ihr emotionale Barrieren fehlen
  • Zustimmung zu Terence Taos Meinung

    • LLMs können ihre Leistung durch Pattern Matching verbessern, sind aber womöglich nicht gut darin, echte Generalisierung zu erreichen
    • Bei neuen oder komplexen Problemen treten weiterhin Halluzinationen und fehlerhafte Schlussfolgerungen auf
  • Man freut sich darauf, Mathematik wieder als eigenständiges Hobby zu studieren

    • LLMs helfen stark dabei, komplexe Fragen der Analysis zu bearbeiten
    • Beeindruckend ist, wie schnell LLMs konzeptuelle Verbindungen finden
    • Auf die Frage, ob komplexe Analysis auf nichtorientierbaren Mannigfaltigkeiten möglich sei, wenn man bestimmte Definitionen lockert, erkannte das LLM sofort, dass die Cauchy-Riemann-Gleichungen global nicht konsistent sind
    • Ohne LLM hätte man diese Frage nicht beantworten können
  • Terence Taos Meinung ist überraschend

  • Daniel Litt war von o1-preview beeindruckt, hatte aber bisher noch kein Glück damit, interessante mathematische Probleme zu lösen

    • Bei einfachen Aufgaben ist es verlässlicher und kann bei nichtmathematischen Aufgaben Zeit sparen