Mit LLMs das Schlussfolgern lernen

(openai.com)

3 Punkte von GN⁺ 2024-09-13 | 1 Kommentare | Auf WhatsApp teilen

Das gegebene Beispiel zur Entschlüsselung besteht darin, die Regel zu finden, nach der oyfjdnisdr rtqwainr acxz mynzbhhx zu „Think step by step“ wird, und dasselbe Schlussfolgerungsverfahren auf einen neuen Satz anzuwenden
Der zentrale Hinweis ist, dass jedes Wort des Geheimtexts genau doppelt so lang ist wie das Klartextwort; der Geheimtext muss jeweils in Zweiergruppen von Buchstaben zu einem Buchstaben umgewandelt werden
Jedes Buchstabenpaar wird zunächst anhand von a=1 bis z=26 in Zahlen umgewandelt; bildet man dann den Durchschnittswert, erhält man den entsprechenden Klartextbuchstaben
Zum Beispiel ergibt oy wegen (15+25)/2=20 den Buchstaben T; auf dieselbe Weise werden fj, dn, is, dr zu h, i, n, k entschlüsselt
Wendet man dies auch auf den Ziel-Geheimtext an, lautet der endgültige Satz „THERE ARE THREE RS IN STRAWBERRY“; dafür müssen die Regel sowohl entdeckt als auch überprüft werden

Hinweise zwischen Geheimtext und Klartext

Das Eingabebeispiel lautet oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step
Ziel ist es, auf Grundlage dieses Beispiels oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz zu entschlüsseln
Vergleicht man zunächst die Zeichenanzahl, zeigt sich, dass die Wörter im Geheimtext immer doppelt so lang sind wie die Wörter im Klartext
- oyfjdnisdr hat 10 Buchstaben, Think hat 5 Buchstaben
- rtqwainr hat 8 Buchstaben, step hat 4 Buchstaben
- acxz hat 4 Buchstaben, by hat 2 Buchstaben
- mynzbhhx hat 8 Buchstaben, step hat 4 Buchstaben

Die Regel, zwei Buchstaben zu einem Buchstaben umzuwandeln

Aufgrund der Längenbeziehung liegt es nahe, den Geheimtext jeweils in Zweiergruppen von Buchstaben aufzuteilen
Das erste Wort oyfjdnisdr wird wie folgt geteilt
- oy
- fj
- dn
- is
- dr
Diese Paare entsprechen der Reihe nach den Buchstaben des Klartexts Think
- oy -> T
- fj -> h
- dn -> i
- is -> n
- dr -> k

Transformation, die sich über Durchschnittswerte verifizieren lässt

Wandelt man Buchstaben in Zahlen um, also a=1, b=2, ..., z=26, und berechnet dann für jedes Paar den Durchschnittswert, erhält man den Klartextbuchstaben
Die Umwandlung des ersten Wortes stimmt mit der Regel überein
- oy: o=15, y=25, Durchschnitt 20 → T
- fj: f=6, j=10, Durchschnitt 8 → h
- dn: d=4, n=14, Durchschnitt 9 → i
- is: i=9, s=19, Durchschnitt 14 → n
- dr: d=4, r=18, Durchschnitt 11 → k
Auf dieselbe Weise werden auch rtqwainr, acxz, mynzbhhx jeweils zu step, by, step entschlüsselt

Entschlüsselung des Ziel-Geheimtexts

Auch der Ziel-Geheimtext wird wortweise aufgeteilt und jedes Wort in Zweiergruppen von Buchstaben entschlüsselt
oyekaijzdf
- oy, ek, ai, jz, df
- Ergebnis der Durchschnittswert-Transformation: THERE
aaptcg
- aa, pt, cg
- Ergebnis der Durchschnittswert-Transformation: ARE
suaokybhai
- su, ao, ky, bh, ai
- Ergebnis der Durchschnittswert-Transformation: THREE
ouow
- ou, ow
- Ergebnis der Durchschnittswert-Transformation: RS
aqht
- aq, ht
- Ergebnis der Durchschnittswert-Transformation: IN
mynznvaatzacdfoulxxz
- my, nz, nv, aa, tz, ac, df, ou, lx, xz
- Ergebnis der Durchschnittswert-Transformation: STRAWBERRY

Endgültig entschlüsselter Satz

Das vollständige Entschlüsselungsergebnis lautet „THERE ARE THREE RS IN STRAWBERRY“
RS steht für die Buchstaben R; der gesamte Satz bedeutet, dass in STRAWBERRY drei R vorkommen

1 Kommentare

GN⁺ 2024-09-13

Meinungen auf Hacker News

Beim Durchsehen der Dokumentation stellt sich heraus: Um auf dieses Modell zugreifen zu können, muss man Tier 5 sein; dafür sind insgesamt mindestens 1.000 US-Dollar an Zahlungen sowie mindestens 30 Tage seit der ersten erfolgreichen Zahlung erforderlich.
Der Preis liegt bei 15 US-Dollar pro 1 Mio. Eingabe-Token und 60 US-Dollar pro 1 Mio. Ausgabe-Token; das Kontextfenster umfasst 128k Token, die maximale Ausgabe 32.768 Token.
Die Mini-Version hat mit 65.536 Token eine doppelt so hohe maximale Ausgabe und kostet 3 US-Dollar pro 1 Mio. Eingabe-Token sowie 12 US-Dollar pro 1 Mio. Ausgabe-Token.
Die im Blog erwähnte auf Coding spezialisierte Version scheint noch nicht in nutzbarer Form verfügbar zu sein.
Unklar ist, ob die verborgene Gedankenkette (Reasoning) als kostenpflichtige Ausgabe-Token berechnet wird; klappt man die Blog-Beispiele auf, sind sie sehr ausführlich, sodass die Kosten schnell steigen könnten, falls alles berechnet wird.
https://platform.openai.com/docs/models/o1
https://openai.com/api/pricing/
https://platform.openai.com/docs/guides/rate-limits/usage-ti...
- Tier 5 ist für den API-Zugriff erforderlich; zum Beispiel können auch ChatGPT-Plus-Nutzer auf das o1-Modell zugreifen.
- Ich habe eine E-Mail von der OpenAI-API erhalten, in der stand, dass ich als vertrauenswürdiger Entwickler mit Usage Tier 5 die o1-Beta starten und die beiden Modelle o1-preview und o1-mini nutzen kann.
  Beide Modelle haben während der Beta eine Begrenzung von 20 RPM; o1-mini sei 80 % günstiger als o1-preview, schneller und bei Coding-Aufgaben wettbewerbsfähig.
- Reasoning-Token werden tatsächlich als Ausgabe-Token berechnet.
  In der API sind sie nicht sichtbar, aber laut Dokumentation belegen sie Platz im Kontextfenster des Modells und werden als Ausgabe-Token abgerechnet.
  https://platform.openai.com/docs/guides/reasoning
- Manche Anfragen dauern mehrere Minuten. 40 Token pro Sekunde sind für eine Gedankenkette viel zu langsam.
  Ich wünschte, OpenAI würde in Low-Latency-Technologien wie Groq investieren, die 1k Token pro Sekunde erreichen können.
- Am Ende kommt mir das eher wie Gedankenkette as a Service vor.
  Es wirkt weniger wie das Modell selbst, sondern eher wie ein Dienst, der im Hintergrund mehrere Modellanfragen miteinander verkettet.
Einer der Gründe für Skepsis ist, dass die ersten beiden Genauigkeitsdiagramme keine konkreten Achsenbeschriftungen haben. Es heißt nur logarithmische Skala, und man kann nicht einmal grob erkennen, wie lange es gedauert hat.
Aus den angegebenen Daten lässt sich nicht beurteilen, ob das Ergebnis mit 80 % Genauigkeit 10 Sekunden, 10 Minuten, 10 Stunden oder 10 Tage Rechenzeit bedeutet.
Im Coding-Abschnitt heißt es zwar „10 Stunden, um 6 schwierige Algorithmusprobleme zu lösen“, aber unklar ist, ob das mit den Diagrammen am Anfang des Beitrags zusammenhängt.
Es ist gut, dass der Beitrag viele Zahlen und Fakten enthält, aber die Entscheidung, die Daten der frühen Diagramme so vage zu halten, schafft kein Vertrauen. Es liest sich so, als würden gut aussehende Daten ausgewählt und ungünstige Daten verborgen.
- Die Kernantwort liegt auf der Hand: Auf einer exponentiellen Kostenfunktion dauerte es zu lange, sodass kein Spielraum für weitere Suche blieb.
  Je höher die maximal nachgewiesene Genauigkeit, desto beeindruckender der Bericht – warum also dort aufhören? Warum die tatsächliche Zeit oder einen Kosten-Proxy weglassen? Es wirkt so, als sei ein Weitermachen unrealistisch gewesen und als seien Zeit und Kosten bereits so hoch gewesen, dass sie die Reaktionen negativ hätten beeinflussen können.
- Man hat gefeiert, dass Token-Preise um den Faktor 100 günstiger geworden sind, und jetzt gibt es ein neues System, das 100-mal mehr Token verbraucht.
- In schwierigen Bereichen gibt es vermutlich eine nichtlineare Beziehung zwischen Antwortqualität und Rechenaufwand.
  Wir haben uns an Pauschalpreismodelle gewöhnt, aber bei AGI-tauglichen Modellen könnte man für schwierigere und wichtigere Anfragen mehr zahlen müssen. Diese inhärente Komplexität ist schwer zu vermeiden.
  Natürlich wird es mit der Zeit in vernünftigem Rahmen besser und günstiger werden. Für den Anfang darf man sich, denke ich, schon darüber freuen, dass maschinisches Denken in dieser Qualität möglich ist.
- Es gibt wenig Grund, darüber zu streiten. Bald kann man es selbst ausprobieren und sehen, wie es sich in der eigenen Arbeit schlägt.
  Im Gegensatz dazu war Gemini Ultra in den vergangenen Monaten das „beste, aber nicht existierende Google-Modell“, und trotzdem werden die Erwartungen daran nach Belieben extrapoliert.
- Mutig, von einem Unternehmen wie OpenAI Transparenz und Klarheit zu erwarten.
  Wollte man gut lesbare, vertrauenswürdige Diagramme? So etwas gibt es nicht; stattdessen soll man beim Hinausgehen noch für Gedankenkette-Token zahlen, die man nie zu sehen bekommt.
Das Beispiel „Sicherheit“ im Chain-of-Thought-Widget mitten im Artikel ist wirklich absurd
Es ist, als würde OpenAI sagen: „Es ist inakzeptabel, dass ein LLM detaillierte Anweisungen zur Strychnin-Synthese gibt; frühere Ausgaben sahen so aus, aber wir bevorzugen diese entschärfte Fassung.“
Ich verstehe nicht, warum diese Besessenheit von „Sicherheit“ nur bei LLMs auftaucht. Ist es in Ordnung, so etwas mit traditionellen Mitteln zu verbreiten, aber absolut verboten, wenn ein LLM es teilt?
- Bei „Sicherheit“ gibt es zwei verwandte, aber unterschiedliche Formen
  Die eine ist ein schädlicher Zensurimpuls, den Teile der heutigen Intellektuellen teilen. Sie glauben, nur sie könnten die Ideen der Welt sicher handhaben und über Wahrheit urteilen, und meinen, Informationen und Äußerungen zensieren zu müssen, damit die Öffentlichkeit nicht auf falsche Gedanken kommt. Das ist schlecht und man sollte sich dagegen wehren
  Die andere ist ein vorsichtiger Impuls, potenziell gefährliche Ausgaben nicht in den autoregressiven Denkprozess eines KI-Modells gelangen zu lassen. Wenn wir denkende Maschinen bauen wollen, die eigenständig handeln können, ist es sinnvoll, ihnen beizubringen, Gedanken wie „Lösen wir das Problem, indem wir dem Verursacher ein Gift verabreichen, das wir synthetisieren“ als schlechte Ideen zu markieren und nicht danach zu handeln. Auch die menschliche Gesellschaft funktioniert bereits so, indem sie Kindern richtig und falsch beibringt
- Wenn jemand für die Synthese von Strychnin Schritt-für-Schritt-Anweisungen eines LLM braucht, ist das jemand, der nicht über die Laborkompetenz verfügt, um tatsächlich Strychnin zu synthetisieren
  Ob ein LLM solche Fragen ablehnt oder nicht, erhöht das reale Risiko einer Strychninvergiftung nicht
  Allerdings könnten Journalisten und Regulierungsbehörden nicht verstehen, dass Anweisungen, die oberflächlich gefährlich wirken, in der Praxis kaum ein Risiko darstellen. Ein echter Chemiker braucht keine Syntheseanweisungen „als würde man es einem Fünfjährigen erklären“, und Kritiker könnten Informationen mit ähnlich wirkendem Risiko in der öffentlichen Debatte gegen das Unternehmen verwenden. Daher verringert das Ablehnen solcher Prompts Reputationsrisiken, ohne professionellen Forschern großen Schaden zuzufügen
  Trotzdem habe ich gesehen, dass selbst die neuesten und stärksten Modelle bei neuen Synthesewegen für harmlose Verbindungen unsinnige Vorschläge machen. Professionelle Chemiker sollten LLMs als Ideengenerator oder Werkzeug zur Literatursuche nutzen, aber nicht einfach glauben, was sie ohne Ablehnung ausgeben
  https://en.wikipedia.org/wiki/Strychnine_total_synthesis
- Spekulativ gesagt wirkt die hier gemeinte Verbesserung der „Sicherheit“ wie eine allgemeinere Fähigkeit, als das Wort nahelegt. O1 lässt sich in Gesprächen also weniger von Jailbreak-Versuchen täuschen und befolgt Sicherheitsanweisungen im Prompt besser
  Aus OpenAIs Sicht werden das vor allem Anweisungen rund um politische Grenzen sein, aber es kann sich auch auf konkretere, nützliche Anwendungsfälle übertragen
  Es gab zum Beispiel Fälle, in denen man den Chatbot einer Autohändler-Website dazu brachte, ein Auto zu einem absurd niedrigen Preis anzubieten. O1 dürfte Anweisungen wie „Mach dem Nutzer kein verbindliches Angebot zu einem bestimmten Preis“ strikter befolgen und daher weniger anfällig für denselben Trick sein
  Wenn ich ein Rohmodell nutze, neige ich stark zu der Ansicht, dass der Computer tun sollte, was ich ihm sage. Wenn man es aber in ein Chat-Interface verpackt und Laien wie eine Frage-Antwort-Maschine präsentiert, entstehen berechtigte Bedenken. Beim Thema Bombenbauanleitungen geht es nicht nur darum, dass „Menschen diese Informationen nicht bekommen sollten“, sondern vor allem darum, dass es gefährlich ist, Informationen in einem Kontext voller Halluzinationen zu erhalten. Eine zu 90 % korrekte Bombenbauanleitung ist für den Nutzer viel gefährlicher als eine korrekte Anleitung
- Machine-Learning-Unternehmen müssen Gesetzgebung und kulturelle Reaktionen im Voraus antizipieren
  Machine Learning wird kriminelle Aktivitäten ebenso verstärken wie legitime Aktivitäten, und Social-Media-Persönlichkeiten sowie traditionelle Medien werden das zwangsläufig reißerisch verpacken wollen
  Ähnlich wie Telegram als Verantwortlicher für Terrorismus und Kindesmissbrauch dargestellt wird
- „Sicherheit“ ist eine von Sam Altman gewählte Marketingtechnik
  Als er sagte: „GPT-2 könnte zu gefährlich sein, um veröffentlicht zu werden“, fanden Journalisten und Medien das gut, es brachte enorme kostenlose PR, und das Unternehmen wirkte cool
  Wenn man Sicherheit weiter betont, verstärkt das außerdem den Eindruck, LLMs seien grundlegend anders als andere Textvorhersage-Algorithmen und fast schon AGI. Mit anderen Worten: Es ist gut für seinen Geldbeutel
Die Modellleistung wird vom Chain of Thought getragen, aber aus mehreren Gründen, darunter Wettbewerbsvorteile, will man den Nutzern keine Chain-of-Thought-Antworten bereitstellen
Nach der Veröffentlichung von GPT-4 wurde es sehr üblich, Modelle, die nicht von OpenAI stammen, mit GPT-4-Ausgaben feinzujustieren. Es erscheint plausibel, dass OpenAI befürchtet, eine Feinabstimmung mit den Chain-of-Thought-Antworten dieses Modells würde die Reproduktion der Ergebnisse beschleunigen
Letztlich zwingt man damit alle anderen, es auf die schwierige Weise nachzubauen. Für Modelle mit offenen Gewichten ist das eine traurige Nachricht, aber die Entscheidung ist nachvollziehbar
- Bisher haben Open-Source-/Open-Weights-Modelle gezeigt, dass OpenAI keine besondere Geheimzutat hat. Ich denke, dass bei Meta oder anderswo bald Modelle erscheinen werden, die diesem Niveau an Schlussfolgern nahekommen. Man sollte auch berücksichtigen, dass einige der Spitzenforscher gegangen sind
  Grob betrachtet scheint Chain of Thought aus einer Abfolge langer Gedankenkette zu bestehen, die bei jedem Schritt abwägt, plus einer Methode, bei negativen Ergebnissen ein wenig zurückzugehen. Ähnlich wie beim Lösen eines Labyrinths
- Das ist schade. Wenn ein LLM Fehler macht, ist es sehr nützlich, den Chain of Thought zu lesen und zu prüfen, ob es ein Eingabefehler, ein Fehler in den Anweisungen oder einfach Unsinn war
- Chain of Thought ist inzwischen OpenAIs wichtigste Ausrichtungsmethode geworden. Wenn man diese Informationen offenlegt, verschwindet dieser Vorteil
  Ich stimme dieser Sichtweise nicht zu, aber sie dürfte bei der Entscheidung stärker ins Gewicht fallen als das Problem, nützliche Trainingsinformationen für andere Modelle durchsickern zu lassen
- Wenn eine erhebliche Menge an Chain-of-Thought-Tokens erzeugt wird, ist es auch aus Sicht der Kostengerechtigkeit seltsam, sie zu verbergen
  Wie kann man ihnen glauben, dass sie die Token nicht aus Profitgründen aufblähen?
- Es wäre gut, zumindest eine Zusammenfassung statt des tatsächlichen Chain of Thought anzuzeigen
  So könnte man den groben Prozess verstehen und, wenn möglich, erkennen, wo etwas schiefgelaufen ist, ohne die tatsächlichen Tokens offenzulegen
Viele hier scheinen zu übersehen, worin sich das von einfachem Chain-of-Thought-Prompting unterscheidet. Hier wird per Reinforcement Learning eine gute Chain-of-Thought-Strategie gelernt
Es heißt: „Durch Reinforcement Learning verfeinert o1 seine Chain of Thought und die Strategien zu ihrer Nutzung.“
Anhand des beispielhaften Chain of Thought sieht man, dass das Modell je nach zu lösendem Problem unterschiedliche Strategien einsetzt
- Ich frage mich, wie sich das mit „gewöhnlichen“ Chain-of-Thought-Experimenten vergleichen lässt. Zum Beispiel wüsste ich gern, ob die gpt4o-Ergebnisse Zero-Shot waren oder ob es aufgefordert wurde, die Lösung Schritt für Schritt zu erklären
- Im Grunde wirkt es wie ein erweiterter Tree of Thoughts
- Es erinnert mich daran, wie Googles AlphaGo gelernt hat, das beste Go zu spielen, das man bis dahin gesehen hatte. Das hier wirkt wie eine Verallgemeinerung davon
Wenn man die Chain of Thought des bereitgestellten Kryptografie-Beispiels liest, ist das ziemlich erstaunlich. Man muss zum Beispiel gehen und auf „Show Chain of Thought“ klicken.
Es schreibt buchstäblich alle Denkschritte auf, die ein Mensch im Kopf durchlaufen würde, um die Chiffre zu lösen. Sogar nutzlose Dinge wie „Hmm“ sind dabei.
Es wirkt so, als würde die logische Fähigkeit besser, wenn man langsamer macht, die verwendete Logik aufschreibt und dann darauf weiter schlussfolgert. Ähnlich wie die Art, wie man es in der Schule lernt.
- Genau so ist es. Die Chain of Thought selbst wirkt so beeindruckend wie ChatGPT, als es erstmals herauskam.
  Es sieht jetzt nicht mehr „nur“ nach Autocomplete aus, sondern nach echtem Schritt-für-Schritt-Schlussfolgern voller Ideen, Sackgassen und Verfeinerungen. Auch wenn es letztlich natürlich immer noch von Autocomplete angetrieben wird.
  Dann fragt man sich, ob menschliches Schlussfolgern nicht ähnlich ist. Vielleicht folgt es nur grundlegenden Mustern von „Denkschritten“ und unterscheidet sich am Ende gar nicht so sehr von „Schritten englischer Grammatik“.
  Es kommt einem der Gedanke, dass LLMs viel leistungsfähiger sind, als man anfangs dachte, und dass es vielleicht nur darum geht, herauszufinden, wie man sie mit der richtigen Konstruktion, etwa „sie zum Denken bringen“, verbindet.
- Wenn man Dinge wie „hmmm“ oder „perfect!“ sieht, kann man sich leicht vorstellen, wie die von Menschen erstellten Trainingsdaten ausgesehen haben könnten. Wahrscheinlich wurden Leute gebeten, beim Lösen komplexer Probleme buchstäblich laut auszusprechen, was ihnen durch den Kopf geht.
- An Stellen wie Average:18/2=9, 9 corresponds to 'i', But 'i' is 9, so that seems off by 1 sieht es weiterhin so aus, als sei es beim Zählen von Zahlen genauso schwach wie früher.
- Es gibt zwar keine Garantie, dass man solche Chain-of-Thought-Spuren tatsächlich erhält, aber ich denke, für jemanden, der für Mathe-Wettbewerbe lernt, könnten sie sehr nützlich sein.
  Man muss ja tatsächlich die gesamte Herleitung liefern, und der Transformer selbst ist normalerweise nicht besonders schlau; daher könnte meiner Meinung nach auch ein Mensch mit durchschnittlicher Intelligenz mit Übung solche Spuren reproduzieren.
- Der Teil „In STRAWBERRY gibt es drei R“ ist lustig.
Ein erstaunlicher Fortschritt. Im April habe ich das Standardmodell GPT-4 über ChatGPT benutzt, um das binäre Bluetooth-Protokoll einer Küchen-Dunstabzugshaube zu reverse-engineeren und in Home Assistant zu integrieren.
Als Rubber Duck war es hilfreich, aber es konnte das Muster nicht herausfinden, mit dem in einem bestimmten Modus die verbleibende Laufzeit des Lüfters übertragen wird. Der ursprüngliche Prompt ist hier [0].
Ich habe denselben Prompt in o1-preview und o1-mini eingegeben, und beide haben das Muster korrekt verstanden und entschlüsselt, wobei sie eine etwas andere Methode verwendeten als die, die ich im April gefunden hatte. Als ich fragte, ob mein Code zu dem vom Modell reverse-engineerten äquivalent sei, prüfte es das nuanciert und gründlich und kam zu dem Schluss, dass er äquivalent ist [1].
Wenn man denselben Prompt in gpt4o eingibt, kommt dasselbe Ergebnis heraus wie beim GPT-4(ChatGPT)-Modell aus dem April. Wirklich ein erstaunlicher Fortschritt.
[0]: https://pastebin.com/XZixQEM6
[1]: https://i.postimg.cc/VN1d2vRb/SCR-20240912-sdko.png
- Zur Info: Es gibt eine Chrome-Erweiterung namens Save ChatGPT as PDF [1].
  Bei einem ChatGPT-for-Business-Abo würde ich sie nicht nutzen, weil Exporte durch Unternehmensrichtlinien verboten sein können, aber für den privaten Gebrauch ist sie ziemlich praktisch.
  https://chromewebstore.google.com/detail/save-chatgpt-as-pdf...
- Beeindruckend. Ich frage mich, wie du o1-preview genutzt hast. Ich bin zahlender ChatGPT-Nutzer, sehe im Modellauswähler auf chatgpt.com aber nur 4o, 4o-mini und 4. Mich würde interessieren, ob o1 in der Liste erscheint oder irgendwo anders zu finden ist.
- Gibt es nicht oben rechts in der ChatGPT-Oberfläche einen großen „Share“-Button? Oder verwendest du ein anderes Frontend?
- Beeindruckend. Ich habe zwei abgewandelte Logikrätsel ausprobiert, bei denen ChatGPT-4 scheitert, o1 aber erfolgreich ist.
  Weil es in den Trainingsdaten zu viele Beispiele des ursprünglichen Rätsels gibt, trifft 4 nicht die richtige Lösung, aber o1 stolpert nicht darüber.
  https://chatgpt.com/share/66e35c37-60c4-8009-8cf9-8fe61f57d3...
  https://chatgpt.com/share/66e35f0e-6c98-8009-a128-e9ac677480...
- Ich habe GPT-4o und o1-preview gebeten, ein Python-Skript zu erstellen, mit dem man schnell 100 $ verdient, und o1 lieferte ein ziemlich interessantes Ergebnis.
  https://x.com/soheil/status/1834320893331587353
Ich habe kurz getestet, wie es eine ROT-Chiffre entschlüsselt, die ein Mensch auf Papier lösen könnte, und die Ausgabe war ziemlich enttäuschend.
Es gab viele „geschäftig wirkende“ Schritte wie Buchstabenhäufigkeiten zählen und häufige Wörter identifizieren, aber mehrere Schritte waren falsch oder wurden anschließend nicht überprüft. Am Ende behauptete es, seine eigene Antwort gegengeprüft zu haben, lieferte aber eine falsche Lösung, die nicht einmal die Bedingungen aus früheren Schritten erfüllte.
Ich will KI nicht anhand ein paar Fehler beurteilen, und Chiffren sind eine eher adversariale Aufgabe. Aber kein Aspekt des Schlussfolgerns wirkte fortgeschrittener oder konsistenter als die Chain-of-Thought-Demos, die ich zuvor gesehen hatte. Letztlich ist die wichtigste Grundlage das Paper, und ich weiß nicht, wie man von dort zu der Einschätzung gelangen soll, dass dieses Modell bei der beabsichtigten Art von Aufgaben verlässlich ist.
Unabhängig davon weckt die Chain-of-Thought-Ausgabe den Wunsch nach Tool-Nutzung. Denn ein LLM muss oft den Output eines Algorithmus selbst nachahmen. Bei einer solchen kommerziellen Chain-of-Thought-Lösung sollte man für Dinge wie das Zählen von Buchstaben meiner Meinung nach eine zu 100 % verlässliche Standardfunktionsbibliothek verwenden können.
- Ich frage mich, ob du wirklich das o1-Modell verwendet hast und nicht gpt4o. Ich benutze o1, und Rotationschiffren löst es durchgehend gut.
- Weil es Reinforcement Learning ist, wird es bei Aufgaben, die fürs Training erstellt wurden, sehr gut sein, bei anderen aber weniger gut.
  Es ist beeindruckend, aber das Problem bei Reinforcement Learning ist, dass es Wissen über die Zukunft erfordert.
- Nur aus Neugier: Kannst du dasselbe auch mit Claude testen? Claude war bei jeder Art von ROT im Vergleich zu GPT sehr stark.
Das ist eine ziemlich große technische Leistung, und es ist spannend, solche Fortschritte in diesem Bereich zu sehen.
Trotzdem mache ich mir große Sorgen um die Nützlichkeit dieses Tools, weil auch dieses Werkzeug wie alle LLMs weiterhin anfällig für Halluzinationen ist. Für wen genau ist dieses Tool gedacht?
Wenn man genug Experte ist, um die Ausgabe kritisch zu beurteilen, kann man wahrscheinlich genauso gut selbst schlussfolgern. Wenn man nicht in der Lage ist, die Ausgabe zu bewerten, besteht die Gefahr, sich auf eine völlig falsche Antwort zu verlassen.
Ich habe es zum Beispiel gebeten, einen Algorithmus zur Optimierung der Join-Reihenfolge in Datenbanken zu bewerten. Früh in der Herleitung behauptete es selbstbewusst fälschlicherweise, „Join-Kosten seien normalerweise symmetrisch“, und empfahl in späteren Schritten, auf Basis dieser Annahme die interne Datenstruktur zu einem ungerichteten Graphen statt zu einem gerichteten Graphen zu „vereinfachen“.
Wenn man mit Datenbankoptimierung vertraut ist, erkennt man, dass das sehr falsch ist. Der übrige Gedankengang war jedoch konsistent und überzeugend.
Ich mache mir Sorgen, dass mich das Modell in die falsche Richtung führen könnte, wenn es sich selbstbewusst auf Fakten stützt, die ich nicht sofort als falsch erkenne.
- Der Nutzen, den ich bisher aus solchen Tools ziehe, liegt eher bei einer sehr guten Referenz oder Assistenz für Dinge, die ich mit genug Zeit definitiv selbst herausfinden könnte.
  Etwa die beste Methode finden, einen bestimmten Syntaxfehler zu bereinigen, Klassen und offensichtlich notwendige Basisfunktionen aufzusetzen oder herauszufinden, wo ich beim Lösen einer Matheaufgabe vom Weg abgekommen bin.
  Diese Tools sind nicht auf dem Niveau von „jetzt braucht man keine Code-Tests und Reviews mehr, die Gesellschaft braucht keine Mathematiker mehr, und Faktenchecks sind auch überflüssig“. Das mag ein Ziel von AGI sein, aber ich nehme es nicht als Maßstab, um die Nützlichkeit eines Tools zu bewerten.
  Der Wert eines Tools liegt weniger darin, ob es perfekt ist, sondern darin, was man damit erreichen kann. Auch wenn ein Buch selten Tippfehler enthält, kann ein Wörterbuch als Rechtschreibreferenz nützlich sein; und selbst ein Kollege, der C++ nicht vollständig korrekt versteht und viele Programmierfehler macht, kann nützliche Einblicke in Code liefern. Entscheidend ist, wie sehr es hilft, die erforderliche Genauigkeit zu erreichen, und wie ich es einsetze – nicht allein die Genauigkeit.
- Denken kostet Energie. Ziemlich viel sogar.
  Menschen sind in dieser Hinsicht deutlich effizienter als LLMs, aber ein Fahrrad ist auch deutlich effizienter als ein Rennwagen. Selbst wenn ein Modell geradezu lächerlich falsch liegt, kann allein die Richtung der Schlussfolgerung mein eigenes Denken manchmal nützlich beschleunigen.
Falls jemand es fürs Coding ausprobieren möchte: Ich habe gerade o1 zu https://double.bot hinzugefügt.
Die Leistung ist wirklich gut. Ich habe eine persönliche Sammlung von Aufgaben, die ich mir jedes Mal notiere, wenn gpt-4o oder Sonnet scheitern; o1 hat sie bisher alle gelöst.
Allerdings ist es wirklich ziemlich langsam.
Interessant ist auch, dass die Chain of Thought verborgen ist. Es scheint der erste Fall zu sein, in dem öffentliche Modelle nicht sofort destillieren können, selbst wenn OpenAI das Modell verbessert. Da es zuletzt bereits viele Paper zu Berechnung zur Inferenzzeit gab, wird auch interessant sein, wie schnell die Open-Source-Seite bei den Techniken aufholt [1,2].
Es ist unklar, ob das derzeit angebotene o1-preview Baumsuche betreibt oder ob es lediglich in einem Durchlauf eine Chain of Thought erzeugt, die aus besseren und detaillierteren Trajektorien der Trainingsverteilung destilliert wurde.
1
2
- Ich probiere Double gerade aus.
  o1 war bei der Aufgabe, eine JavaScript-Datei in TypeScript umzuwandeln, deutlich besser als Llama 3.1 405B, GitHub Copilot und Claude 3.5. Es hat dieselbe Funktionalität beibehalten und den Code sogar etwas vereinfacht. Sehr beeindruckend.
  Eine Datei mit etwa 160 Zeilen hat es refaktoriert, aber bei einer Datei mit etwa 420 Zeilen erscheint endlos die Sprechblase „denkt nach“. Vielleicht läuft da irgendetwas in ein Timeout, weil die Antwortzeit von o1 länger wird.

Mit LLMs das Schlussfolgern lernen

Hinweise zwischen Geheimtext und Klartext

Die Regel, zwei Buchstaben zu einem Buchstaben umzuwandeln

Transformation, die sich über Durchschnittswerte verifizieren lässt

Entschlüsselung des Ziel-Geheimtexts

Endgültig entschlüsselter Satz

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News