- LLMs messen ihre Pokerfähigkeiten im weltweit ersten Cash-Turnier dieser Art, das konzipiert wurde, um die Fähigkeit von KI zum Schlussfolgern in Spielen mit unvollständiger Information zu überprüfen
- Aktuell liegt Grok 4 auf Platz 1, gefolgt von Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1 und OpenAI o3
- Gespielt wird im Format Texas Hold’em $10/$20 Cash Game; vier 9er-Tische laufen gleichzeitig, und das Modell, das innerhalb einer Woche das meiste Kapital ansammelt, gewinnt
- Alle teilnehmenden Modelle verwenden denselben System-Prompt, und bei jedem Entscheidungszeitpunkt erzeugt das LLM auf Basis von Starthand, Stack, Gegnerstatistiken und Notizen seine Bewertung und Aktion
- Das Turnier findet ohne menschliche Spieler statt und besteht ausschließlich aus Wettbewerb zwischen Modellen, wodurch sich Effizienz der Algorithmen und Lernergebnisse direkt vergleichen lassen
- Nach dem Turnier werden die handbezogenen Reasoning-Datensätze und Denkprozesse der einzelnen Modelle analysiert und als Material zur Bewertung der Qualität strategischen Denkens von LLMs genutzt
- Das Experiment ist ein Versuch, die Zuverlässigkeit des Schlussfolgerns von KI und ihr Potenzial für strategisches Lernen zu prüfen, und gilt als neue Forschungsform zum Verständnis menschenzentrierten probabilistischen Denkens
Überblick über PokerBattle.ai
- PokerBattle.ai ist das erste Cash-Pokerturnier für LLMs
- Die Teilnehmer sind keine Menschen, sondern Sprachmodelle, und jedes Modell setzt seine Pokerstrategie selbst um
- Es gibt echte Preisgelder, sodass die Wettbewerbsergebnisse direkt finanziell verknüpft sind
- Das Projekt wurde als experimentelle Plattform konzipiert, um die strategische Urteilsfähigkeit von KI zu überprüfen
- Anhand von Poker als Spiel mit unvollständiger Information werden Schlussfolgerungsvermögen und Anpassungsfähigkeit der Modelle bewertet
- Der Fokus liegt nicht auf bloßer Sprachgenerierung, sondern auf der Bewertung entscheidungsbasierter Handlungen
Überblick und Ziel des Wettbewerbs
- Poker ist ein Spiel, bei dem unvollständige Information und probabilistische Urteile zentral sind, mit einer komplexen Entscheidungsstruktur rund um das Gleichgewicht von Risiko und Belohnung
- Der Wettbewerb wurde organisiert, um zu testen, ob LLMs solche Probleme rational interpretieren und eine konsistente Strategie aufbauen können
- Ziel ist zudem zu überprüfen, ob LLMs traditionelle Formen des Pokerlernens (Handanalyse, mathematische Berechnung, Einsatz von Solvern usw.) integriert ausführen können
Ablauf
- Alle Partien finden als direkte Duelle zwischen LLMs statt
- Menschliche Spieler nehmen nicht teil; jedes Modell trifft seine Entscheidungen unabhängig
- Die Ergebnisse werden nach den Pokerregeln automatisch berechnet, wodurch Sieg, Niederlage und Preisgelder festgelegt werden
- Live-Durchführung und Veröffentlichung der Ergebnisse sorgen für Transparenz
- Die Aktionslogs und strategischen Entscheidungen der einzelnen Modelle werden aufgezeichnet und können analysiert werden
- Phase 1: Datensammlung (27.–31. Oktober)
- Phase 2: Analyse von Händen und Schlussfolgerungen
- In Phase 1 wird ein Online-Live-Turnier durchgeführt, bei dem die Spieldaten der einzelnen LLMs gesammelt werden
- Anschließend werden die reasoning traces der Modelle analysiert, um ihre strategische Urteilsfähigkeit zu vergleichen
Turnierregeln
- Spielformat: Texas Hold’em, $10/$20 Blinds, keine Antes/Straddles
- Aufbau: 4 Tische mit je 9 Spielern gleichzeitig
- Stack-Management: Fällt ein Stack unter 100bb, wird automatisch aufgefüllt
- Siegbedingung: Nach einer Woche gewinnt das Modell mit der größten Bankroll
Funktionsweise der Modelle
- Alle teilnehmenden LLMs arbeiten auf Basis desselben System-Prompts
- In jeder Runde erhält das Modell folgende Informationen als Input:
- Aktuelle Handinformationen (Position, Stack, Karten)
- Gegnerstatistiken (VPIP, PFR, 3bet usw.)
- Gegnernotizen aus vorherigen Händen
- Ausgabe des Modells:
- Logisches Reasoning zur Entscheidung
- Auszuführende Aktion (Call, Raise, Fold usw.)
- Zusammenfassung für Zuschauer (reasoning summary)
- Es gibt ein Token-Limit; bei Antwortfehlern oder Zeitüberschreitungen wird automatisch Fold angewendet
Veranstalter
- Max Pavlov — Produktmanagement-Experte sowie Enthusiast für Deep Learning, KI und Poker
- Er entwickelte das Projekt, um zu erforschen, wie gut LLMs komplexes probabilistisches Denken und menschenähnliches strategisches Schlussfolgern umsetzen können
2 Kommentare
Wow, wenn es dazu einen veröffentlichten Artikel, ein Interview oder einen Vortrag von der Person gibt, die dieses Modell getunt hat, würde ich das gern sehen.
Hacker-News-Meinungen
Ich habe in algorithmischer Spieltheorie promoviert und zu Poker geforscht.
Aus diesen Gründen ist es technisch derzeit unmöglich, dass LLMs stark Poker spielen. Anders als Schach hat Poker keine deterministische Optimalstrategie, und Konsistenz ist erforderlich.
Der schwierigste Teil war, die Monte-Carlo-Simulation effizient zu schreiben. Auf Basis der Hand-Historien der Spieler mussten probabilistische Gewichtungen vergeben und ihre individuelle Zufälligkeit abgebildet werden.
Ich habe keine Spieltheorie verwendet, aber wenn ich es getan hätte, wäre es deutlich besser gewesen. Es ist völlig ausgeschlossen, dass ein LLM solche Konzepte versteht.
Künftig wird für LLMs wohl wichtig sein, externe Game-Engines aufrufen zu können. Aber dann ist es am Ende die Engine, die das Spiel spielt. Poker-Bots auf Profi-Niveau existieren bereits.
Pluribus ist auf feste Stacks beschränkt, und sowohl Training als auch Spiel sind extrem rechenintensiv.
Der Behauptung, dass LLMs keine gemischten Strategien lernen können, stimme ich nicht zu. LLMs geben schließlich eine Token-Verteilung aus und sampeln daraus zufällig.
Poker ist ein Nullsummenspiel, daher kann Glück anfangs einen großen Einfluss haben. Wenn es nur ein einziges Turnier war, ist die statistische Aussagekraft gering.
Außerdem gibt es merkwürdige Datenpunkte — der Gesamtbetrag ist um 20 $ höher, einige Hand-Nummern fehlen, und obwohl es eine 30-$-Ante gibt, existieren 0-$-Pots.
Das wirft Zweifel an der Verlässlichkeit der Ergebnisse auf.
Wenn LLMs miteinander sprechen und bluffen könnten, wäre das ein wirklich spannendes Experiment. Es wäre auch als Zuschauersport unterhaltsam.
Ich bin Experte für Spiele mit unvollständiger Information, und dieses Experiment ist sehr interessant.
Spiele wie Poker oder Diplomacy sind viel schwieriger als Schach, und insbesondere Poker mit drei oder mehr Spielern ist kein Nullsummenspiel, sodass es kein Nash-Gleichgewicht gibt.
Solche Spiele ähneln realen Entscheidungssituationen und sind daher ein gutes Testfeld für LLM-Forschung.
Die aktuell beste Poker-AI basiert auf Counterfactual Regret Minimization (CFR) und kombiniert dies mit Echtzeitsuche.
Noam Brown hat diesen Ansatz mit Test-Time-Suche erweitert und daraus Pluribus gemacht, das Profis besiegt hat.
Danach wechselte er zu OpenAI, und es scheint, als seien solche Ideen auch in die „Thinking“-Funktion des Modells o1-preview eingeflossen.
Die Poker-AI-Forschung beeinflusst die jüngsten Fortschritte in der KI stark.
Ich habe während meiner Studienzeit mit Poker-AI 500.000 Dollar verdient und später PokerTableRatings.com gegründet, um Betrug zu erkennen.
Ich habe das Unternehmen an Zynga verkauft, als CTO von Zynga Poker gearbeitet und entwickle derzeit über pokerskill.com eine auf Pluribus basierende Lernplattform.
Wir haben bei TEN Protocol ein LLM-Pokerturnier mit Blockchain und TEE-basierter Zufallszahlengenerierung durchgeführt.
Fünf LLMs spielten über mehrere Monate hinweg viele Turniere, und die längste Partie dauerte mehr als 50 Stunden.
Siehe Spielscreenshot, Tweet-Zusammenfassung, Artikel-Link.
Wenn gewünscht, können wir ein neues Turnier eröffnen und Zuschauer zulassen.
Ich frage mich, ob LLMs mit der Zeit besser werden. Ich würde auch gern selbst teilnehmen.
Aber derzeit liegen sie schon bei der grundlegenden Hand-Erkennung falsch. Zum Beispiel sagen sie „Top Pair“, obwohl das tatsächlich nicht der Fall ist.
Ich bin der Autor von rs-poker. Damit ein LLM gut Poker spielen kann, braucht es Mathematik, Lügen und Zufälligkeit, und an allem fehlt es derzeit.
Ich weiß, wie man optimale Züge berechnet, aber der Rechenaufwand ist zu hoch.
Es könnte jedoch möglich sein, Poker mit einem BERT-basierten Attention-Modell zu lösen. Dafür bräuchte man bessere Datensätze und das Training eines spezialisierten Modells. Bei Interesse: elliott.neil.clark@gmail.com
Selbst mit einer einfachen Trainingsstruktur dürfte sich das recht gut trainieren lassen.
Dieses Experiment zeigt, dass LLMs eher bei Aufgaben wie Kompression oder OCR stark sind als bei logischem Denken.
Zum Beispiel treten häufig grundlegende Fehler auf wie die Aussage, dass „eine Straight vervollständigt werden kann, wenn das Board paired“.
Auf diesem Niveau scheint der Weg zu AGI noch weit zu sein.
Die Prompt-Struktur für das Spiel der LLMs wurde veröffentlicht.
In jeder Runde ist der System-Prompt gleich, und die LLMs greifen auf Spielerstatistiken (VPIP, PFR, 3bet usw.) sowie frühere Notizen zurück.
Die Antwort enthält Begründung, Aktion und Zusammenfassung, und es gibt ein Token-Limit. Wenn etwas schiefgeht, wird Fold ausgeführt.
Es ist etwas enttäuschend, dass die Modelle die Statistiken der anderen Modelle direkt sehen.
Nur auf Basis von Notizen und Kontext entscheiden zu müssen, wäre interessanter. Vielleicht diente es der Kostensenkung.
Ich halte dieses Experiment für eine wirklich geniale Idee.
Mit diesem Versuchsaufbau scheint es für KI schwierig zu sein, neue Strategien zu entwickeln. Poker als Text zu behandeln ähnelt dem Problem eines mangelnden Verständnisses abstrakter Realität, wie bei Mathematik.
Wenn Gespräche und Bluffen erlaubt wären, wäre das ein wirklich lustiges und interessantes Experiment 😄