- Claude Code wurde in das Open-Source-Spiel RollerCoaster Tycoon 2 (OpenRCT2) integriert, um zu testen, ob eine KI tatsächlich einen Freizeitpark betreiben kann
- Die KI analysierte mehr als 100 Kennzahlen wie Finanzen, Gästebeschwerden und Fahrgeschäftsausfälle und traf Managemententscheidungen wie das Aufstellen von Getränkeständen, das Einstellen von Personal und das Anpassen der Eintrittspreise automatisch
- Über das CLI-Tool
rctctlwurden alle Aktionen im Spiel über die Kommandozeile ausgeführt; die Struktur ist ähnlich wie bei Kuberneteskubectl - Claude zeigte Stärken bei Datenanalyse, Preisanpassungen und Personalmanagement, offenbarte jedoch Grenzen bei räumlichen Aufgaben wie Wegverbindungen, Platzierung von Achterbahnen und Geländeerkennung
- Das Experiment bestätigte, dass der Schlüssel beim Agenten-Design in der Lesbarkeit der Umgebung und der Qualität der Schnittstellen liegt
Projektüberblick
- Ramp Labs integrierte Claude Code in RollerCoaster Tycoon 2, um zu testen, ob eine KI den Parkbetrieb direkt übernehmen kann
- Claude analysierte rund 100 Datenpunkte im Spiel, darunter Finanzen, Gästezufriedenheit und den Zustand der Fahrgeschäfte
- Auf dieser Basis schlug die KI Maßnahmen wie zusätzliche Getränkestände, die Einstellung von Mechanikern und höhere Eintrittspreise automatisch vor
- Ziel des Experiments war es, Erkenntnisse für das Design von KI-Agenten in B2B-SaaS-Umgebungen zu gewinnen
- RollerCoaster Tycoon wurde ausgewählt, weil das Spiel kundenorientierten Geschäftsbetrieb und digitale Feedback-Loops abbildet
Warum RollerCoaster Tycoon?
- Ramp entwickelt kleine, auf einzelne Aufgaben spezialisierte Agenten und verfolgt dabei einen Ansatz, der Sicherheits- und Kontextgrenzen berücksichtigt
- Gleichzeitig bestand der Wunsch, experimentell einen einzelnen Agenten mit weitreichenden Berechtigungen zu testen
- RollerCoaster Tycoon bietet eine Umgebung, in der Wirtschaft, Kunden und Betriebsmanagement zusammenkommen, und ähnelt damit dem Betrieb von SaaS-Produkten
- Die Benutzeroberfläche des Spiels ähnelt einem B2B-SaaS-Dashboard und passt gut zu Claudes retro-futuristischem Terminal-Interface
Claudes Fähigkeiten und Grenzen
- OpenRCT2 wurde geforkt und um ein Terminalfenster erweitert, sodass Claude das Spiel per Kommandozeile steuern konnte
- Die
rctctl-CLI deckt alle möglichen Benutzeraktionen ab und kommuniziert per JSON-RPC mit dem Spielzustand - Statt visueller Wahrnehmung nutzte Claude eine ASCII-Kartenausgabe, um räumliche Informationen zu erfassen
Claudes Stärken
- Spielwissen: Umfangreiches Wissen zu RCT und natürliche Interaktion selbst in einer Spielumgebung der 90er Jahre
- Informationssammlung: Integrierte Analyse verschiedener Kennzahlen wie Gästefeedback und Finanzdaten
- Digitale Bedienung: Stark bei nicht-räumlichen Aufgaben wie dem Öffnen und Schließen von Fahrgeschäften, Preisänderungen, Personaleinstellungen und Marketingmaßnahmen
- Platzierung von Einrichtungen: Einfache Strukturen wie Toiletten und Getränkestände konnten zuverlässig platziert werden
Claudes Schwächen
- Wegverbindungen: Schwierigkeiten bei räumlichen Aufgaben wie Wegfindung sowie dem Verbinden von Ein- und Ausgängen
- Platzierung von Achterbahnen: Beim Aufstellen großer Fahrgeschäfte scheiterte die Erkennung von Hindernissen und Geländeformen
- Räumliches 3D-Verständnis: Keine brauchbare Erkennung von Steigungen, unterirdischen Strukturen oder individuelles Design von Coastern
- Insgesamt ist Claude stark bei informationsbasierter Steuerung, aber schwach bei visueller und räumlicher Bedienung
Build-Prozess
- Auf Basis von OpenRCT2 (C++) wurden ein Claude-Terminalfenster, die
rctctl-CLI, eine RPC-Schicht und Testcode ergänzt - Die erste Version wurde mit ChatGPT o3-Pro Deep Research geplant und später mit GPT-5.1-codex neu implementiert
- Der Aufbau dauerte insgesamt mehr als 40 Stunden; als größter Engpass wurde das Fehlen eines Feedback-Loops genannt
- Die QA-Effizienz wurde erhöht, indem Claude selbst Bug-Reports im Repository erstellte
Wichtige Erkenntnisse
- Environment Legibility: Claude ist hervorragend bei klaren Datenschnittstellen, aber schwach bei textbasierten räumlichen Darstellungen
- Wert von Coding-Agenten: Updates aktueller Modelle wie Claude Opus 4.5 konnten sofort genutzt werden und beschleunigten die Entwicklung
- Bedeutung des Entwicklungs-Loops: Ohne automatisierten QA-Loop sinkt die Produktivität drastisch
- Vorteil praktischer Erfahrung: Die beste Methode, die Arbeitsweise von LLMs zu verstehen, ist direktes Experimentieren und Ausprobieren
Ausführung und Open-Source-Informationen
- Erforderlich sind macOS (ab Sonoma), Xcode, CMake, Ninja und RCT2 (Originalversion)
- Die
rctctl-CLI nutzt eine Befehlsstruktur imkubectl-Stil, über die Claude das Spiel via JSON-RPC steuert - Build-Artefakte:
- OpenRCT2 (Version mit integriertem Terminal)
rctctl(CLI-Tool)- Sprite-Assets
- Der vollständige Code ist auf GitHub (
jaysobel/OpenRCT2) verfügbar; eine Live-Demo ist auf Twitch möglich
Fazit
- Claude Code zeigt zugleich das Potenzial und die Grenzen der Betriebsautomatisierung
- RollerCoaster Tycoon fungiert als experimentelles Übergangsfeld zwischen grafischen Benutzeroberflächen und intelligenten Systemen
- Die zentrale Erkenntnis: Erfolg oder Misserfolg von KI-Agenten hängen von der Klarheit der Umgebung und der Qualität des Interface-Designs ab
1 Kommentare
Hacker-News-Kommentare
Ich finde es immer frustrierend, dass mein LLM auf einem viel zu niedrigen Tool-Niveau arbeitet
Im IDE klicke ich einmal für Refactoring, Symbolverfolgung oder „Find Usages“, aber das LLM nutzt nur primitive Befehle wie grep, diff und cat
Ich frage mich, ob es Versuche gibt, dem LLM bessere Tools zum Schreiben und Refaktorieren von Code zu geben
Selbst wenn es in AGENTS.md steht, ignoriert es das und fällt auf die einfache Methode zurück, was ziemlich frustrierend ist
Wenn JetBrains seine Refactoring- und Code-Inspection-Fähigkeiten mit AI verbunden hätte, wären sie vermutlich viel weiter voraus
LLMs haben eher ihre Stärke darin, Probleme durch die Kombination von Low-Level-Tools zu lösen
Für Menschen ist ein komplexes Python-Skript mit 20 Zeilen mühsam, ein LLM erzeugt es in 0,5 Sekunden
Es versteht und kombiniert Codefragmente schnell, daher können Refactoring-Funktionen eher Verwirrung stiften
Gibt man zu viele Tools, besteht das Risiko, dass das Urteilsvermögen unschärfer wird
Ich bin der Autor. Ich teile ein paar Bonus-Links
Sitzungsskript mit Simon Willisons claude-code-transcripts
Reddit-Post
OpenRCT2-Projekt-Repo
Claude ist bei bildbasierten Eingaben stark, könnte aber bei ASCII-Diagrammen schwächer sein
Wie beim Entwurf von Agenten in der realen Welt liegen die Grenzen allgemeiner Agenten in der Sichtbarkeit der Umgebung und der Stärke der Schnittstelle
Deshalb sollte man Agenten eher als Automatisierung von „Gewissenhaftigkeit“ statt von „Intelligenz“ verstehen
Es gab einen Vorfall, bei dem das Wort „revert“ falsch verwendet wurde und Codex tatsächlich
git revertausgeführt hat, wodurch Arbeitsinhalte zurückgesetzt wurdengit revertist kein destruktiver Befehl; wenn es Datenverlust gab, war es wahrscheinlich ehergit reset --hardjj statusim Prompt steht, ist es sichererIch finde es erstaunlich, dass dieses Spiel von einer einzigen Person in Assembler entwickelt wurde
Ich würde den Entwickler gern finden und mich bedanken
Auch der Versuch mit Claude Code war beeindruckend und hat mein Interesse geweckt
Ich fand den Teil interessant, in dem das Projekt ohne jede C++-Kenntnis per vibe-coding fertiggestellt wurde
Die heutige Generation scheint den Wert solcher Umgebungen nicht wirklich zu kennen
Das Interview am Ende des Videos war beeindruckend
Ein kubectl-artiges CLI, Claudes Feedback, Warnsysteme und andere Werkzeuge für die Zusammenarbeit von AI und Menschen werden immer wichtiger
Wenn man der AI auch den visuell für Menschen verständlichen Kontext bereitstellt, lassen sich deutlich bessere Ergebnisse erzielen
Allein mehr Kontext bereitzustellen führt nicht zu Lernen; letztlich braucht es Fine-Tuning
Der Artikel war interessant, aber es fehlte eine Analyse der Ergebnisse, also wie gut die AI tatsächlich gespielt hat
Das Verständnis der 2D-Karte fiel ihr schwer, daher baute sie im Wesentlichen nur Toiletten und Hotdog-Stände
Mit einem multimodalen Modell wäre es wahrscheinlich viel besser gelaufen
Ich habe mich gefragt, wie man in Claude Code den verbleibenden Kontext prüft
/contextkann man das direkt sehenEs gibt sogar ein Plugin, das die verbleibende Kapazität mit Farbbalken visualisiert
Für solche Experimente halte ich rundenbasierte Spiele wie Civilization für besser geeignet
Denn die Karte ist rasterbasiert, und der Ablauf erfolgt zugweise