16 Punkte von GN⁺ 2026-01-19 | 1 Kommentare | Auf WhatsApp teilen
  • Claude Code wurde in das Open-Source-Spiel RollerCoaster Tycoon 2 (OpenRCT2) integriert, um zu testen, ob eine KI tatsächlich einen Freizeitpark betreiben kann
  • Die KI analysierte mehr als 100 Kennzahlen wie Finanzen, Gästebeschwerden und Fahrgeschäftsausfälle und traf Managemententscheidungen wie das Aufstellen von Getränkeständen, das Einstellen von Personal und das Anpassen der Eintrittspreise automatisch
  • Über das CLI-Tool rctctl wurden alle Aktionen im Spiel über die Kommandozeile ausgeführt; die Struktur ist ähnlich wie bei Kubernetes kubectl
  • Claude zeigte Stärken bei Datenanalyse, Preisanpassungen und Personalmanagement, offenbarte jedoch Grenzen bei räumlichen Aufgaben wie Wegverbindungen, Platzierung von Achterbahnen und Geländeerkennung
  • Das Experiment bestätigte, dass der Schlüssel beim Agenten-Design in der Lesbarkeit der Umgebung und der Qualität der Schnittstellen liegt

Projektüberblick

  • Ramp Labs integrierte Claude Code in RollerCoaster Tycoon 2, um zu testen, ob eine KI den Parkbetrieb direkt übernehmen kann
    • Claude analysierte rund 100 Datenpunkte im Spiel, darunter Finanzen, Gästezufriedenheit und den Zustand der Fahrgeschäfte
    • Auf dieser Basis schlug die KI Maßnahmen wie zusätzliche Getränkestände, die Einstellung von Mechanikern und höhere Eintrittspreise automatisch vor
  • Ziel des Experiments war es, Erkenntnisse für das Design von KI-Agenten in B2B-SaaS-Umgebungen zu gewinnen
  • RollerCoaster Tycoon wurde ausgewählt, weil das Spiel kundenorientierten Geschäftsbetrieb und digitale Feedback-Loops abbildet

Warum RollerCoaster Tycoon?

  • Ramp entwickelt kleine, auf einzelne Aufgaben spezialisierte Agenten und verfolgt dabei einen Ansatz, der Sicherheits- und Kontextgrenzen berücksichtigt
  • Gleichzeitig bestand der Wunsch, experimentell einen einzelnen Agenten mit weitreichenden Berechtigungen zu testen
  • RollerCoaster Tycoon bietet eine Umgebung, in der Wirtschaft, Kunden und Betriebsmanagement zusammenkommen, und ähnelt damit dem Betrieb von SaaS-Produkten
  • Die Benutzeroberfläche des Spiels ähnelt einem B2B-SaaS-Dashboard und passt gut zu Claudes retro-futuristischem Terminal-Interface

Claudes Fähigkeiten und Grenzen

  • OpenRCT2 wurde geforkt und um ein Terminalfenster erweitert, sodass Claude das Spiel per Kommandozeile steuern konnte
  • Die rctctl-CLI deckt alle möglichen Benutzeraktionen ab und kommuniziert per JSON-RPC mit dem Spielzustand
  • Statt visueller Wahrnehmung nutzte Claude eine ASCII-Kartenausgabe, um räumliche Informationen zu erfassen

Claudes Stärken

  • Spielwissen: Umfangreiches Wissen zu RCT und natürliche Interaktion selbst in einer Spielumgebung der 90er Jahre
  • Informationssammlung: Integrierte Analyse verschiedener Kennzahlen wie Gästefeedback und Finanzdaten
  • Digitale Bedienung: Stark bei nicht-räumlichen Aufgaben wie dem Öffnen und Schließen von Fahrgeschäften, Preisänderungen, Personaleinstellungen und Marketingmaßnahmen
  • Platzierung von Einrichtungen: Einfache Strukturen wie Toiletten und Getränkestände konnten zuverlässig platziert werden

Claudes Schwächen

  • Wegverbindungen: Schwierigkeiten bei räumlichen Aufgaben wie Wegfindung sowie dem Verbinden von Ein- und Ausgängen
  • Platzierung von Achterbahnen: Beim Aufstellen großer Fahrgeschäfte scheiterte die Erkennung von Hindernissen und Geländeformen
  • Räumliches 3D-Verständnis: Keine brauchbare Erkennung von Steigungen, unterirdischen Strukturen oder individuelles Design von Coastern
  • Insgesamt ist Claude stark bei informationsbasierter Steuerung, aber schwach bei visueller und räumlicher Bedienung

Build-Prozess

  • Auf Basis von OpenRCT2 (C++) wurden ein Claude-Terminalfenster, die rctctl-CLI, eine RPC-Schicht und Testcode ergänzt
  • Die erste Version wurde mit ChatGPT o3-Pro Deep Research geplant und später mit GPT-5.1-codex neu implementiert
  • Der Aufbau dauerte insgesamt mehr als 40 Stunden; als größter Engpass wurde das Fehlen eines Feedback-Loops genannt
  • Die QA-Effizienz wurde erhöht, indem Claude selbst Bug-Reports im Repository erstellte

Wichtige Erkenntnisse

  • Environment Legibility: Claude ist hervorragend bei klaren Datenschnittstellen, aber schwach bei textbasierten räumlichen Darstellungen
  • Wert von Coding-Agenten: Updates aktueller Modelle wie Claude Opus 4.5 konnten sofort genutzt werden und beschleunigten die Entwicklung
  • Bedeutung des Entwicklungs-Loops: Ohne automatisierten QA-Loop sinkt die Produktivität drastisch
  • Vorteil praktischer Erfahrung: Die beste Methode, die Arbeitsweise von LLMs zu verstehen, ist direktes Experimentieren und Ausprobieren

Ausführung und Open-Source-Informationen

  • Erforderlich sind macOS (ab Sonoma), Xcode, CMake, Ninja und RCT2 (Originalversion)
  • Die rctctl-CLI nutzt eine Befehlsstruktur im kubectl-Stil, über die Claude das Spiel via JSON-RPC steuert
  • Build-Artefakte:
    • OpenRCT2 (Version mit integriertem Terminal)
    • rctctl (CLI-Tool)
    • Sprite-Assets
  • Der vollständige Code ist auf GitHub (jaysobel/OpenRCT2) verfügbar; eine Live-Demo ist auf Twitch möglich

Fazit

  • Claude Code zeigt zugleich das Potenzial und die Grenzen der Betriebsautomatisierung
  • RollerCoaster Tycoon fungiert als experimentelles Übergangsfeld zwischen grafischen Benutzeroberflächen und intelligenten Systemen
  • Die zentrale Erkenntnis: Erfolg oder Misserfolg von KI-Agenten hängen von der Klarheit der Umgebung und der Qualität des Interface-Designs ab

1 Kommentare

 
GN⁺ 2026-01-19
Hacker-News-Kommentare
  • Ich finde es immer frustrierend, dass mein LLM auf einem viel zu niedrigen Tool-Niveau arbeitet
    Im IDE klicke ich einmal für Refactoring, Symbolverfolgung oder „Find Usages“, aber das LLM nutzt nur primitive Befehle wie grep, diff und cat
    Ich frage mich, ob es Versuche gibt, dem LLM bessere Tools zum Schreiben und Refaktorieren von Code zu geben

    • Selbst wenn man Zugriff auf VSCode Diagnostics oder einen LSP-Server gibt, greift das LLM am Ende doch immer nur zu den einfachen CLI-Tools
      Selbst wenn es in AGENTS.md steht, ignoriert es das und fällt auf die einfache Methode zurück, was ziemlich frustrierend ist
    • Es überrascht mich, dass die meisten AI-Entwicklungstools auf VSCode basieren
      Wenn JetBrains seine Refactoring- und Code-Inspection-Fähigkeiten mit AI verbunden hätte, wären sie vermutlich viel weiter voraus
    • Claude Code hat in der Version vom Dezember 2025 offizielle LSP-Unterstützung bekommen, scheint aber immer noch auf einfache Tools hin trainiert zu sein
      LLMs haben eher ihre Stärke darin, Probleme durch die Kombination von Low-Level-Tools zu lösen
      Für Menschen ist ein komplexes Python-Skript mit 20 Zeilen mühsam, ein LLM erzeugt es in 0,5 Sekunden
    • Der Zed Editor stellt dem LLM LSP-basierte Funktionen direkt bereit und reduziert so die Abhängigkeit von grep
    • Ein LLM braucht nicht zwingend IDE-Funktionen wie ein Mensch
      Es versteht und kombiniert Codefragmente schnell, daher können Refactoring-Funktionen eher Verwirrung stiften
      Gibt man zu viele Tools, besteht das Risiko, dass das Urteilsvermögen unschärfer wird
  • Ich bin der Autor. Ich teile ein paar Bonus-Links
    Sitzungsskript mit Simon Willisons claude-code-transcripts
    Reddit-Post
    OpenRCT2-Projekt-Repo

    • Ich frage mich, ob statt der CLI Screenshots oder visualisierte Bildschirme zur Bewertung verwendet wurden
      Claude ist bei bildbasierten Eingaben stark, könnte aber bei ASCII-Diagrammen schwächer sein
    • Es gibt die Meinung, dass Claude Grenzen bei visueller und räumlicher Wahrnehmung hat und OpenAI-Modelle beim Bildverständnis wahrscheinlich besser wären
  • Wie beim Entwurf von Agenten in der realen Welt liegen die Grenzen allgemeiner Agenten in der Sichtbarkeit der Umgebung und der Stärke der Schnittstelle
    Deshalb sollte man Agenten eher als Automatisierung von „Gewissenhaftigkeit“ statt von „Intelligenz“ verstehen

  • Es gab einen Vorfall, bei dem das Wort „revert“ falsch verwendet wurde und Codex tatsächlich git revert ausgeführt hat, wodurch Arbeitsinhalte zurückgesetzt wurden

    • Es überrascht mich, dass solche Tools Arbeitsprotokolle nicht so speichern, dass man sie wieder abspielen kann
      git revert ist kein destruktiver Befehl; wenn es Datenverlust gab, war es wahrscheinlich eher git reset --hard
    • Um solche Unfälle zu verhindern, braucht man eine Steuerung für Befehlsberechtigungen
    • Deshalb meinen manche auch, man solle Jujutsu verwenden; wenn jj status im Prompt steht, ist es sicherer
  • Ich finde es erstaunlich, dass dieses Spiel von einer einzigen Person in Assembler entwickelt wurde
    Ich würde den Entwickler gern finden und mich bedanken
    Auch der Versuch mit Claude Code war beeindruckend und hat mein Interesse geweckt

  • Ich fand den Teil interessant, in dem das Projekt ohne jede C++-Kenntnis per vibe-coding fertiggestellt wurde

    • Normalerweise heißt es bei vibe-coding: „in ein paar Stunden erledigt“, aber diesmal wurde ein realistischer Zeitplan genannt, was erfrischend war
    • Die Irrtümer, Rückschläge und die Art der Problemlösung fand ich wirklich spannend
    • Hätte es so etwas 1997 gegeben, hätte ich wohl mein ganzes Vermögen dafür ausgegeben
      Die heutige Generation scheint den Wert solcher Umgebungen nicht wirklich zu kennen
  • Das Interview am Ende des Videos war beeindruckend
    Ein kubectl-artiges CLI, Claudes Feedback, Warnsysteme und andere Werkzeuge für die Zusammenarbeit von AI und Menschen werden immer wichtiger
    Wenn man der AI auch den visuell für Menschen verständlichen Kontext bereitstellt, lassen sich deutlich bessere Ergebnisse erzielen

    • Allerdings funktioniert eine Struktur, in der AI sich selbst verbessert, in der Praxis nicht besonders gut
      Allein mehr Kontext bereitzustellen führt nicht zu Lernen; letztlich braucht es Fine-Tuning
  • Der Artikel war interessant, aber es fehlte eine Analyse der Ergebnisse, also wie gut die AI tatsächlich gespielt hat

    • Tatsächlich war sie gut im Finanzmanagement, aber schwach beim Bauen von Gebäuden
      Das Verständnis der 2D-Karte fiel ihr schwer, daher baute sie im Wesentlichen nur Toiletten und Hotdog-Stände
      Mit einem multimodalen Modell wäre es wahrscheinlich viel besser gelaufen
    • Manche sehen die eigentliche Stärke von AI eher in der Generierung als in der Verifikation
  • Ich habe mich gefragt, wie man in Claude Code den verbleibenden Kontext prüft

    • Mit dem Befehl /context kann man das direkt sehen
    • Man kann der Statuszeile auch eine Anzeige der Kontextnutzung hinzufügen
      Es gibt sogar ein Plugin, das die verbleibende Kapazität mit Farbbalken visualisiert
  • Für solche Experimente halte ich rundenbasierte Spiele wie Civilization für besser geeignet
    Denn die Karte ist rasterbasiert, und der Ablauf erfolgt zugweise