1 Punkte von GN⁺ 2025-03-12 | 1 Kommentare | Auf WhatsApp teilen
  • Die auf dem Spiel Factorio basierende Factorio Learning Environment (FLE) ist eine Umgebung zum Testen von langfristiger Planung, Programmgenerierung und Ressourcenoptimierung.
  • FLE bietet skalierbare Herausforderungen von grundlegender Automatisierung bis hin zu komplexen Fabriken und umfasst zwei Setups: „Lab-play“ mit 24 strukturierten Aufgaben bei festen Ressourcen und „Open-play“ mit unbegrenzten Aufgaben.
  • Die Bedeutung von FLE
    • FLE stellt Infrastruktur, API und Metriken zur Bewertung von Codegenerierung, räumlichem Denken und langfristiger Planung bereit.
    • Agenten müssen Ressourcen abbauen und komplexe Produktionsketten verwalten und dabei zunehmend komplexe Ziele setzen und erreichen.
  • Umgebung und Agenten
    • Agenten interagieren über eine Python API mit der Umgebung, reichen Programme ein und erhalten Feedback, um ihre Strategien zu verbessern.
    • Agentenprogramme erzeugen einen Produktionsscore (PS) und Meilensteine, die den technologischen Fortschritt darstellen.
  • Experimentaufbau
    • Zwei experimentelle Setups: „Open-play“ und „Lab-play“.
    • Sechs führende Sprachmodelle wurden evaluiert: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash, Llama-3.3-70B-Instruct.
  • Open-play
    • Agenten verfolgen in einer prozedural generierten Welt das Ziel, „die größte Fabrik zu bauen“.
    • Die Fähigkeiten der Agenten werden über den Produktionsscore bewertet; stärkere Modelle zeigen höhere Werte und steilere Wachstumskurven.
  • Lab-play
    • Agenten erhalten Ressourcen und müssen innerhalb begrenzter Zeit Ziele erreichen.
    • Sie bearbeiten Aufgaben zur Produktion von 24 Ziel-Entitäten, die schrittweise komplexer werden.
  • Wichtige Erkenntnisse
    • Die Coding-Fähigkeit sagt die Leistung voraus, und Investitionen in Technologie sowie Planung treiben das Wachstum.
    • Räumliches Denken und Fehlerbehebung sind zentrale Herausforderungen.
    • Die Modelle zeigen unterschiedliche Programmierstile.
  • Fazit
    • Selbst moderne LLMs haben Schwierigkeiten mit Koordinations- und Optimierungsproblemen bei Automatisierungsaufgaben.
    • Die Komplexität des Technologiebaums von Factorio bietet weiterhin ein herausforderndes Evaluierungsszenario, selbst wenn die KI-Forschung weiter voranschreitet.
    • FLE wird als Open-Source-Plattform zur Erforschung der Fähigkeiten von Agenten in komplexen und unendlichen Domänen bereitgestellt.

1 Kommentare

 
GN⁺ 2025-03-12
Hacker-News-Kommentare
  • Ich würde mich gern beim Anthropic-Factorio-Labor bewerben. Ich frage mich, ob multimodale Daten übertragen werden. Das kürzlich veröffentlichte Qwen 2.5 VLM wirkt für seine Größe ziemlich leistungsstark

    • Es gibt viele Hinweise auf mangelnde räumliche Fähigkeiten. Mich interessieren Gedanken dazu, ob Bilder übertragen werden
    • Diese Arbeit ist erstaunlich. Ich würde sofort gern an diesem Projekt mitarbeiten
    • Es wirkt so, als wäre MCP eine natürlich notwendige Aufgabe, um Python-Bibliotheken zu aktivieren
  • Es gab einen HN-Beitrag über ein Team, das mit Reinforcement Learning Pokémon Red besiegt hat. Ich frage mich, ob man diesen Ansatz auf Factorio anwenden könnte

    • Die wichtigsten „Pflichtaufgaben“ in Factorio sind das Einrichten der Automatisierung für neue Items und Wissenschaftspakete
    • Die Reward-Funktion könnte kleine Belohnungen für die Produktionsrate jedes Items, mittlere Belohnungen für die Automatisierung neuer Items und große Belohnungen für die Automatisierung neuer Wissenschaftspakete enthalten
    • Dem Factorio-Agenten zu sagen „Baue eine große Fabrik“ ist so, als würde man dem Pokémon-Red-Agenten sagen „Gewinne das Spiel“
  • Alle Modelle zeigten Einschränkungen bei der räumlichen Planung, wenn sie Fabriken mit mehreren Abschnitten aufbauen sollten

    • Der Grund, warum LLMs bei räumlichem Schlussfolgern schwach sind, ist, dass es nicht viele Trainingsdaten gibt
    • Ich frage mich, welche zusätzlichen Schlussfolgerungsfähigkeiten auftauchen würden, wenn räumliches Schlussfolgern gelöst wäre
  • Man könnte LLMs als High-Level-Agenten verwenden, um autonom große, effiziente Fabriken zu bauen

    • Ziele für die Ressourcenproduktion setzen
    • Fabrikgraphen erzeugen und den Ressourcentransport berechnen
    • Den Graphen auf eine Hardwarebeschreibungssprache abbilden
    • Zu einem 2D-FPGA-Layout kompilieren
    • Den Plan auf ein konkretes Factorio-Design abbilden
  • Es gibt viele interessante Dinge zum Experimentieren. Ein Laborszenario mit zeitbezogenen Elementen scheint eine gute Idee zu sein

    • Mir gefällt das Framework-Design, das sich von DOTA 2- oder StarCraft-2-Experimenten unterscheidet
    • Ich frage mich, ob es Pläne für Layout-Optimierungs-Benchmarks gibt
  • Ich frage mich, ob es Human-Player-Benchmarks für diese Art von Interface gibt

    • Ich frage mich, wie sich programmgesteuertes Factorio anfühlen würde
  • Ich frage mich, ob in ein paar Jahren alle Gegner im Spiel LLMs sein werden, die Zugriff auf die Game-Control-API haben

    • Ich frage mich, ob es bestimmte Aufgabentypen gibt, mit denen Modelle Schwierigkeiten haben
  • Als weitere Kategorie von „Lab Play“-Aufgaben wäre Balancer-Design interessant

    • Selbst kleine Balancer können komplex sein
  • Ich hätte gern mehr Bilder von größeren Fabriken gesehen

    • Das zeigt eine aktuelle große Schwäche von LLMs sehr deutlich
    • Ich erwarte größere Verbesserungen bei Online-Learning/Anpassung
  • Es ist interessant, dass es nur ein paar komplexe Szenarien gibt

    • Ich habe immer gedacht, dass ML-Spielagenten Hunderte kleiner Rätsel brauchen, um die Spielmechanik richtig zu lernen
    • Man könnte Szenarien programmatisch erzeugen und wie einen Fragenpool für IQ-Tests verwenden
    • Ich nehme an, dass ML-Agenten schneller lernen, wenn sie Stichproben aus einem größeren Szenarienpool auswerten