Das Open-Source-Projekt Ouroboros, entwickelt von einem koreanischen Entwickler,
hat im kürzlich veröffentlichten Benchmark für "AI-assisted discrete-event simulation" den ersten Platz in der Gesamtwertung erreicht.
Besonders bemerkenswert war, dass es trotz Ausführung in derselben Claude-Max-Umgebung bessere Ergebnisse erzielte als der plan mode von Claude selbst.
Dieser Benchmark war kein einfacher Test reiner Programmierfähigkeiten, sondern eine anspruchsvolle Aufgabe, die bewertet, wie gut ein AI-Agent reale Systeme versteht,
modelliert und bis hin zu ausführbaren Simulationsergebnissen umsetzen kann.
Die Aufgabe bezog sich auf ein Transportsystem in einem Bergwerk und verlangte grob die folgenden Fähigkeiten:
- Verständnis der Systemstruktur mit Bergbau-Lkw, Beladestellen, Entladestellen, Routen, Warteschlangen usw.
- Abstraktion komplexer realer Prozesse in ein discrete-event-simulation-Modell
- Entwurf, welche Events auftreten, welche Zustände sich ändern und welche Kennzahlen gemessen werden sollen
- Implementierung von tatsächlich ausführbarem Simulationscode
- Interpretation der Ergebnisse wie Bottlenecks, Durchsatz und Wartezeiten
- Erstellung von für Menschen leicht verständlichen Artefakten wie topology diagram und Animation
Ouroboros wurde innerhalb von Claude Code mit dem ooo workflow ausgeführt,
die Einreichung umfasste dabei nicht nur eine einfache Code-Implementierung, sondern auch eine Animation, in der Bergbau-Lkw Erz transportieren, sowie ein topology diagram.
Interessant ist, dass Ouroboros trotz eines Ausfalls des MCP server während der Ausführung
über einen skills-basierten Ansatz auf Fallback umschaltete und dennoch gute Ergebnisse lieferte.
Persönlich halte ich gerade diesen Punkt für besonders bedeutsam.
Denn in realen Umgebungen funktionieren AI-Workflows nicht immer unter idealen Bedingungen,
weshalb die Fähigkeit wichtig ist, nach Fehlern zu recovern und auf einem anderen Pfad weiterzumachen.
Die Zielrichtung von Ouroboros ist nicht einfach nur, „die AI Code schreiben zu lassen“.
Es schafft einen Workflow, in dem die AI Probleme klar definiert, Pläne erstellt, ausführt, sich von Fehlern erholt, Ergebnisse bewertet
und sie bei Bedarf erneut verbessert.
Ich denke, dieser Benchmark ist ein guter Nachweis dafür, dass ein solcher Ansatz auch bei der Lösung realer komplexer Probleme sinnvoll ist.
Ein weiterer interessanter Punkt war, dass der Ansatz, einfach viele Anweisungen oder große skills hinzuzufügen, nicht immer zu guten Ergebnissen führte.
In diesem Ergebnis zeigten einige fat-skills-basierte Ansätze (zum Beispiel superpowers) sogar eine geringere Leistung als der grundlegende plan mode,
während umgekehrt ein strukturierter Workflow wie bei Ouroboros, der Problemdefinition, Planung, Ausführung, Bewertung und Wiederherstellung organisiert, bessere Resultate erzielte.
Persönlich macht es mich stolz, dass es sich um „einen Fall handelt, in dem ein von einem koreanischen Entwickler geschaffenes Open-Source-AI-Workflow
den grundlegenden plan mode von Anthropic übertroffen hat“.
Noch wichtiger ist jedoch, dass dies als kleines Experimentergebnis dafür gesehen werden kann,
welche Struktur AI-Agenten künftig brauchen, um reale Probleme tatsächlich zu lösen.
- Ouroboros GitHub: https://github.com/Q00/ouroboros
- Benchmark: https://lnkd.in/dhGMsGVD
Noch keine Kommentare.