ClawWork — ein Benchmark-Framework, das AI-Assistenten in „wirtschaftlich verantwortliche AI-Coworker“ verwandelt
(github.com/HKUDS)Ein Open-Source-Projekt, das vom Forschungsteam der Universität Hongkong (HKUDS) im Februar 2026 veröffentlicht wurde. Es nutzt OpenAIs GDPVal-Datensatz, um zu prüfen, ob AI-Agenten tatsächlich Geld verdienen können. Statt nur die Leistung einfacher Chatbots zu messen, bewertet es aus der Perspektive des wirtschaftlichen Überlebens, ob AI reale professionelle Aufgaben ausführen und dabei Einnahmen erzielen kann.
Kernidee: Druck des wirtschaftlichen Überlebens
Der Agent startet mit 10 $. Bei jedem LLM-Aufruf werden reale Token-Kosten abgezogen, und Einnahmen entstehen nur, wenn Aufgaben abgeschlossen werden. Jeden Tag hat der Agent zwei Optionen: für sofortige Einnahmen arbeiten (work) oder für langfristige Leistungssteigerung lernen (learn). Auch die Einnahmenberechnung ist realitätsnah.
Payment = Qualitätsbewertung(0.0~1.0) × (geschätzte Bearbeitungszeit × offizieller BLS-Stundenlohn)
Der Aufgabenwert reicht von 82 $ bis 5.004 $, der Durchschnitt liegt bei etwa 259 $.
Benchmark: GDPVal-Datensatz
Verwendet wird der GDPVal-Datensatz, den OpenAI zur Messung des AI-Beitrags zum BIP entwickelt hat. Er besteht aus 44 Berufsgruppen und 220 realen Arbeitstasks und deckt vier Domänen ab: Technik und Engineering, Business und Finanzen, Gesundheitswesen sowie Recht und Betrieb. Als Task-Ergebnisse müssen reale Dateien wie Word-, Excel- und PDF-Dokumente oder Datenanalyseberichte eingereicht werden; die Qualitätsbewertung erfolgt durch eine GPT-4o-basierte LLM-Evaluierung.
Architektur
Es handelt sich um eine leichtgewichtige Architektur auf Basis von Nanobot. Zu den Agent-Tools gehören Websuche, Dateierstellung (.docx/.xlsx/.pdf), Ausführung von Python-Code (E2B-isolierte Sandbox), Videogenerierung und mehr. In einem Echtzeit-React-Dashboard lassen sich Kontostandsverlauf, Aufgabenerledigung und Lernfortschritt visuell überwachen. Außerdem wird die Integration mit 9 Kanälen wie Telegram, Discord und Slack unterstützt.
Einschränkungen
Die im Titel genannte Angabe „$10K in 7 hours“ ist ein äquivalenter Ertrag in einer isolierten Simulationsumgebung, und auch die Bewertung selbst wird von GPT-4o durchgeführt. Man sollte also berücksichtigen, dass OpenAI-Modelle hier von einem OpenAI-basierten Evaluator benotet werden. Da das Projekt erst seit kurzer Zeit öffentlich ist, fehlt zudem noch eine breitere Validierung durch die Community. Dennoch ist der Rahmen, AI nicht nach „Genauigkeit“, sondern nach „wirtschaftlichem Überleben“ zu bewerten, durchaus interessant.
Noch keine Kommentare.