- Fünf große Sprachmodelle wie GPT-5, Claude, Gemini, Grok und DeepSeek führten über acht Monate hinweg virtuellen Aktienhandel auf Basis realer Marktdaten durch
- Jedes Modell handelte wichtige Titel täglich mit 100.000 US-Dollar Testkapital, wobei alle Entscheidungen und Portfolioveränderungen protokolliert wurden
- Im Ergebnis erzielte Grok die höchste Rendite, DeepSeek landete knapp auf Platz zwei, Gemini wurde mit einem auf Nicht-Technologieaktien fokussierten Portfolio Letzter
- Das Experiment lief vom 3. Februar 2025 bis zum 20. Oktober 2025; dafür wurde eine zeitlich gefilterte API-Umgebung aufgebaut, damit die Modelle nur auf Daten nach ihrem Trainingszeitpunkt zugreifen konnten
- Das Forschungsteam will dieses Experiment als Ausgangspunkt nutzen und die Finanzanalysefähigkeiten von LLMs durch Echtzeithandel und Experimente mit kontrollierten Variablen systematisch überprüfen
Überblick über AI Trade Arena
- AI Trade Arena ist eine experimentelle Plattform, die aufgebaut wurde, um die Fähigkeit von LLMs zu bewerten, reale Finanzdaten zu analysieren und vorherzusagen
- Gemeinsam von Kam und Josh entwickelt
- Die Plattform ist so konzipiert, dass Modelle auf Basis von Nachrichten, Finanzberichten und Marktdaten Aktiengeschäfte ausführen
- Die Plattform verfolgt die Bestände, Handelsverläufe und Performance jedes Modells und veröffentlicht den gesamten Handelsprozess als interaktive Demo
Erstes Experiment: Aktienhandel mit fünf LLMs
- Getestet wurden GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4 und DeepSeek
- Jedes Modell erhielt 100.000 US-Dollar Testkapital
- Optionshandel war ausgeschlossen, gehandelt wurden nur große Aktienwerte
- Alle Trades wurden auf Basis tatsächlicher historischer Kurse ausgeführt, und die Modelle konnten nur auf Informationen zugreifen, die zu diesem Zeitpunkt öffentlich waren
- News-API, Unternehmensfinanzdaten und Marktdaten wurden zeitlich gefiltert bereitgestellt
- Der Testzeitraum lief vom 3. Februar 2025 bis 20. Oktober 2025, also rund acht Monate
Das Konzept und die Grenzen von Backtesting
- Backtesting ist eine Methode, bei der die Leistung eines Handelsalgorithmus mit historischen Daten überprüft wird
- Es wird simuliert, welche Entscheidungen ein LLM zu einem früheren Zeitpunkt getroffen hätte
- Um Datenlecks aus der Zukunft zu verhindern, wurden die APIs entlang der Zeitachse getrennt
- Vorteile
- Bewertung in großem Maßstab möglich
- Verschiedene Szenarien schnell testbar
- Statistisch aussagekräftige Ergebnisse möglich
- Nachteile
- Das wettbewerbsorientierte und liquiditätsgetriebene Umfeld realer Märkte lässt sich nicht vollständig nachbilden
- Es bestehen Risiken durch Slippage, Volumenbeschränkungen und Datenlecks aus der Zukunft
- Möglichkeit des Overfitting auf historische Daten
Ergebnisse und Beobachtungen
- Alle Modelle wurden ausschließlich für Zeiträume nach dem Cutoff ihrer Trainingsdaten getestet
- So sollte verhindert werden, dass Modelle mit auswendig gelernten historischen Marktergebnissen handeln
- Grok erzielte die beste Performance, DeepSeek lag knapp auf Platz zwei
- Die meisten Modelle stellten technologielastige Portfolios zusammen und erzielten hohe Renditen
- Gemini hatte einen hohen Anteil an Nicht-Technologieaktien und schnitt daher am schwächsten ab
- Das Forschungsteam veröffentlichte den gesamten Handelsprozess samt Begründungen, um Transparenz zu schaffen
- Die Grundlage jedes Trades lässt sich direkt in der UI nachvollziehen
Nächste Schritte
- Das Forschungsteam will über Backtests hinaus auf Echtzeit-Handelsexperimente ausweiten
- Drei-Stufen-Ansatz: Backtests historischer Szenarien → Echtzeit-Papierhandel → realer Markthandel
- Ziel ist es, die Fähigkeit von LLMs zur Analyse von Finanzmärkten und die Qualität ihrer Entscheidungen systematisch zu verstehen
- Marktdaten sollen als realitätsnahe Bewertungsmetriken genutzt werden
- Mit Barra-Faktorenanalyse und ähnlichen Methoden soll versucht werden, Glück und Können zu unterscheiden
- Anhand der Handelsprotokolle lässt sich der Unterschied zwischen urteilen auf Basis von Auswendiglernen und echtem Schlussfolgern erkennen
- Beispiel: der Unterschied zwischen dem Kauf von Nvidia allein aufgrund von Erinnerung und dem Gewinnen fundamentaler Einsichten durch Analyse eines 10-K-Berichts
- Durch diese transparente Analyse von Entscheidungsprozessen lassen sich auch Tool-Zusammenstellung und Workflows der Modelle verbessern
Teilnahme und Datenerkundung
- In der interaktiven Demo auf der Website lassen sich die Trades, Strategien und Schlussfolgerungsprozesse der einzelnen Modelle direkt erkunden
- Das Forschungsteam plant weitere Experimente und sammelt Feedback über die Discord-Community und Twitter-DMs
Noch keine Kommentare.