11 Punkte von GN⁺ 2025-12-06 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Fünf große Sprachmodelle wie GPT-5, Claude, Gemini, Grok und DeepSeek führten über acht Monate hinweg virtuellen Aktienhandel auf Basis realer Marktdaten durch
  • Jedes Modell handelte wichtige Titel täglich mit 100.000 US-Dollar Testkapital, wobei alle Entscheidungen und Portfolioveränderungen protokolliert wurden
  • Im Ergebnis erzielte Grok die höchste Rendite, DeepSeek landete knapp auf Platz zwei, Gemini wurde mit einem auf Nicht-Technologieaktien fokussierten Portfolio Letzter
  • Das Experiment lief vom 3. Februar 2025 bis zum 20. Oktober 2025; dafür wurde eine zeitlich gefilterte API-Umgebung aufgebaut, damit die Modelle nur auf Daten nach ihrem Trainingszeitpunkt zugreifen konnten
  • Das Forschungsteam will dieses Experiment als Ausgangspunkt nutzen und die Finanzanalysefähigkeiten von LLMs durch Echtzeithandel und Experimente mit kontrollierten Variablen systematisch überprüfen

Überblick über AI Trade Arena

  • AI Trade Arena ist eine experimentelle Plattform, die aufgebaut wurde, um die Fähigkeit von LLMs zu bewerten, reale Finanzdaten zu analysieren und vorherzusagen
    • Gemeinsam von Kam und Josh entwickelt
    • Die Plattform ist so konzipiert, dass Modelle auf Basis von Nachrichten, Finanzberichten und Marktdaten Aktiengeschäfte ausführen
  • Die Plattform verfolgt die Bestände, Handelsverläufe und Performance jedes Modells und veröffentlicht den gesamten Handelsprozess als interaktive Demo

Erstes Experiment: Aktienhandel mit fünf LLMs

  • Getestet wurden GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4 und DeepSeek
    • Jedes Modell erhielt 100.000 US-Dollar Testkapital
    • Optionshandel war ausgeschlossen, gehandelt wurden nur große Aktienwerte
  • Alle Trades wurden auf Basis tatsächlicher historischer Kurse ausgeführt, und die Modelle konnten nur auf Informationen zugreifen, die zu diesem Zeitpunkt öffentlich waren
    • News-API, Unternehmensfinanzdaten und Marktdaten wurden zeitlich gefiltert bereitgestellt
  • Der Testzeitraum lief vom 3. Februar 2025 bis 20. Oktober 2025, also rund acht Monate

Das Konzept und die Grenzen von Backtesting

  • Backtesting ist eine Methode, bei der die Leistung eines Handelsalgorithmus mit historischen Daten überprüft wird
    • Es wird simuliert, welche Entscheidungen ein LLM zu einem früheren Zeitpunkt getroffen hätte
    • Um Datenlecks aus der Zukunft zu verhindern, wurden die APIs entlang der Zeitachse getrennt
  • Vorteile
    • Bewertung in großem Maßstab möglich
    • Verschiedene Szenarien schnell testbar
    • Statistisch aussagekräftige Ergebnisse möglich
  • Nachteile
    • Das wettbewerbsorientierte und liquiditätsgetriebene Umfeld realer Märkte lässt sich nicht vollständig nachbilden
    • Es bestehen Risiken durch Slippage, Volumenbeschränkungen und Datenlecks aus der Zukunft
    • Möglichkeit des Overfitting auf historische Daten

Ergebnisse und Beobachtungen

  • Alle Modelle wurden ausschließlich für Zeiträume nach dem Cutoff ihrer Trainingsdaten getestet
    • So sollte verhindert werden, dass Modelle mit auswendig gelernten historischen Marktergebnissen handeln
  • Grok erzielte die beste Performance, DeepSeek lag knapp auf Platz zwei
    • Die meisten Modelle stellten technologielastige Portfolios zusammen und erzielten hohe Renditen
    • Gemini hatte einen hohen Anteil an Nicht-Technologieaktien und schnitt daher am schwächsten ab
  • Das Forschungsteam veröffentlichte den gesamten Handelsprozess samt Begründungen, um Transparenz zu schaffen
    • Die Grundlage jedes Trades lässt sich direkt in der UI nachvollziehen

Nächste Schritte

  • Das Forschungsteam will über Backtests hinaus auf Echtzeit-Handelsexperimente ausweiten
    • Drei-Stufen-Ansatz: Backtests historischer Szenarien → Echtzeit-Papierhandel → realer Markthandel
  • Ziel ist es, die Fähigkeit von LLMs zur Analyse von Finanzmärkten und die Qualität ihrer Entscheidungen systematisch zu verstehen
    • Marktdaten sollen als realitätsnahe Bewertungsmetriken genutzt werden
    • Mit Barra-Faktorenanalyse und ähnlichen Methoden soll versucht werden, Glück und Können zu unterscheiden
  • Anhand der Handelsprotokolle lässt sich der Unterschied zwischen urteilen auf Basis von Auswendiglernen und echtem Schlussfolgern erkennen
    • Beispiel: der Unterschied zwischen dem Kauf von Nvidia allein aufgrund von Erinnerung und dem Gewinnen fundamentaler Einsichten durch Analyse eines 10-K-Berichts
  • Durch diese transparente Analyse von Entscheidungsprozessen lassen sich auch Tool-Zusammenstellung und Workflows der Modelle verbessern

Teilnahme und Datenerkundung

  • In der interaktiven Demo auf der Website lassen sich die Trades, Strategien und Schlussfolgerungsprozesse der einzelnen Modelle direkt erkunden
  • Das Forschungsteam plant weitere Experimente und sammelt Feedback über die Discord-Community und Twitter-DMs

Noch keine Kommentare.

Noch keine Kommentare.