11 Punkte von GN⁺ 2025-12-06 | 1 Kommentare | Auf WhatsApp teilen
  • Fünf große Sprachmodelle wie GPT-5, Claude, Gemini, Grok und DeepSeek führten über acht Monate hinweg virtuellen Aktienhandel auf Basis realer Marktdaten durch
  • Jedes Modell handelte wichtige Titel täglich mit 100.000 US-Dollar Testkapital, wobei alle Entscheidungen und Portfolioveränderungen protokolliert wurden
  • Im Ergebnis erzielte Grok die höchste Rendite, DeepSeek landete knapp auf Platz zwei, Gemini wurde mit einem auf Nicht-Technologieaktien fokussierten Portfolio Letzter
  • Das Experiment lief vom 3. Februar 2025 bis zum 20. Oktober 2025; dafür wurde eine zeitlich gefilterte API-Umgebung aufgebaut, damit die Modelle nur auf Daten nach ihrem Trainingszeitpunkt zugreifen konnten
  • Das Forschungsteam will dieses Experiment als Ausgangspunkt nutzen und die Finanzanalysefähigkeiten von LLMs durch Echtzeithandel und Experimente mit kontrollierten Variablen systematisch überprüfen

Überblick über AI Trade Arena

  • AI Trade Arena ist eine experimentelle Plattform, die aufgebaut wurde, um die Fähigkeit von LLMs zu bewerten, reale Finanzdaten zu analysieren und vorherzusagen
    • Gemeinsam von Kam und Josh entwickelt
    • Die Plattform ist so konzipiert, dass Modelle auf Basis von Nachrichten, Finanzberichten und Marktdaten Aktiengeschäfte ausführen
  • Die Plattform verfolgt die Bestände, Handelsverläufe und Performance jedes Modells und veröffentlicht den gesamten Handelsprozess als interaktive Demo

Erstes Experiment: Aktienhandel mit fünf LLMs

  • Getestet wurden GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4 und DeepSeek
    • Jedes Modell erhielt 100.000 US-Dollar Testkapital
    • Optionshandel war ausgeschlossen, gehandelt wurden nur große Aktienwerte
  • Alle Trades wurden auf Basis tatsächlicher historischer Kurse ausgeführt, und die Modelle konnten nur auf Informationen zugreifen, die zu diesem Zeitpunkt öffentlich waren
    • News-API, Unternehmensfinanzdaten und Marktdaten wurden zeitlich gefiltert bereitgestellt
  • Der Testzeitraum lief vom 3. Februar 2025 bis 20. Oktober 2025, also rund acht Monate

Das Konzept und die Grenzen von Backtesting

  • Backtesting ist eine Methode, bei der die Leistung eines Handelsalgorithmus mit historischen Daten überprüft wird
    • Es wird simuliert, welche Entscheidungen ein LLM zu einem früheren Zeitpunkt getroffen hätte
    • Um Datenlecks aus der Zukunft zu verhindern, wurden die APIs entlang der Zeitachse getrennt
  • Vorteile
    • Bewertung in großem Maßstab möglich
    • Verschiedene Szenarien schnell testbar
    • Statistisch aussagekräftige Ergebnisse möglich
  • Nachteile
    • Das wettbewerbsorientierte und liquiditätsgetriebene Umfeld realer Märkte lässt sich nicht vollständig nachbilden
    • Es bestehen Risiken durch Slippage, Volumenbeschränkungen und Datenlecks aus der Zukunft
    • Möglichkeit des Overfitting auf historische Daten

Ergebnisse und Beobachtungen

  • Alle Modelle wurden ausschließlich für Zeiträume nach dem Cutoff ihrer Trainingsdaten getestet
    • So sollte verhindert werden, dass Modelle mit auswendig gelernten historischen Marktergebnissen handeln
  • Grok erzielte die beste Performance, DeepSeek lag knapp auf Platz zwei
    • Die meisten Modelle stellten technologielastige Portfolios zusammen und erzielten hohe Renditen
    • Gemini hatte einen hohen Anteil an Nicht-Technologieaktien und schnitt daher am schwächsten ab
  • Das Forschungsteam veröffentlichte den gesamten Handelsprozess samt Begründungen, um Transparenz zu schaffen
    • Die Grundlage jedes Trades lässt sich direkt in der UI nachvollziehen

Nächste Schritte

  • Das Forschungsteam will über Backtests hinaus auf Echtzeit-Handelsexperimente ausweiten
    • Drei-Stufen-Ansatz: Backtests historischer Szenarien → Echtzeit-Papierhandel → realer Markthandel
  • Ziel ist es, die Fähigkeit von LLMs zur Analyse von Finanzmärkten und die Qualität ihrer Entscheidungen systematisch zu verstehen
    • Marktdaten sollen als realitätsnahe Bewertungsmetriken genutzt werden
    • Mit Barra-Faktorenanalyse und ähnlichen Methoden soll versucht werden, Glück und Können zu unterscheiden
  • Anhand der Handelsprotokolle lässt sich der Unterschied zwischen urteilen auf Basis von Auswendiglernen und echtem Schlussfolgern erkennen
    • Beispiel: der Unterschied zwischen dem Kauf von Nvidia allein aufgrund von Erinnerung und dem Gewinnen fundamentaler Einsichten durch Analyse eines 10-K-Berichts
  • Durch diese transparente Analyse von Entscheidungsprozessen lassen sich auch Tool-Zusammenstellung und Workflows der Modelle verbessern

Teilnahme und Datenerkundung

  • In der interaktiven Demo auf der Website lassen sich die Trades, Strategien und Schlussfolgerungsprozesse der einzelnen Modelle direkt erkunden
  • Das Forschungsteam plant weitere Experimente und sammelt Feedback über die Discord-Community und Twitter-DMs

1 Kommentare

 
GN⁺ 2025-12-06
Hacker-News-Kommentare
  • Grok erzielte die beste Performance, und DeepSeek belegte knapp den zweiten Platz.
    Die meisten Modelle hatten offenbar ein technologielastiges Portfolio, was zu den guten Ergebnissen beigetragen haben dürfte.
    Gemini hingegen hatte einen höheren Anteil an Nicht-Tech-Aktien und landete deshalb auf dem letzten Platz.
    Ich bin weder Investor noch Forscher, aber dieses Ergebnis fühlt sich so an, als wäre die Messgröße falsch gewählt.

    • Wenn man daran glaubt, dass der Technologiesektor weiter steigt, kann man den Marktdurchschnitt schlagen.
      Das Problem ist jedoch, dass sich der Zeitpunkt einer Korrektur nicht vorhersagen lässt.
      Wenn die Daten keinen Abschwung enthalten, können die Modelle diese Situation auch nicht lernen.
      Interessanter wäre es vielleicht, die Daten in zwei Hälften zu teilen, auf der einen zu trainieren und auf der anderen zu testen.
      Das erinnert daran, dass auch Hedgefonds den Markt 2 bis 4 Jahre lang schlagen können, über 10 Jahre hinweg aber fast nie.
    • Ein sinnvollerer Ansatz wäre, für jedes Modell 100 Portfolios zu erstellen und eine Monte-Carlo-Simulation durchzuführen, um die durchschnittliche Performance zu betrachten.
    • Es wäre gut, diese Studie auch in einem Bärenmarkt (bear market) zu wiederholen.
    • Auch der S&P 500 ist stark Tech-lastig und langfristig ein schwer zu schlagender Index.
    • Dieses Experiment scheint nur die jüngste Performance zu zeigen, ohne den jeweiligen Marktkontext zu berücksichtigen.
      Aussagekräftiger wären Ergebnisse, wenn man die Modelle je nach Zeitraum neu trainiert und Backtesting durchführt.
  • Ich habe früher bei einer Brokerage-API für algorithmischen Handel gearbeitet, und Strategien, die im Backtest gut funktionierten, scheiterten am realen Markt oft.
    Selbst Echtzeit-Paper-Trading verhält sich anders als der tatsächliche Markt.
    DeepSeek erzielte gute Ergebnisse, weil es viele Tech-Aktien hielt, ohne zu verkaufen, aber eine auf einen Sektor konzentrierte Strategie ist riskant.
    Dass nur einmal pro Tag gehandelt werden konnte, macht das noch nicht zu einem Experiment mit Echtzeitentscheidungen.
    Wenn ein LLM Sektoren zum richtigen Zeitpunkt umschichten könnte, wäre das wirklich beeindruckend.

    • Im realen Markt können Orders zuerst von Market Makern (front running) abgefangen werden,
      und andere Teilnehmer können Orders stornieren oder aufspringen, wodurch Markteinfluss (market impact) entsteht.
      Solche Effekte treten im Paper-Trading nicht auf.
    • Sobald echtes Geld im Spiel ist, kommen emotionale Faktoren hinzu, sodass es schwer ist, dem Urteil einer Maschine vollständig zu vertrauen.
    • Wenn man unzählige Strategien ausprobiert, findet man zufällig vielleicht eine, die zu historischen Daten passt — deshalb ist Backtesting allein bedeutungslos.
    • Ich selbst habe mit ThinkOrSwim im Paper-Trading mein Geld zwei- bis dreifach vermehrt, bin am echten Markt aber komplett gescheitert.
  • Wenn pro Modell nur ein einziger Durchlauf gemacht wurde, ist das kein ordentliches Backtesting.
    Wenn man nur das Ergebnis eines einzigen Zeitpunkts betrachtet, kann selbst eine simple Strategie wie „Kaufe AI-Aktien“ zufällig gut funktionieren.
    Man müsste 10 verschiedene Marktphasen nehmen und in jeder davon 100 unabhängige Durchläufe machen, damit statistisch sinnvolle Aussagen möglich sind.
    Das aktuelle Experiment ist kaum mehr als ein teurer Zufallszahlengenerator (random number generator).

    • Das Budget war begrenzt, daher konnten die Modelle nicht mehrfach ausgeführt werden.
      Claude kostete zum Beispiel für 8 Monate Laufzeit 200 bis 300 Dollar.
      Ich hätte es gern größer skaliert, um statistisch signifikante Ergebnisse zu bekommen.
    • Im Paper wurde zwar ausdrücklich erwähnt, dass die Resultate nicht statistisch signifikant sind, aber das hätte stärker hervorgehoben werden sollen.
      Im jetzigen Zustand wirkt es fast wie ein rein ergebnisorientierter Artikel.
    • Problematisch ist auch, dass es außer der Gesamtrendite keine weiteren Metriken gibt.
      Selbst bei zufälliger Aktienauswahl ist die Wahrscheinlichkeit hoch, den S&P 500 zu schlagen.
    • Im Extremfall könnte man auch ein Experiment machen wie: „Welche Aktie hätte man am 1. Januar 2010 kaufen sollen, um 15 Jahre später die höchste Rendite zu haben?“
      Aber niemand würde diese Strategie in den nächsten 15 Jahren unverändert anwenden.
    • Das Ergebnis eines einzigen Durchlaufs ist im Grunde nur ein Random Walk.
  • Es gibt auch das derzeit laufende nof1.ai-Leaderboard.
    Die Ergebnisse bleiben hinter den Erwartungen zurück, und die meisten AIs verlieren Geld, weil sie sich auf kurzfristige Trades in Mag7-Tech-Aktien konzentrieren.

    • Eine Schwäche von nof1 ist, dass kaum Unternehmensanalysedaten genutzt werden, die für reale Investoren relevant wären.
      Wir versuchen das zu ergänzen und führen ein ähnliches Experiment auf rallies.ai/arena durch.
    • Als das gestern auf X (Twitter) viral ging, dachte ich zuerst, es seien die nof1-Ergebnisse, aber es war ein völlig anderes Experiment.
      Trotzdem macht das Live-Investment-Kommentar-Dashboard von nof1 Spaß beim Zuschauen.
    • Auf der Website sieht es so aus, als könnten die Modelle nur eine kleine Zahl von Tech-Aktien und die XYZ100-Coin handeln.
    • Vielleicht ist dieses „mysteriöse Modell“ ja einfach ihr eigenes Modell.
    • Weil sich Kursinformationen extrem schnell verbreiten, hängen die Ergebnisse stark von der Agentenarchitektur und den Feedback-Loops ab.
  • Ich bin der Autor (OP).
    Ich kannte die Grenzen von Backtesting und virtuellem Geld, wollte aber trotzdem zeigen, wie die Modelle den Markt wahrnehmen.
    Das soll nicht bedeuten, dass sie den Markt langfristig schlagen können.

    • Ein kontrolliertes Experiment mit menschlichen Teilnehmern zum Vergleich wäre ebenfalls interessant.
    • Da kein echtes Geld gehandelt wurde, gab es überhaupt keinen Markteinfluss.
    • Ohne Veröffentlichung der risikoadjustierten Rendite ist die Aussagekraft der Ergebnisse begrenzt.
      In einem Bullenmarkt ein Beta-lastiges Portfolio zu halten, ist keine besondere Leistung.
    • Statt „DeepSeek came close to second“ wäre „came in a close second“ die richtige Formulierung.
    • Als Doktor der Kapitalmarktforschung finde ich, dass man abnormale Renditen (Alpha) berechnen müsste, um echte Outperformance zu beurteilen.
  • Auch wir führen derzeit Live-Experimente mit Aktien und Optionen durch.
    Die Modelle haben Zugriff auf verschiedene Tools, darunter SEC-Filings, Fundamentaldaten, Echtzeitkurse und Optionsdaten.
    Da LLMs ohnehin fast alle historischen Daten schon kennen, halte ich Backtesting für wenig sinnvoll.
    Deshalb machen wir Forward-Tests; die Datenbasis ist noch klein, aber die ersten Ergebnisse sind interessant.
    rallies.ai/arena

    • Wenn Code oder Prompts nicht Open Source sind, ist es dann nicht schwer, dem zu vertrauen?
    • Ich frage mich, warum Qwen so viel schlechter abgeschnitten hat als die anderen Modelle.
  • Ein ähnliches Experiment wurde im Kryptobereich bereits mit echtem Geld und Live-Trading durchgeführt.
    Verwandter Link
    Ich halte es für nahezu unmöglich, bei LLMs Lecks von Zukunftsdaten zuverlässig zu verhindern.
    Auch die Forschung sagt, dass das schwierig ist, und ich habe diese Schwierigkeit selbst erlebt, als ich mit Prognosemodellen gearbeitet habe.

  • Backtesting unterscheidet sich stark vom realen Handel und ist deshalb nicht besonders aussagekräftig.
    Außerdem sind 8 Monate ein viel zu kurzer Zeitraum.
    Für mich ist der Markt in 8 Jahren wichtiger als der Markt in 8 Monaten.

    • Für Backtests mit LLMs müsste man historische Daten vollständig bereinigen (white-wash).
      Selbst wenn man Aktienticker entfernt, könnten die Modelle so trainiert sein, dass sie NVDA allein an der Graphenform erkennen.
  • Die Backtest-Ergebnisse solcher Modelle sind schwer vertrauenswürdig.
    Sinnvoll wäre nur ein 8-monatiges Live-Experiment unter Berücksichtigung realer Kosten.

    • Wir führen derzeit ein Live-Experiment mit Aktien und Optionen durch.
      rallies.ai/arena
  • Das ist ein völlig falscher Ansatz.
    Ich arbeite tatsächlich als Forscher, der LLMs im Trading einsetzt.
    LLMs sind naiv, leicht zu beeinflussen und nicht deterministisch.
    Wenn man dasselbe Experiment 10-mal durchführt, kann jedes Mal ein anderes Ergebnis herauskommen.
    Der richtige Weg ist, zuerst einen deterministischen Trading-Algorithmus zu bauen und erst darauf ein LLM als Hilfswerkzeug aufzusetzen.
    Wenn man ein LLM direkt in die Trading-Pipeline einbaut, erhöht man nur unnötig die Unsicherheit.
    Für Sentiment-Analyse oder zum schnellen Verbinden unterstützender ML-Aufgaben kann es wertvoll sein.
    Aber Experimente wie dieses sind ein typisches Beispiel für aufgeklebte AI ohne Domänenverständnis.
    Wirklich aussagekräftige Forschung würde Variablen wie Sektor-Exposure kontrollieren und Tausende Wiederholungen durchführen, um modellspezifische Bias-Muster zu analysieren.
    Wenn ein LLM irgendwann selbst sagt: „Ich entwerfe einen Quant-Algorithmus“, und damit tatsächlich Erfolg hat, wäre das wirklich erstaunlich.