Hallo, ich bin ein AI-Ingenieur mit 10 Jahren Erfahrung und investiere nebenbei immer wieder in Aktien.
Jedes Mal, wenn ich persönlich zu Aktien recherchiere, war es für mich sehr umständlich, zwischen verschiedenen Wertpapierhandels-Apps und Portalnachrichten hin- und herzuwechseln und Informationen nur bruchstückhaft zu sammeln. Später wurde es mit dem Aufkommen von AI zwar deutlich bequemer, aber wegen Halluzinationen und Problemen mit der Aktualität der Daten musste ich trotzdem mehrere AIs befragen und die Ergebnisse zusammenführen – ein sehr aufwendiger Prozess.
Um dieses persönliche Problem zu lösen, habe ich zusammen mit einem Bekannten einen Service entwickelt, bei dem man Informationen zu Aktien und die Analyseergebnisse mehrerer AIs (GPT, Gemini, Claude, DeepSeek) auf einen Blick sehen kann.
Direkt zum Service
• Aktien-AI: https://jusikai.com.
Momente des Grübelns
Beim Aufbau dieses Services standen wir zwangsläufig vor weit mehr strategischen als rein technischen Überlegungen und Entscheidungen.
• Modell- und Prompt-Auswahl: Es gibt zwar bereits viele Untersuchungen dazu, welches Modell Aktienanalysen gut beherrscht, aber in einer Zeit, in der ständig neue Modelle erscheinen, war es alles andere als einfach, geeignete Modelle und Prompts auszuwählen. Gemeinsam mit meinem Team habe ich Backtesting-Daten nach einzelnen Aktien aufgebaut und diese aktiv genutzt, um die leistungsstärksten Modelle auszuwählen. Interessant ist dabei, dass ein allgemein gutes Modell nicht immer auch gute Vorhersagen liefert.
• Kriterien für Aktienempfehlungen: Nur weil eine Aktie grundsätzlich gut ist, heißt das nicht, dass sie heute steigt. Vermutlich deshalb betont Warren Buffett langfristiges Investieren. Das passt allerdings nicht zu unserer Anforderung, täglich Empfehlungen auszusprechen, daher haben wir Bedingungen für kurzfristige (1 Woche) und mittel- bis langfristige (1 Monat oder mehr) Empfehlungen definiert. Für reale Nutzer war das eine sehr intuitive und gute Empfehlungsmethode.
• Veröffentlichung des Dashboards: Die Renditen der Empfehlungsergebnisse veröffentlichen wir transparent und fortlaufend in Form eines Dashboards für jedes Modell. (Glücklicherweise zeigen April und Mai bislang gute Renditen.)
• Skill-Up der Agenten: Die Modelle verbessern sich regelmäßig, indem sie ihre eigenen Analysen bewerten und so markt- bzw. aktienspezifische Fähigkeiten ausbauen. Dadurch können die LLMs die Eigenschaften einzelner Märkte und Aktien besser verstehen, was die Leistung verbessert.
• Beschränkung der Aktienauswahl und Kosten für den Betrieb der LLMs: Aktuell wird der Service aufgrund von Pipeline-Optimierungsproblemen nur für eine begrenzte Auswahl an Aktien angeboten. Außerdem fallen trotz weitgehender Prompt-Optimierung und maximalem Einsatz von Context Caching zur Reduzierung des Token-Verbrauchs monatlich Betriebskosten von mehreren hunderttausend Won an, weshalb wir uns Gedanken über die Nachhaltigkeit machen ;_;
Ich würde mich sehr über scharfes Feedback freuen.
• Ich würde gern den Rat hervorragender Ingenieure und Maker aus der GeekNews-Community einholen.
• Aus Sicht der Usability: Mich interessiert, ob unsere Empfehlungsmethode und UI aus Sicht realer Nutzer zu wenig benutzerfreundlich wirken.
• Auch Bug Reports oder harte Kritik nehme ich gern an. Ich werde das Ganze das Wochenende über weiter beobachten und behebbare Bugs sofort korrigieren und einpflegen. Vielen Dank, dass ihr den langen Text gelesen habt!
8 Kommentare
Basieren die Begründungen für kurz-, mittel- und langfristige Prognosen vielleicht auf Berichten von Analysten?
Ja, genau! Das ist das Ergebnis davon, dass beim Erstellen des Berichts die kurzfristigen sowie mittel- bis langfristigen Empfehlungsbewertungen getrennt berechnet und berücksichtigt werden. Kurzfristig werden Signale wie technische Indikatoren und Nachrichten stärker gewichtet, mittel- bis langfristig fließen Verbesserungen der Fundamentaldaten stärker ein.
Ich habe mir den Service einmal angesehen. Man sieht, wie viel Arbeit darin steckt, aber da Sie auch harte Kritik akzeptieren wollen, schreibe ich offen, was ich denke.
Schon die Annahme, dass der Konsens von vier Modellen die Verlässlichkeit erhöht, wirkt riskant. GPT, Gemini, Claude und DeepSeek sind letztlich Modelle, die mit ähnlichen Internetdaten trainiert wurden, deshalb sagen sie bei derselben Aktie oft Ähnliches. Ein Konsens bedeutet also nicht automatisch eine vierfach höhere Verlässlichkeit, sondern eher, dass dieselbe Verzerrung viermal wiederholt wurde. Der Effekt eines Ensembles zeigt sich, wenn die Modelle voneinander unabhängig sind, aber bei allgemeinen LLMs ist das nicht gewährleistet.
Vielen Dank für Ihr Feedback! Wie Sie gesagt haben, bedeutet die Existenz von vier Modellen keineswegs, dass die Zuverlässigkeit viermal so hoch ist. Es ist eher so zu verstehen, dass sie gegenseitig ihre Fehler auffangen können. Interessant ist, dass selbst bei identischem Prompt und denselben Daten die Analysemethoden und Perspektiven der einzelnen Modelle überraschend stark variieren. Auch bei den vier Personas haben wir viel getestet, damit solche Aspekte berücksichtigt werden, ohne sie künstlich hineinzuzwingen. Es ist noch nicht perfekt, aber wir werden den Service weiter verbessern, damit er noch verlässlicher wird! Vielen Dank, dass Sie sich den Service angesehen und uns Ihr Feedback gegeben haben.
Danke für die Antwort! Nur kurz ergänzend zu dem Punkt „sie fangen gegenseitig Fehler ab“: Auch wenn die Modelle oberflächlich unterschiedliche Perspektiven haben, machen sie oft ähnliche Arten von Fehlern, weil sie im gleichen Zeitraum und auf demselben Korpus trainiert wurden. Dann wird dieser Fehler selbst bei einem Mehrheitsentscheid nicht herausgefiltert, sondern kann im Gegenteil sogar noch verstärkt werden.
Wenn möglich, würde ich empfehlen, das einmal zu messen. Wenn Sie in den Backtest-Daten die Verteilung der nachträglichen Renditen vergleichen, wenn die Meinungen von vier Modellen (a) übereinstimmen und wenn sie (b) auseinandergehen, dann wäre ein signifikant besseres Ergebnis von (a) gegenüber (b) ein empirischer Hinweis auf einen Mehrheitsentscheid-Effekt. Wenn es keinen Unterschied gibt oder sogar (b) besser abschneidet, wäre das eher ein Signal dafür, dass es sich um konsensfähiges Rauschen handelt. Das ist eine Hypothese, die Sie mit den bereits aufgebauten Daten direkt testen können — ich denke, ein Blick darauf könnte spannend sein!
Danke für den guten Vorschlag. Tatsächlich sind Aktien, die von allen Modellen empfohlen werden, nicht unbedingt diejenigen mit der höchsten Rendite. Ich hatte diesen Punkt mit der Eigenschaft von Aktien in Verbindung gebracht, dass mit höherem Risiko auch die Rendite steigt, aber danke für den interessanten Hinweis :)
Oh … wenn es heißt, man soll voll einsteigen, juckt es mich schon in den Fingern~
Ich werde es gut ausprobieren, haha
Ja, danke hehe