1 Punkte von GN⁺ 2024-07-18 | 1 Kommentare | Auf WhatsApp teilen

xLSTMTime: Long-term Time Series Forecasting With xLSTM

  • In den letzten Jahren haben Transformer-basierte Modelle bei der multivariaten langfristigen Zeitreihenprognose (LTSF) bemerkenswerte Ergebnisse erzielt. Sie stehen jedoch vor Problemen wie hohem Rechenaufwand, Schwierigkeiten beim Erfassen zeitlicher Dynamiken und der Handhabung langfristiger Abhängigkeiten
  • Mit dem Aufkommen von LTSF-Linear mit seiner einfachen linearen Struktur wurden sogar bessere Ergebnisse als mit Transformer-basierten Modellen erzielt, was zu einer Neubewertung des Nutzens von Transformern für die Zeitreihenprognose führte
  • Als Reaktion darauf präsentiert diese Arbeit die Ergebnisse der Anwendung der jüngeren Architektur xLSTM (extended LSTM) auf LTSF. xLSTM besitzt mit exponentiellem Gating und einer modifizierten Speicherstruktur mit höherer Kapazität Potenzial für den Einsatz in LTSF
  • xLSTMTime, die von uns verwendete LTSF-Architektur, übertrifft bestehende Ansätze. Der Vergleich der Leistung von xLSTMTime mit verschiedenen aktuellen Modellen auf mehreren realen Datensätzen belegt seine überlegene Prognosefähigkeit
  • Unsere Ergebnisse deuten darauf hin, dass verfeinerte rekurrente Architekturen bei LTSF-Aufgaben eine wettbewerbsfähige Alternative zu Transformer-basierten Modellen bieten können und das Potenzial haben, die Landschaft der Zeitreihenprognose neu zu definieren

Zusammenfassung von GN⁺

  • Diese Arbeit zeigt durch die Einführung von xLSTM starke Leistung bei der langfristigen Zeitreihenprognose und adressiert damit die Grenzen Transformer-basierter Modelle
  • xLSTMTime belegt mit exponentiellem Gating und einer modifizierten Speicherstruktur seine überlegene Prognosefähigkeit gegenüber bestehenden Modellen
  • Die Studie lenkt den Blick erneut auf das Potenzial rekurrenter Architekturen für die Zeitreihenprognose und präsentiert eine neue Alternative zu Transformer-basierten Modellen
  • Projekte mit ähnlicher Funktionalität sind unter anderem Facebooks Prophet und Amazons DeepAR

1 Kommentare

 
GN⁺ 2024-07-18
Hacker-News-Kommentare
  • In den letzten Jahren haben transformerbasierte Modelle bei der multivariaten Langfrist-Zeitreihenvorhersage zwar definitiv Aufmerksamkeit bekommen, aber ich bezweifle, dass sie allgemein besser sind als Nicht-Deep-Learning-Modelle
    Soweit ich weiß, war das nicht der Fall, aber ich verfolge dieses Feld nicht besonders eng

    • Meiner Erfahrung mit Zahlungs-/Ausgabenprognosen nach schnitt Deep Learning meist schlechter als Gradient-Boosting-Bäume ab
      Deep-Learning-Modelle sind stark darin, Saisonalität zu lernen, gehen aber mit komplexen Trends oder Schocks eher schlecht um
      Wirtschafts- und Finanzdaten haben oft einfache Saisonalität und komplexe Trends, daher scheint Deep Learning dort ziemlich zu schwächeln
      Ich stimme der Arbeit zu. Gute Deep-Learning-Zeitreihenarchitekturen, die ich verwendet habe, waren eher einfache Erweiterungen von MLPs oder rekurrenten neuronalen Netzen wie DeepAR oder N-BEATS, und transformerbasierte Architekturen waren wirklich schlecht, besonders die ganzen transformerbasierten Foundation Models, die derzeit auf den Markt kommen
    • In der Flugsicherheit war Deep Learning bei der multivariaten Zeitreihenvorhersage besser als traditionelle Nicht-Deep-Learning-Modelle
      Allerdings waren die Leistungsunterschiede auch zwischen den Deep-Learning-Modellen selbst sehr groß, etwa bei Transformern, bidirektionalen LSTMs, normalen MLPs, VAEs usw.
    • Ich habe es nicht selbst verwendet, aber ich habe kürzlich mit einem Freund über dieses Thema gesprochen, der baumbasierte Modelle wie XGBoost für Zeitreihenanalysen eingesetzt hat
      Er meinte, transformerbasierte Architekturen würden bei Zeitreihenaufgaben mit relativ wenig Aufwand eine ordentliche Leistung im Vergleich zu Baummodellen liefern
      So wie ich es verstanden habe, können baumbasierte Modelle Transformer normalerweise schlagen, wenn man die Hyperparameter ausreichend abstimmt. Aber Modelle wie TimeGPT liefern auch ohne umfangreiches Tuning eine brauchbare Leistung und sind daher für eine schnelle Umsetzung attraktiv
    • Das wird im direkt folgenden Absatz des Papers erwähnt. xLSTMTime ist ebenfalls nicht transformerbasiert
    • Nicht auf absolutem Spitzenniveau, aber jüngste Versuche mit Transfer Learning sahen vielversprechend aus
  • Ein Teil meiner Arbeit besteht tatsächlich darin, Nowcasting- und Prognosemodelle für den Wirtschaftsbereich zu bauen. Ich arbeite mit Wirtschaftsindikatoren wie Inflation und BIP sowie Finanzindikatoren wie Marktliquidität
    Ich habe das Paper noch nicht gelesen, aber dem allgemeinen Tenor „Transformer sind großartig bei dem, was sie gut können, aber Modelle der LSTM-Familie sind weiterhin sehr wertvoll“ stimme ich vollkommen zu

    • Hattest du schon Gelegenheit, Mamba in deiner Arbeit einzusetzen? Mich würde deine Meinung dazu interessieren
  • Was hat das mit Googles KI-basiertem Wettervorhersagemodell zu tun?
    https://deepmind.google/discover/blog/graphcast-ai-model-for...

    • Nein. Graphcast ist ein Graph-Transformer, der auf ERA5-Daten zur atmosphärischen Reanalyse trainiert wurde, kein allgemeines Zeitreihenvorhersagemodell
      Nur zur Einordnung: Graphcast übertrifft bei der Vorhersage großskaliger globaler Muster zumindest alle traditionellen globalen deterministischen Einzelvorhersagen. Das gilt für Metriken wie Z500 ungefähr im Horizont von 3 bis 10 Tagen
      Beim ECMWF gibt es mit AIFS eine von Graphcast abgeleitete Variante, und es ist gut möglich, dass diese oder etwas Ähnliches in den nächsten Jahren in den operativen Einsatz kommt
  • Wenn das als Vorhersagewerkzeug vermarktet wird, ist es dann nicht auf die Ereignisklassifikation in Zeitreihen anwendbar?

    • Ich denke, das ist eine etwas andere Aufgabe. Ich bin kein Experte auf diesem Gebiet, aber wenn die Anzahl der Ereignisse n sehr klein ist, könnte man es vielleicht als multivariates Vorhersageproblem behandeln, bei dem die Wahrscheinlichkeit jedes Ereignisses der Zielwert ist
    • Mich würde auch interessieren, wo dieser Ansatz oder transformer-/LLM-basierte Ansätze zum Beispiel die Anomalieerkennung verbessern
  • Schade, dass der Dataset-Link im Paper nicht funktioniert. Hoffentlich wird das korrigiert

  • Die besten Deep-Learning-Zeitreihenmodelle stehen vermutlich intern bei Hedgefonds und sind nicht öffentlich

    • Der wirklich schwierige Teil ist in der Praxis meistens nicht ein riesiges einzelnes Modell, sondern das Feature Engineering. Soweit ich weiß, dominiert Gradient Boosting weiterhin
    • Wegen des No-Free-Lunch-Theorems gibt es im Allgemeinen so etwas wie das beste Modell nicht
      Was bei einem Hedgefonds gut funktioniert, kann wegen anderer Datenmengen, anderer Datencharakteristika und benötigter oder anderer induktiver Biases in anderen Bereichen schlecht sein
    • Zumindest fortgeschrittene Hedgefonds verwenden meiner Meinung nach längst keine Zeitreihenmodellierung mehr. Nach heutigen Maßstäben ist das ziemlich veraltet
  • Zeitreihenvorhersage funktioniert am besten in deterministischen Bereichen
    Keine der öffentlich bekannten LLM-, KI-, Deep-Learning- oder Machine-Learning-Methoden funktioniert gut für den Aktienmarkt. Wirklich keine. Ich habe sie alle ausprobiert

  • Wenn jemandes Zeitreihenvorhersagemethode tatsächlich funktioniert hätte, hätte diese Person sie nicht veröffentlicht

    • Nicht unbedingt. Tatsächlich wird vieles veröffentlicht. Die überwältigende Mehrheit der Zeitreihenanwendungen hat nichts damit zu tun, Vermögenspreise oder Aktienmarktrenditen zu schlagen
    • Das Transformer-Modell war ebenfalls eines der erfolgreichsten Modelle in der Geschichte der KI und wurde trotzdem als Paper veröffentlicht
  • Ich habe das zuerst als XSLT gelesen

    • Ich habe geklickt, weil ich wissen wollte, wie spannend ein Artikel über XML im Jahr 2024 wohl sein könnte, und war gleichzeitig enttäuscht und zufrieden
    • Stimmt. Und technisch gesehen geht es hier auch um Transformation
    • Ging mir auch so. Bin ich alt geworden?
  • Ich freue mich schon auf den Tag, an dem jemand damit Aktienkurse vorhersagen will und sein gesamtes Vermögen verliert