xLSTMTime: Long-term Time Series Forecasting With xLSTM
- In den letzten Jahren haben Transformer-basierte Modelle bei der multivariaten langfristigen Zeitreihenprognose (LTSF) bemerkenswerte Ergebnisse erzielt. Sie stehen jedoch vor Problemen wie hohem Rechenaufwand, Schwierigkeiten beim Erfassen zeitlicher Dynamiken und der Handhabung langfristiger Abhängigkeiten
- Mit dem Aufkommen von LTSF-Linear mit seiner einfachen linearen Struktur wurden sogar bessere Ergebnisse als mit Transformer-basierten Modellen erzielt, was zu einer Neubewertung des Nutzens von Transformern für die Zeitreihenprognose führte
- Als Reaktion darauf präsentiert diese Arbeit die Ergebnisse der Anwendung der jüngeren Architektur xLSTM (extended LSTM) auf LTSF. xLSTM besitzt mit exponentiellem Gating und einer modifizierten Speicherstruktur mit höherer Kapazität Potenzial für den Einsatz in LTSF
- xLSTMTime, die von uns verwendete LTSF-Architektur, übertrifft bestehende Ansätze. Der Vergleich der Leistung von xLSTMTime mit verschiedenen aktuellen Modellen auf mehreren realen Datensätzen belegt seine überlegene Prognosefähigkeit
- Unsere Ergebnisse deuten darauf hin, dass verfeinerte rekurrente Architekturen bei LTSF-Aufgaben eine wettbewerbsfähige Alternative zu Transformer-basierten Modellen bieten können und das Potenzial haben, die Landschaft der Zeitreihenprognose neu zu definieren
Zusammenfassung von GN⁺
- Diese Arbeit zeigt durch die Einführung von xLSTM starke Leistung bei der langfristigen Zeitreihenprognose und adressiert damit die Grenzen Transformer-basierter Modelle
- xLSTMTime belegt mit exponentiellem Gating und einer modifizierten Speicherstruktur seine überlegene Prognosefähigkeit gegenüber bestehenden Modellen
- Die Studie lenkt den Blick erneut auf das Potenzial rekurrenter Architekturen für die Zeitreihenprognose und präsentiert eine neue Alternative zu Transformer-basierten Modellen
- Projekte mit ähnlicher Funktionalität sind unter anderem Facebooks Prophet und Amazons DeepAR
1 Kommentare
Hacker-News-Kommentare
In den letzten Jahren haben transformerbasierte Modelle bei der multivariaten Langfrist-Zeitreihenvorhersage zwar definitiv Aufmerksamkeit bekommen, aber ich bezweifle, dass sie allgemein besser sind als Nicht-Deep-Learning-Modelle
Soweit ich weiß, war das nicht der Fall, aber ich verfolge dieses Feld nicht besonders eng
Deep-Learning-Modelle sind stark darin, Saisonalität zu lernen, gehen aber mit komplexen Trends oder Schocks eher schlecht um
Wirtschafts- und Finanzdaten haben oft einfache Saisonalität und komplexe Trends, daher scheint Deep Learning dort ziemlich zu schwächeln
Ich stimme der Arbeit zu. Gute Deep-Learning-Zeitreihenarchitekturen, die ich verwendet habe, waren eher einfache Erweiterungen von MLPs oder rekurrenten neuronalen Netzen wie DeepAR oder N-BEATS, und transformerbasierte Architekturen waren wirklich schlecht, besonders die ganzen transformerbasierten Foundation Models, die derzeit auf den Markt kommen
Allerdings waren die Leistungsunterschiede auch zwischen den Deep-Learning-Modellen selbst sehr groß, etwa bei Transformern, bidirektionalen LSTMs, normalen MLPs, VAEs usw.
Er meinte, transformerbasierte Architekturen würden bei Zeitreihenaufgaben mit relativ wenig Aufwand eine ordentliche Leistung im Vergleich zu Baummodellen liefern
So wie ich es verstanden habe, können baumbasierte Modelle Transformer normalerweise schlagen, wenn man die Hyperparameter ausreichend abstimmt. Aber Modelle wie TimeGPT liefern auch ohne umfangreiches Tuning eine brauchbare Leistung und sind daher für eine schnelle Umsetzung attraktiv
Ein Teil meiner Arbeit besteht tatsächlich darin, Nowcasting- und Prognosemodelle für den Wirtschaftsbereich zu bauen. Ich arbeite mit Wirtschaftsindikatoren wie Inflation und BIP sowie Finanzindikatoren wie Marktliquidität
Ich habe das Paper noch nicht gelesen, aber dem allgemeinen Tenor „Transformer sind großartig bei dem, was sie gut können, aber Modelle der LSTM-Familie sind weiterhin sehr wertvoll“ stimme ich vollkommen zu
Was hat das mit Googles KI-basiertem Wettervorhersagemodell zu tun?
https://deepmind.google/discover/blog/graphcast-ai-model-for...
Nur zur Einordnung: Graphcast übertrifft bei der Vorhersage großskaliger globaler Muster zumindest alle traditionellen globalen deterministischen Einzelvorhersagen. Das gilt für Metriken wie Z500 ungefähr im Horizont von 3 bis 10 Tagen
Beim ECMWF gibt es mit AIFS eine von Graphcast abgeleitete Variante, und es ist gut möglich, dass diese oder etwas Ähnliches in den nächsten Jahren in den operativen Einsatz kommt
Wenn das als Vorhersagewerkzeug vermarktet wird, ist es dann nicht auf die Ereignisklassifikation in Zeitreihen anwendbar?
Schade, dass der Dataset-Link im Paper nicht funktioniert. Hoffentlich wird das korrigiert
Die besten Deep-Learning-Zeitreihenmodelle stehen vermutlich intern bei Hedgefonds und sind nicht öffentlich
Was bei einem Hedgefonds gut funktioniert, kann wegen anderer Datenmengen, anderer Datencharakteristika und benötigter oder anderer induktiver Biases in anderen Bereichen schlecht sein
Zeitreihenvorhersage funktioniert am besten in deterministischen Bereichen
Keine der öffentlich bekannten LLM-, KI-, Deep-Learning- oder Machine-Learning-Methoden funktioniert gut für den Aktienmarkt. Wirklich keine. Ich habe sie alle ausprobiert
Wenn jemandes Zeitreihenvorhersagemethode tatsächlich funktioniert hätte, hätte diese Person sie nicht veröffentlicht
Ich habe das zuerst als XSLT gelesen
Ich freue mich schon auf den Tag, an dem jemand damit Aktienkurse vorhersagen will und sein gesamtes Vermögen verliert