- Bestehende Foundation-Modelle verarbeiten Text, Bilder, Audio und Video, verfügen aber über unzureichende Fähigkeiten zum zeitlichen Schlussfolgern über Zeitreihendaten, die die reale Welt antreiben (Vitaldaten, Preise, Telemetrie, Logs usw.)
- Time Series Language Models (TSLMs) unterstützen Zeitreihen als eigene native Modalität auf Augenhöhe mit Text, sodass Nutzer in natürlicher Sprache Fragen stellen und Erklärungen sowie Empfehlungen erhalten können
- OpenTSLM ist ein neues Sprachmodell, das dafür entwickelt wurde, im medizinischen Bereich Zeitreihendaten und klinische Texte gemeinsam zu verarbeiten
- Es verwendet eine Cross-Attention-Architektur und ist dadurch auch bei langen Zeitreihen skalierbar; im Unterschied zu bisherigen Ansätzen ist ein Betrieb im großen Maßstab praktikabel
- Es werden zwei Strukturen vorgeschlagen: SoftPrompt (Einfügen der Zeitreihe als Token) und Flamingo (auf Cross-Attention basierend), jeweils mit unterschiedlichen Vor- und Nachteilen
- Zur Bewertung der Schlussfolgerungsleistung des Modells werden drei neue Chain-of-Thought-(CoT)-Datensätze eingeführt: HAR, Sleep und ECG-QA
- Gegenüber GPT-4o erreicht das Modell mit einem 200-mal kleineren Modell 4,4-fach bessere Schlafstadienklassifikation, 6-fach bessere Aktivitätserkennung und 2-fach genauere ECG-Interpretation (die Effizienz ist jeweils 880-fach, 1.000-fach und 400-fach höher)
- Im medizinischen Bereich verarbeitet es als erstes System 12-Kanal-ECG-Signale und Text gleichzeitig und liefert von Kardiologen validiertes Chain-of-Thought-Reasoning
- Es kann mehrere Zeitreihen variabler Länge gleichzeitig verarbeiten und mit Textkontext integrieren, um interpretierbare Erklärungen zu erzeugen, die von Fachexperten überprüft wurden
- Die Studie zeigt über die Medizin hinaus Erweiterungspotenzial auf verschiedene Zeitreihen-Anwendungsfelder wie Finanzen, Supply Chain und industrielles Monitoring
Forschungsüberblick
- Klinische Diagnose und Behandlung beruhen im Kern auf dem Verständnis von Veränderungen im Zeitverlauf
- Bestehende LLMs können zwar verschiedene Modalitäten wie Bilder, Text und Sprache verarbeiten, hatten jedoch Defizite bei der Interpretation kontinuierlicher Zeitreihendaten
- Um dieses Problem zu lösen, schlägt OpenTSLM vor, Zeitreihendaten als neue native Modalität von LLMs zu integrieren
Modellarchitektur
- OpenTSLM-SoftPrompt
- Bettet Zeitreihen ein und gibt sie gemeinsam mit Text-Token als Eingabe ein
- Ist einfach und parametereffizient, hat bei langen Sequenzen jedoch die Einschränkung, dass der Speicherverbrauch stark ansteigt
- OpenTSLM-Flamingo
- Verarbeitet Zeitreihen als separate Modalität und kombiniert sie per Cross-Attention mit Text
- Der Speicherverbrauch bleibt auch bei langen Sequenzen stabil, wodurch es sich für allgemeine Verarbeitungsszenarien eignet
Datensätze und Training
- HAR-CoT: Erkennung menschlicher Aktivitäten mithilfe von Beschleunigungssensoren
- Sleep-CoT: EEG-basierte Schlafstadienklassifikation
- ECG-QA-CoT: Frage-Antwort-Datensatz auf Basis von Elektrokardiogrammdaten
- Es wird ein stufenweises Curriculum-Learning angewendet: vom Lernen einfacher Zeitreihenmuster hin zum Lernen von Schlussfolgerungsfähigkeiten
Zentrale Ergebnisse
- SoftPrompt-Llama3.2-1B: erreicht 69,9 % F1 bei Sleep-CoT und 65,4 % F1 bei HAR-CoT
- Flamingo-Llama3.2-3B: erzielt mit 40,25 % F1 die beste Leistung bei ECG-QA-CoT
- Leistungsvorteil gegenüber GPT-4o: Selbst das kleine Modell (OpenTSLM-1B) erzielt höhere F1-Werte als GPT-4o
- Ärztliche Bewertung: 92,9 % der ECG-QA-Argumentationsprozesse wurden als korrekt oder teilweise korrekt beurteilt
Speichereffizienz
- Bei SoftPrompt steigt der VRAM-Bedarf mit der Eingabelänge exponentiell an (z. B. bei ECG-QA sind mehr als 110 GB erforderlich)
- Flamingo hält den Speicherverbrauch stabil (selbst bei Llama-3B im Bereich von 60–70 GB)
Diskussion
- OpenTSLM zeigt, dass kleine Modelle extrem große Modelle übertreffen können
- SoftPrompt eignet sich für kurze Zeitreihen, Flamingo für lange und mehrfache Zeitreihen
- Im medizinischen Bereich bietet es Transparenz im Schlussfolgerungsprozess und trägt so zum Vertrauensaufbau bei
- Im Unterschied zu bisherigen klassifikatorbasierten Ansätzen realisiert es die Kombination aus natürlichem Sprachschlussfolgern und Zeitreihenverarbeitung
Grenzen und zukünftige Aufgaben
- Die derzeitige Methode, Skalen und Einheiten von Zeitreihen in Text zu erhalten, ist möglicherweise nicht optimal
- Da GPT-4o am Erstellungsprozess der CoT-Datensätze beteiligt war, besteht die Möglichkeit eines Datenbias
- Es sind ein Loss-Function-Design zur Sicherstellung korrekter Vorhersagen, eine Vereinfachung der Architektur und eine Validierung der Generalisierungsleistung erforderlich
Fazit
- OpenTSLM hat auch über den medizinischen Bereich hinaus hohes Potenzial für die Verarbeitung langfristiger Daten in Finanzen, Supply Chain und industriellem Monitoring
- Die Studie legt die Grundlage für das Konzept von Time Series Language Models (TSLM) und zielt auf eine Erweiterung zu einem allgemeinen Modell für Zeitreihen-Schlussfolgerung ab
1 Kommentare
Hacker-News-Kommentare
Ich verstehe den Punkt, dass man über natürliche Sprache mit Zeitreihendaten interagieren kann, aber ich frage mich, welchen Vorteil das gegenüber dem Einsatz von Signalverarbeitung oder regelbasierten Algorithmus-Bibliotheken per Tool-Calling hat (oder Machine Learning, wenn die Daten variabel sind).
Wenn man zum Beispiel ein handelsübliches LLM bittet, ECG-Daten zu analysieren, würde das LLM eine ECG-Zeitreihenanalyse-Bibliothek aufrufen.
Diese Bibliothek würde den gesamten Datensatz durchlaufen und Statistiken sowie Ereignisse extrahieren – zum Beispiel: „durchschnittliche Herzfrequenz 60 bpm, AFib zu einem bestimmten Zeitpunkt erkannt“.
Damit hätte das LLM alle Informationen, die es für die Analyse braucht, und die Rechenkosten wären deutlich geringer.
Außerdem erfordert dieser Ansatz große annotierte Datensätze und vortrainierte Modelle; korrigiert mich gern, wenn ich falsch liege, aber ich glaube nicht, dass ein universelles Modell möglich ist, das „allgemeine“ Zeitreihendaten verarbeiten kann.
Ein Modell, das auf ECG-Daten trainiert wurde, ist also nicht mit Börsenmarktdaten kompatibel.
Ein einziges Modell, das alle verschiedenen Datentypen versteht, ist derzeit noch nicht möglich.
Es ist schwierig, so ein System am Edge zu betreiben.
Der entscheidende Punkt ist, dass es zuverlässig am Edge funktioniert.
Niemand möchte die Überwachung seiner Herzfrequenz der Cloud anvertrauen – Remote-Dienste haben große Ausfall- und Zuverlässigkeitsprobleme, dazu kommen zusätzliche Schwierigkeiten bei der LLM-Inferenz.
Vorhandene regelbasierte Erkennungsfunktionen sind in solchen Geräten bereits eingebaut; kombiniert man sie mit der fortgeschrittenen Mustererkennung eines LLM, könnte man unnötige Warnungen reduzieren und auch neue komplexe Muster erkennen.
Das ist einfach ein Interface, mit dem man mit großen Datenmengen im Internet wie in einem Gespräch interagiert (ChatGPT).
Mir ist aber nicht klar, was daran besser sein soll als bei Google zu suchen, auf die Top-Links zu klicken, Werbung zu vermeiden, Cookies zu akzeptieren, die Überschrift zu lesen, zu scrollen, das Paywall-Popup zu schließen, den Rest des Artikels zu lesen und diesen Vorgang viermal zu wiederholen, wenn das effizienter ist.
Okay, verstanden.
Da steht der Satz „Stanford Repo Released Sep 31, 2025“, und das wirkt, als wäre aus einer Wahrscheinlichkeitsverteilung gesampelt worden, in der auf den 30. September 2025 der 31. folgt.
Es wird ausgerichtet, dass man für das Feedback dankbar ist.
Ironischerweise geht es in diesem Beitrag um ein Modell, das Zeit verstehen soll.
Offenbar wurde der Datumsfehler bereits korrigiert.
Die Grundlage dieser Forschung ist ein System namens „Flamingo“.
Dieses System ist darauf spezialisiert, Text und Bilder abwechselnd als Sequenz zu verstehen.
Es kann also zwei sequentielle Modalitäten gemeinsam verarbeiten.
Die neue Forschung scheint die Zeitwahrnehmung verbessert zu haben, indem in einen Modalitätskanal Zeit-Token eingefügt wurden.
(Nebenbei: Das Webdesign ist total niedlich – sogar mit einem Farbverlauf im Text von links nach rechts.)
Link zum Flamingo-Paper
Das ist wirklich cool.
Dem Paper nach scheint diese Technik gut für fragebeantwortende Systeme auf Basis von Zeitreihendaten zu funktionieren.
Was ich an Medical AI am spannendsten finde, ist die Erkennung von Krankheitssignalen, die Menschen gar nicht wahrnehmen können.
Zum Beispiel die Schätzung der Ejektionsfraktion aus einem ECG, was selbst Kardiologen nicht leisten können (der Algorithmus ist allerdings bereits durch RCTs validiert).
Link zum entsprechenden Paper
OpenTSLM tokenisiert Zeitreihendaten in den LLM-Embedding-Raum, und ich frage mich, ob dieser Prozess solche subtilen Signale erfassen kann.
Oder ob sich dieser Ansatz für solche Anwendungsfälle erweitern lässt.
Das war in der frühen Forschungsphase die größte Motivation.
Im Modell werden die Roh-Zeitreihendaten über Cross-Attention integriert, und im Roh-Zeitreihen-Encoder werden konkrete Zeitreihenrepräsentationen gelernt.
Wenn das Modell Zeitreihen verarbeiten muss, wäre es besser, ein Skript zu erzeugen, das eine TS-Bibliothek aufruft, und dieses an einen Executor zu übergeben.
Menschen würden das vermutlich auch so machen.
Ich bin nicht sicher, ob man diese Funktionalität wirklich im Modell selbst einbauen muss.
Ich frage mich, ob native TS-Verarbeitung im Modell etwas leisten kann, was mit Tool-Calling nicht möglich ist.
Auch Anthropic empfiehlt in der neuesten Ankündigung zum Claude Agent SDK den Ansatz „Lass das Modell Skripte schreiben“.
Codegenerierung ist klar, wiederverwendbar und hochgradig kombinierbar und daher ideal, um komplexe Aufgaben zuverlässig auszuführen.
Wenn man bei der Entwicklung von Agenten darüber nachdenkt, welche Aufgaben sich gut als Code ausdrücken lassen, eröffnen sich neue Möglichkeiten.
Link zum Claude Agent SDK
Ich glaube, du verfehlst den Punkt.
Man kann einfach überlegen, ob man zur Bildbeschreibung eine Bildanalyse-Bibliothek aufrufen sollte oder ob es besser ist, Bilder direkt zu verstehen und über sie zu schlussfolgern – als Zeitreihe gewissermaßen.
Wenn man sich die Plots im Paper anschaut, sieht man, was solche Modelle leisten können.
Grundsätzlich frage ich mich, ob es überhaupt ein echtes „Zeitkonzept“ gibt und ob Kausalität verstanden wird.
Ich werde das heute sofort ausprobieren, sobald ich zu Hause bin.
Ich arbeite mit großen Mengen an Audio-Zeitreihendaten (ohne Wörter und mit vielen subtilen Schwankungen), und ich möchte sehen, wie gut dieser neue Ansatz im Vergleich zu traditionellen statistischen Verfahren abschneidet.
Sie haben auf huggingface ein Repository angelegt und dort einige Modellgewichte hochgeladen.
Auf der offiziellen Website, im Paper und auf Github ist dieser Link aber noch nicht zu sehen.
OpenTSLM-huggingface-Seite
Ich stelle mir gerade vor, wie claude code meine Herzfrequenz-Zeitreihe in Echtzeit überwacht und sogar erkennt, wie lange ich mich im Bett hin und her wälze.
Wenn ich es richtig verstehe, scheint dieses Modell für Zeitreihenklassifikation und -interpretation trainiert worden zu sein. Wurde es vielleicht auch beim Forecasting benchmarkt?
Erklärungen und Empfehlungen hängen oft eng mit Vorhersagen zusammen, daher könnte sich auch dort der Charakter des Modells zeigen.
Als interessanter Lackmustest könnte man den S&P500-Trend entfernen und ihn in Komponenten für 500 einzelne Aktien zerlegen, um zu analysieren und zu ranken, wie stark jede Aktie beigetragen hat.
Aber mit so einer Aufgabe allein bekommt man wahrscheinlich weder bei Rentec noch bei der NSA einen Job.
In kommerziellen und medizinischen Bereichen sind Signale meist normal und werden zusammen mit weißem, also unkorreliertem, Rauschen verwendet; bei NSA und Rentec arbeitet man dagegen vor allem mit nicht-stationären Signalen, Regimewechseln und korreliertem Rauschen.
Solche Signale lassen sich nicht ohne Informationsverlust entrauschen.
Das Ziel solcher Analysen ist weniger, den nächsten Tick vorherzusagen, sondern Musteränderungen (Regimewechsel) so schnell wie möglich zu erkennen und sie mit bestehenden Mustern im Aktienhandel oder in nachrichtendienstlichen Aktivitäten abzugleichen.