- Das zentrale Ziel von Observability-Tools in den vergangenen Jahrzehnten war es, große heterogene Telemetriedaten für Menschen verständlich zu machen
- Mit dem Aufkommen von AI und LLMs verändert sich das bisherige Paradigma rund um „Dashboards + Alerts + Sampling“, da der Analyseprozess zunehmend durch Automatisierung ersetzt wird
- Tatsächlich hat ein AI-Agent in nur 80 Sekunden mit 8 Tool-Aufrufen die Ursache eines Latenz-Spikes analysiert und damit Aufgaben aus klassischen Demos automatisiert – für Kosten von lediglich 60 Cent
- Bisherige hübsche Dashboards oder komfortable Instrumentierung sind kein besonderer Mehrwert mehr, weil LLMs die Analyse und OpenTelemetry die Instrumentierung zur Commodity machen
- Die Observability der Zukunft wird durch schnelle Feedback-Loops und AI-Mensch-Kollaborations-Workflows bestimmt und eine Ära von mehr Software und mehr Automatisierung antreiben
Die Geschichte von Observability-Tools und das Aufkommen von AI
- Über Jahrzehnte hinweg bestand der Hauptzweck von Observability-Tools darin, gewaltige Mengen heterogener Daten (Telemetry) auf ein für Menschen verständliches Niveau zu verdichten bzw. zusammenzufassen
- Jedes Mal, wenn neue Software-Abstraktionen entstanden (z. B. Rails, AWS, Kubernetes, OpenTelemetry usw.),
wurden verschiedene Werkzeuge wie Monitoring, Messung, Dashboards, adaptive Alerts und dynamisches Sampling entwickelt, um diese Komplexität zu verbergen und die Datenkomplexität passend zur menschlichen Kognition verdichtet bereitzustellen
LLM = universeller Funktionsapproximator, und jetzt wirklich nützlich
- Mathematisch gesehen ist ein LLM lediglich ein universeller Funktionsapproximator (universal function approximator), in der Praxis aber äußerst nützlich zur Lösung von Observability-Problemen
- Als Beispiel dient eine Honeycomb-Demo, in der ein AI-Agent per natürlicher Sprache gebeten wurde, einen Latenz-Spike in einer Heatmap zu analysieren
- „Analysiere die Ursache der Latenz-Spikes, die im Frontend-Service im Abstand von vier Stunden auftreten“
- Ein Off-the-shelf-LLM (Claude Sonnet 4) wurde mit dem Model Context Protocol (MCP) von Honeycomb verbunden
- In 80 Sekunden, mit 8 Tool-Aufrufen und Kosten von 60 Cent wurde die Ursache automatisch analysiert
- Das Niveau ist inzwischen so weit, dass reale Szenarien ohne zusätzliche Prompts, separates Training oder Anleitungen zero-shot gelöst werden können
- Kommoditisierung der Analyse:
- Wenn LLMs Analyseaufgaben automatisieren, verlieren bisherige Differenzierungsmerkmale von Observability-Produkten (schöne Grafiken, einfache Instrumentierung usw.) an Bedeutung
- OpenTelemetry kommoditisiert die Instrumentierung, LLMs kommoditisieren die Analyse
- Künftig wird der „schnelle Feedback-Loop“ den zentralen Wert von Observability-Tools ersetzen
Die Rolle des Menschen und der künftige Wandel
- Die Rolle des Menschen verschwindet nicht vollständig
- So wie das Aufkommen der Cloud die Existenz der IT nicht abgeschafft hat, wird auch AI Entwickler:innen und Operatoren nicht ersetzen
- Produktivitätssteigerungen erweitern das gesamte Feld und führen dazu, dass noch mehr Software entsteht
- Die zentrale Frage ist:
Wohin bewegt sich das Wesen der Observability in einer Welt, in der
die Kosten für Code schreiben/Refactoring/Analyse drastisch sinken und Analyse zu einer Konstante wird?
Wirklich wichtig ist „schnelles Feedback“
- Am wichtigsten ist es, in allen Phasen von Entwicklung und Betrieb schnelle, engmaschige Feedback-Loops zu haben
- AI wird Menschen bei der Geschwindigkeit immer voraus sein
- LLMs stellen schnell Dutzende Hypothesen auf, verwerfen sie wieder und finden schließlich das richtige Ergebnis
(und das zu sehr geringen Kosten)
- Die Philosophie von Honeycomb:
- schnelle Feedback-Loops, kollaborativer Wissensaustausch, experimentelle Entwicklung und Operations
- Künftig wird AI-Unterstützung über den gesamten Lebenszyklus von Softwareentwicklung und Betrieb hinweg eingeführt
- Beispiele
- Beim Schreiben und Deployen von Code geben AI-Agenten in Echtzeit Feedback und schlagen Verbesserungen bei Bugs und Qualität vor
- Im Betrieb erkennen, analysieren und berichten sie emergent behavior automatisch und setzen nach Freigabe Verbesserungen automatisiert um
- Führende Organisationen automatisieren SRE-/SWE-Rollen mit AI und Tools und erreichen direkt sogar Business-Ziele
- Zukünftige Voraussetzungen für erfolgreiche Observability
- Query-Performance mit extrem niedriger Latenz
- ein integrierter Datenspeicher
- nahtlose Kollaborations-Workflows zwischen Menschen und AI
- Fazit:
- Klassische, auf Dashboards, Alerts und Visualisierung fokussierte Observability-Tools
stehen im AI-Zeitalter nicht mehr im Zentrum;
nur „schnelle Feedback-Loops“ und AI-Mensch-Kollaborationsplattformen werden bestehen
4 Kommentare
So wie Observability nicht das Ende des Monitorings ist, werden LLMs wohl auch nicht das Ende der Observability sein.
So wie sich Observability auf der Grundlage fortgeschrittenen Monitorings entwickelt hat, wird sich auch die LLM-Analyse auf der Grundlage fortgeschrittener Observability weiterentwickeln.
Ich freue mich darauf, dass der Observability-Bereich durch LLMs schnell innoviert wird, aber der Titel ist echt ziemlich auf Klicks ausgelegt, haha
Es ist mir etwas peinlich, wenn ein Unternehmen seinen eigenen Service mit „das Ende naht“ bewirbt ...
Persönlich hoffe ich, dass sich Vision-LLMs weiterentwickeln und für Monitoring-Aufgaben eingesetzt werden können.
Kürzlich habe ich einen Beitrag von Eltern gesehen, die ein VLM dafür genutzt haben zu prüfen, ob während des Schlafens ihres Kindes etwas Auffälliges passiert, und das fand ich ziemlich interessant.
Hacker-News-Kommentare