Cloudflares AI-Plattform: Eine Inferenzschicht für Agenten
(blog.cloudflare.com)- Aufbau einer einheitlichen Inferenzschicht, die verschiedene Modelle und Anbieter integriert, um die Komplexität agentischer Anwendungen zu verringern
- Über AI Gateway und Workers AI lassen sich mehr als 70 Modelle und über 12 Anbieter über eine einzige API aufrufen; Kosten und Nutzung können zentral verwaltet werden
- Mit Cog-Technologie von Replicate wird die containerbasierte Ausführung von Modellen unterstützt, damit sich benutzerdefinierte Modelle direkt bereitstellen lassen
- Durch die Infrastruktur in 330 Städten weltweit wird die Latenz minimiert; bei Ausfällen sorgt automatisches Routing für eine stabile Inferenz
- Das Replicate-Team ist zu Cloudflare gewechselt, um Modell-Hosting und Bereitstellung vollständig zu integrieren und die Plattform zu einer einzigen Plattform für die Agentenentwicklung auszubauen
Überblick über die Cloudflare AI Platform
- Durch den schnellen Wandel bei AI-Modellen und Unterschiede zwischen Anbietern steigt die Komplexität agentischer Anwendungen, die mehrere Modelle kombinieren
- Zum Beispiel nutzt ein Kundensupport-Agent ein schnelles Modell für die Nachrichtenklassifizierung, ein großes Modell für die Planung und ein leichtgewichtiges Modell für die Ausführung
- Es besteht Bedarf, Kosten, Zuverlässigkeit und Latenz integriert zu verwalten, ohne von einem einzelnen Anbieter abhängig zu sein
- Cloudflare hat auf Basis von AI Gateway und Workers AI eine einheitliche Inferenzschicht aufgebaut, über die sich alle Modelle über eine einzige API aufrufen lassen
- Kürzlich wurden ein überarbeitetes Dashboard, automatische Standardkonfiguration des Gateways, automatisches Retry bei Upstream-Ausfällen und granulare Logging-Kontrollen hinzugefügt
Ein Katalog, ein einheitlicher Endpunkt
- Über das Binding AI.run() können in Cloudflare Workers Drittanbieter-Modelle (OpenAI, Anthropic usw.) direkt aufgerufen werden
- Beim Wechsel von einem bei Cloudflare gehosteten Modell zu einem Drittanbieter-Modell muss nur eine einzige Codezeile geändert werden
- Support für die REST API soll bald folgen, sodass der gesamte Modellkatalog in jeder Umgebung zugänglich ist
- Mehr als 70 Modelle und über 12 Anbieter können über eine einzige API und eine einheitliche Abrechnung genutzt werden
- Wichtige Anbieter: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- Einschließlich Bild-, Video- und Sprachmodellen lassen sich multimodale Anwendungen erstellen
- Alle Modellaufrufe werden über eine einzige API zusammengeführt, sodass sich AI-Nutzung und Kosten zentral verwalten lassen
- Im Durchschnitt rufen Unternehmen 3,5 Modelle über mehrere Anbieter hinweg auf, doch AI Gateway kann dies in einem einzigen Dashboard nachverfolgen
- Bei Anfragen können benutzerdefinierte Metadaten mitgegeben werden, um Kosten nach Kunde oder Workflow auszuwerten
Eigene Modelle direkt bereitstellen (Bring Your Own Model)
- AI Gateway vereinheitlicht Modelle aller Anbieter, bereitet aber auch die direkte Bereitstellung von mit eigenen Daten feinabgestimmten Modellen vor
- Derzeit führen Enterprise-Kunden Custom-Modelle auf dedizierten Instanzen aus; das soll künftig auf allgemeine Nutzer ausgeweitet werden
- Cloudflare nutzt Cog-Technologie von Replicate, um Machine-Learning-Modelle zu containerisieren
- In der Datei
cog.yamlwerden Abhängigkeiten definiert, inpredict.pyder Inferenzcode geschrieben; die Paketierung erfolgt dann automatisch - Cog abstrahiert komplexe Konfigurationen wie CUDA, Python-Versionen und das Laden von Gewichten
- In der Datei
- Wird mit dem Befehl
cog buildein Container-Image erstellt und in Workers AI hochgeladen, übernimmt Cloudflare Bereitstellung und Betrieb- Geplant sind künftig wrangler-Befehle, schnelle Cold Starts auf Basis von GPU-Snapshots und APIs für Kunden
- Tests laufen intern sowie mit einigen externen Kunden; langfristig soll jeder eigene Modelle in Workers AI nutzen können
Optimierung der Geschwindigkeit bis zum ersten Token
- Die Kombination aus AI Gateway + Workers AI ist besonders vorteilhaft für Live-Agenten, bei denen Echtzeitreaktionen wichtig sind
- Selbst wenn die gesamte Inferenz 3 Sekunden dauert, verbessert eine um 50 ms schnellere Ankunft des ersten Tokens das wahrgenommene Tempo für Nutzer
- Cloudflare minimiert die Netzwerklatenz zwischen Nutzern und Inferenzendpunkten über Data Center in 330 Städten weltweit
- Workers AI hostet agentenspezifische Open-Source-Modelle wie Kimi K2.5 und Echtzeit-Sprachmodelle
- Beim Aufruf über AI Gateway laufen Code und Inferenz im selben Netzwerk, wodurch niedrigste Latenz erreicht wird
Zuverlässigkeit durch automatisches Failover
- In Agenten-Workflows sind die Abhängigkeiten zwischen einzelnen Schritten hoch, daher ist Inferenzstabilität entscheidend
- Wenn dasselbe Modell bei mehreren Anbietern verfügbar ist, leitet AI Gateway bei einem Ausfall automatisch zu einem anderen Anbieter weiter
- Entwickler müssen keine eigene Logik für Ausfallbehandlung schreiben
-
Bei lang laufenden Agenten, die das Agents SDK verwenden, kann Streaming-Inferenz auch nach Verbindungsabbrüchen wiederhergestellt werden
- AI Gateway puffert Streaming-Antworten unabhängig, sodass nach einer Unterbrechung bei erneuter Verbindung dieselbe Antwort weiterverwendet werden kann
- Dieselben Tokens werden ohne doppelte Abrechnung wiederhergestellt; kombiniert mit Checkpointing im SDK bleibt die Unterbrechung für Nutzer unbemerkt
Replicate-Integration
- Das Replicate-Team ist dem Cloudflare-AI-Platform-Team beigetreten, um eine vollständige Integration voranzutreiben
- Alle Modelle von Replicate werden in AI Gateway migriert, und gehostete Modelle werden auf die Cloudflare-Infrastruktur umgestellt
- Nutzer können bestehende Replicate-Modelle über AI Gateway aufrufen oder bei Replicate bereitgestellte Modelle in Workers AI hosten
Erste Schritte
- Entwickler können mit der AI-Gateway-Dokumentation oder der Workers-AI-Dokumentation beginnen
- Über das Agents SDK lassen sich Agenten auf Cloudflare entwickeln
Die Rolle von Cloudflare
- Cloudflare ist eine connectivity cloud, die Unternehmensnetzwerke schützt, den Aufbau großer Anwendungen ermöglicht, Web-Performance beschleunigt und DDoS-Schutz sowie Zero-Trust-Sicherheit unterstützt
- Mit der kostenlosen App 1.1.1.1 lässt sich das Internet schneller und sicherer nutzen
- Die Mission von Cloudflare ist der Aufbau eines besseren Internets; weitere Informationen und Stellenangebote finden sich auf der offiziellen Website
1 Kommentare
Hacker-News-Kommentare
Im Grunde wirkt das wie openrouter mit Cloudflare Argo networking obendrauf
Mit der Replicate-Übernahme könnte man wohl noch Interessanteres bauen
Application-specific RL wird immer besser, aber es fehlt an Möglichkeiten, das skalierbar auszurollen
Auch Anbieter wie Fireworks sagen, dass sie LORA skaliert ausrollen, aber in der Praxis funktioniert das nicht gut
Deshalb hoste ich die Grundlast meiner App derzeit selbst auf mehreren 3090ern in der Garage. Ist lächerlich, spart mir aber 1.000 Dollar im Monat
Das sieht ziemlich nützlich aus. Cloudflare stellt gute Tools gut zusammen
Gerade D2 ist praktisch der einzige echte sqlite-as-a-service und dazu stabil, mit großzügigen Limits im kostenlosen Tarif
Um eine neue DB zu binden, muss man den Worker neu deployen, was es faktisch unmöglich macht
Queries hängen in der internen Netzwerkschicht mehrere Sekunden, im schlimmsten Fall sogar Dutzende Sekunden
Manche Queries tauchen nicht einmal im Observability-Dashboard auf, sodass man das Problem ohne eigene Timeout-Erkennung gar nicht bemerkt
Transaktionen werden auch nicht unterstützt, und im Issue-Thread sagt der PM, dass es dafür keine Implementierungspläne gibt
Um Datenkonsistenz zu garantieren, muss man Durable Objects verwenden, was wiederum eigene Kosten und Trade-offs mit sich bringt
Die Idee ist gut, aber für Produktion schwer vertrauenswürdig, für Hobbyprojekte okay
Im Moment geht das nur mit Custom-Code in einem Worker
Einerseits OpenRouter bauen zu wollen, andererseits aber nur eigene Runtime-Bindings zu unterstützen, ist schwer nachzuvollziehen
Die Modellzusammenstellung der Workers AI-Modellliste und des
AI-Modellkatalogs ist unterschiedlich
Im Namespace „workers-ai/*“ gibt es deutlich weniger Modelle. Ich frage mich, ob das beabsichtigt ist
„workers-ai/@cf/nvidia/nemotron-3-120b-a12b“ fehlen am /models-Endpunkt von gateway.ai.cloudflare.com. Als gehostete Modelle existieren sie aber
Ich nutze openrouter erfolgreich in Cloudflare Workers
Wenn ein Modell offline ist, sind die cascading- und waterfalling-Funktionen auch deutlich besser
In V1 scheint das noch nicht zu gehen
Ich mag an openrouter fast alles, bin schon fast ein Fan
Das Problem der Inference-Schicht wird schnell gelöst
Das Nächste Schwierige ist die Governance-Schicht, also was Agenten tun dürfen und wie man das nachweist
Ich frage mich, ob Cloudflare darüber ebenfalls nachdenkt
Ich stelle mir eine Struktur vor, in der jeder Agent RBAC-Credentials vorlegt, um Berechtigungen zu erhalten
Schön zu sehen, dass die Replicate-Übernahme endlich Früchte trägt
Auf der Modellseite sehe ich keine Preisinformationen
Ich frage mich, wie viel teurer das ist, als direkt beim Anbieter zu zahlen
Gibt Cloudflare das zum Selbstkostenpreis weiter?
Außerdem ist zero data retention nicht der Standard, und bei manchen Anbietern wird es gar nicht unterstützt
Es wäre gut, wenn sowohl completions im Stil von OpenAI als auch von Anthropic zurückgegeben werden könnten
Derzeit entspricht es den Gebühren des Anbieters, dazu kommt eine kleine Bearbeitungsgebühr über unified billing credits
OpenAI-/Anthropic-artige completions werden ebenfalls bald unterstützt
Link zur Erklärung von unified billing
Im Grunde wirkt das wie ein openrouter-ähnlicher Dienst
Ziemlich große Ankündigung. Als AWS-Bedrock-Alternative wirkt das absolut konkurrenzfähig
Die Uptime könnte sogar besser sein als bei Anthropic oder AWS