Cloudflares AI-Plattform: Eine Inferenzschicht für Agenten

(blog.cloudflare.com)

2 Punkte von GN⁺ 13 일 전 | 1 Kommentare | Auf WhatsApp teilen

Aufbau einer einheitlichen Inferenzschicht, die verschiedene Modelle und Anbieter integriert, um die Komplexität agentischer Anwendungen zu verringern
Über AI Gateway und Workers AI lassen sich mehr als 70 Modelle und über 12 Anbieter über eine einzige API aufrufen; Kosten und Nutzung können zentral verwaltet werden
Mit Cog-Technologie von Replicate wird die containerbasierte Ausführung von Modellen unterstützt, damit sich benutzerdefinierte Modelle direkt bereitstellen lassen
Durch die Infrastruktur in 330 Städten weltweit wird die Latenz minimiert; bei Ausfällen sorgt automatisches Routing für eine stabile Inferenz
Das Replicate-Team ist zu Cloudflare gewechselt, um Modell-Hosting und Bereitstellung vollständig zu integrieren und die Plattform zu einer einzigen Plattform für die Agentenentwicklung auszubauen

Überblick über die Cloudflare AI Platform

Durch den schnellen Wandel bei AI-Modellen und Unterschiede zwischen Anbietern steigt die Komplexität agentischer Anwendungen, die mehrere Modelle kombinieren
- Zum Beispiel nutzt ein Kundensupport-Agent ein schnelles Modell für die Nachrichtenklassifizierung, ein großes Modell für die Planung und ein leichtgewichtiges Modell für die Ausführung
- Es besteht Bedarf, Kosten, Zuverlässigkeit und Latenz integriert zu verwalten, ohne von einem einzelnen Anbieter abhängig zu sein
Cloudflare hat auf Basis von AI Gateway und Workers AI eine einheitliche Inferenzschicht aufgebaut, über die sich alle Modelle über eine einzige API aufrufen lassen
- Kürzlich wurden ein überarbeitetes Dashboard, automatische Standardkonfiguration des Gateways, automatisches Retry bei Upstream-Ausfällen und granulare Logging-Kontrollen hinzugefügt

Ein Katalog, ein einheitlicher Endpunkt

Über das Binding AI.run() können in Cloudflare Workers Drittanbieter-Modelle (OpenAI, Anthropic usw.) direkt aufgerufen werden
- Beim Wechsel von einem bei Cloudflare gehosteten Modell zu einem Drittanbieter-Modell muss nur eine einzige Codezeile geändert werden
- Support für die REST API soll bald folgen, sodass der gesamte Modellkatalog in jeder Umgebung zugänglich ist
Mehr als 70 Modelle und über 12 Anbieter können über eine einzige API und eine einheitliche Abrechnung genutzt werden
- Wichtige Anbieter: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- Einschließlich Bild-, Video- und Sprachmodellen lassen sich multimodale Anwendungen erstellen
Alle Modellaufrufe werden über eine einzige API zusammengeführt, sodass sich AI-Nutzung und Kosten zentral verwalten lassen
- Im Durchschnitt rufen Unternehmen 3,5 Modelle über mehrere Anbieter hinweg auf, doch AI Gateway kann dies in einem einzigen Dashboard nachverfolgen
- Bei Anfragen können benutzerdefinierte Metadaten mitgegeben werden, um Kosten nach Kunde oder Workflow auszuwerten

Eigene Modelle direkt bereitstellen (Bring Your Own Model)

AI Gateway vereinheitlicht Modelle aller Anbieter, bereitet aber auch die direkte Bereitstellung von mit eigenen Daten feinabgestimmten Modellen vor
- Derzeit führen Enterprise-Kunden Custom-Modelle auf dedizierten Instanzen aus; das soll künftig auf allgemeine Nutzer ausgeweitet werden
Cloudflare nutzt Cog-Technologie von Replicate, um Machine-Learning-Modelle zu containerisieren
- In der Datei cog.yaml werden Abhängigkeiten definiert, in predict.py der Inferenzcode geschrieben; die Paketierung erfolgt dann automatisch
- Cog abstrahiert komplexe Konfigurationen wie CUDA, Python-Versionen und das Laden von Gewichten
Wird mit dem Befehl cog build ein Container-Image erstellt und in Workers AI hochgeladen, übernimmt Cloudflare Bereitstellung und Betrieb
- Geplant sind künftig wrangler-Befehle, schnelle Cold Starts auf Basis von GPU-Snapshots und APIs für Kunden
- Tests laufen intern sowie mit einigen externen Kunden; langfristig soll jeder eigene Modelle in Workers AI nutzen können

Optimierung der Geschwindigkeit bis zum ersten Token

Die Kombination aus AI Gateway + Workers AI ist besonders vorteilhaft für Live-Agenten, bei denen Echtzeitreaktionen wichtig sind
- Selbst wenn die gesamte Inferenz 3 Sekunden dauert, verbessert eine um 50 ms schnellere Ankunft des ersten Tokens das wahrgenommene Tempo für Nutzer
Cloudflare minimiert die Netzwerklatenz zwischen Nutzern und Inferenzendpunkten über Data Center in 330 Städten weltweit
Workers AI hostet agentenspezifische Open-Source-Modelle wie Kimi K2.5 und Echtzeit-Sprachmodelle
- Beim Aufruf über AI Gateway laufen Code und Inferenz im selben Netzwerk, wodurch niedrigste Latenz erreicht wird

Zuverlässigkeit durch automatisches Failover

In Agenten-Workflows sind die Abhängigkeiten zwischen einzelnen Schritten hoch, daher ist Inferenzstabilität entscheidend
- Wenn dasselbe Modell bei mehreren Anbietern verfügbar ist, leitet AI Gateway bei einem Ausfall automatisch zu einem anderen Anbieter weiter
- Entwickler müssen keine eigene Logik für Ausfallbehandlung schreiben
Bei lang laufenden Agenten, die das Agents SDK verwenden, kann Streaming-Inferenz auch nach Verbindungsabbrüchen wiederhergestellt werden
- AI Gateway puffert Streaming-Antworten unabhängig, sodass nach einer Unterbrechung bei erneuter Verbindung dieselbe Antwort weiterverwendet werden kann
- Dieselben Tokens werden ohne doppelte Abrechnung wiederhergestellt; kombiniert mit Checkpointing im SDK bleibt die Unterbrechung für Nutzer unbemerkt

Replicate-Integration

Das Replicate-Team ist dem Cloudflare-AI-Platform-Team beigetreten, um eine vollständige Integration voranzutreiben
- Alle Modelle von Replicate werden in AI Gateway migriert, und gehostete Modelle werden auf die Cloudflare-Infrastruktur umgestellt
- Nutzer können bestehende Replicate-Modelle über AI Gateway aufrufen oder bei Replicate bereitgestellte Modelle in Workers AI hosten

Erste Schritte

Entwickler können mit der AI-Gateway-Dokumentation oder der Workers-AI-Dokumentation beginnen
Über das Agents SDK lassen sich Agenten auf Cloudflare entwickeln

Die Rolle von Cloudflare

Cloudflare ist eine connectivity cloud, die Unternehmensnetzwerke schützt, den Aufbau großer Anwendungen ermöglicht, Web-Performance beschleunigt und DDoS-Schutz sowie Zero-Trust-Sicherheit unterstützt
Mit der kostenlosen App 1.1.1.1 lässt sich das Internet schneller und sicherer nutzen
Die Mission von Cloudflare ist der Aufbau eines besseren Internets; weitere Informationen und Stellenangebote finden sich auf der offiziellen Website

1 Kommentare

GN⁺ 13 일 전

Hacker-News-Kommentare

Im Grunde wirkt das wie openrouter mit Cloudflare Argo networking obendrauf
Mit der Replicate-Übernahme könnte man wohl noch Interessanteres bauen
Application-specific RL wird immer besser, aber es fehlt an Möglichkeiten, das skalierbar auszurollen
Auch Anbieter wie Fireworks sagen, dass sie LORA skaliert ausrollen, aber in der Praxis funktioniert das nicht gut
Deshalb hoste ich die Grundlast meiner App derzeit selbst auf mehreren 3090ern in der Garage. Ist lächerlich, spart mir aber 1.000 Dollar im Monat
- Mich würde interessieren, welche Modelle du laufen lässt und wie viele 3090er du für Skalierung brauchst
Das sieht ziemlich nützlich aus. Cloudflare stellt gute Tools gut zusammen
Gerade D2 ist praktisch der einzige echte sqlite-as-a-service und dazu stabil, mit großzügigen Limits im kostenlosen Tarif
- In der Dokumentation und im Marketing wird die Nutzung wie „eine DB pro Nutzer, pro Tenant“ betont, aber in der Praxis ist es schwer mit Workers zu verwenden
  Um eine neue DB zu binden, muss man den Worker neu deployen, was es faktisch unmöglich macht
- Nach unserer Erfahrung ist die Stabilität von D1 nicht gut
  Queries hängen in der internen Netzwerkschicht mehrere Sekunden, im schlimmsten Fall sogar Dutzende Sekunden
  Manche Queries tauchen nicht einmal im Observability-Dashboard auf, sodass man das Problem ohne eigene Timeout-Erkennung gar nicht bemerkt
  Transaktionen werden auch nicht unterstützt, und im Issue-Thread sagt der PM, dass es dafür keine Implementierungspläne gibt
  Um Datenkonsistenz zu garantieren, muss man Durable Objects verwenden, was wiederum eigene Kosten und Trade-offs mit sich bringt
  Die Idee ist gut, aber für Produktion schwer vertrauenswürdig, für Hobbyprojekte okay
- Es wäre gut, wenn Cloudflare ein D1-R2-Backup-System standardmäßig bereitstellen würde
  Im Moment geht das nur mit Custom-Code in einem Worker
- Das 10-GB-Limit von D1 ist zu klein. Außerhalb von Spielzeugprojekten wird das schwierig
- Es heißt, eine REST API komme bald, aber das wirkt wie eine Struktur, die Cloudflare lock-in fördern soll
  Einerseits OpenRouter bauen zu wollen, andererseits aber nur eigene Runtime-Bindings zu unterstützen, ist schwer nachzuvollziehen
Die Modellzusammenstellung der Workers AI-Modellliste und des
AI-Modellkatalogs ist unterschiedlich
Im Namespace „workers-ai/*“ gibt es deutlich weniger Modelle. Ich frage mich, ob das beabsichtigt ist
- Zum Beispiel Modelle wie „workers-ai/@cf/google/gemma-4-26b-a4b-it“ oder
  „workers-ai/@cf/nvidia/nemotron-3-120b-a12b“ fehlen am /models-Endpunkt von gateway.ai.cloudflare.com. Als gehostete Modelle existieren sie aber
Ich nutze openrouter erfolgreich in Cloudflare Workers
Wenn ein Modell offline ist, sind die cascading- und waterfalling-Funktionen auch deutlich besser
In V1 scheint das noch nicht zu gehen
Ich mag an openrouter fast alles, bin schon fast ein Fan
Das Problem der Inference-Schicht wird schnell gelöst
Das Nächste Schwierige ist die Governance-Schicht, also was Agenten tun dürfen und wie man das nachweist
Ich frage mich, ob Cloudflare darüber ebenfalls nachdenkt
- Ein automatisches Authentifizierungssystem auf Zero-Trust-Basis wäre gut
  Ich stelle mir eine Struktur vor, in der jeder Agent RBAC-Credentials vorlegt, um Berechtigungen zu erhalten
Schön zu sehen, dass die Replicate-Übernahme endlich Früchte trägt
Auf der Modellseite sehe ich keine Preisinformationen
Ich frage mich, wie viel teurer das ist, als direkt beim Anbieter zu zahlen
Gibt Cloudflare das zum Selbstkostenpreis weiter?
Außerdem ist zero data retention nicht der Standard, und bei manchen Anbietern wird es gar nicht unterstützt
Es wäre gut, wenn sowohl completions im Stil von OpenAI als auch von Anthropic zurückgegeben werden könnten
- Ich bin Cloudflare-Ingenieur. Preisinformationen werden bald in Doku und Dashboard ergänzt
  Derzeit entspricht es den Gebühren des Anbieters, dazu kommt eine kleine Bearbeitungsgebühr über unified billing credits
  OpenAI-/Anthropic-artige completions werden ebenfalls bald unterstützt
  Link zur Erklärung von unified billing
- Preisinformationen zu Workers AI gibt es hier
Im Grunde wirkt das wie ein openrouter-ähnlicher Dienst
- Stimmt. Allerdings ist die Modellauswahl eingeschränkt, außer man bringt eigene Modelle mit
- Plus Argo networking obendrauf
Ziemlich große Ankündigung. Als AWS-Bedrock-Alternative wirkt das absolut konkurrenzfähig
Die Uptime könnte sogar besser sein als bei Anthropic oder AWS

Cloudflares AI-Plattform: Eine Inferenzschicht für Agenten

Überblick über die Cloudflare AI Platform

Ein Katalog, ein einheitlicher Endpunkt

Eigene Modelle direkt bereitstellen (Bring Your Own Model)

Optimierung der Geschwindigkeit bis zum ersten Token

Zuverlässigkeit durch automatisches Failover

Bei lang laufenden Agenten, die das Agents SDK verwenden, kann Streaming-Inferenz auch nach Verbindungsabbrüchen wiederhergestellt werden

Replicate-Integration

Erste Schritte

Die Rolle von Cloudflare

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare