2 Punkte von GN⁺ 13 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Aufbau einer einheitlichen Inferenzschicht, die verschiedene Modelle und Anbieter integriert, um die Komplexität agentischer Anwendungen zu verringern
  • Über AI Gateway und Workers AI lassen sich mehr als 70 Modelle und über 12 Anbieter über eine einzige API aufrufen; Kosten und Nutzung können zentral verwaltet werden
  • Mit Cog-Technologie von Replicate wird die containerbasierte Ausführung von Modellen unterstützt, damit sich benutzerdefinierte Modelle direkt bereitstellen lassen
  • Durch die Infrastruktur in 330 Städten weltweit wird die Latenz minimiert; bei Ausfällen sorgt automatisches Routing für eine stabile Inferenz
  • Das Replicate-Team ist zu Cloudflare gewechselt, um Modell-Hosting und Bereitstellung vollständig zu integrieren und die Plattform zu einer einzigen Plattform für die Agentenentwicklung auszubauen

Überblick über die Cloudflare AI Platform

  • Durch den schnellen Wandel bei AI-Modellen und Unterschiede zwischen Anbietern steigt die Komplexität agentischer Anwendungen, die mehrere Modelle kombinieren
    • Zum Beispiel nutzt ein Kundensupport-Agent ein schnelles Modell für die Nachrichtenklassifizierung, ein großes Modell für die Planung und ein leichtgewichtiges Modell für die Ausführung
    • Es besteht Bedarf, Kosten, Zuverlässigkeit und Latenz integriert zu verwalten, ohne von einem einzelnen Anbieter abhängig zu sein
  • Cloudflare hat auf Basis von AI Gateway und Workers AI eine einheitliche Inferenzschicht aufgebaut, über die sich alle Modelle über eine einzige API aufrufen lassen
    • Kürzlich wurden ein überarbeitetes Dashboard, automatische Standardkonfiguration des Gateways, automatisches Retry bei Upstream-Ausfällen und granulare Logging-Kontrollen hinzugefügt

Ein Katalog, ein einheitlicher Endpunkt

  • Über das Binding AI.run() können in Cloudflare Workers Drittanbieter-Modelle (OpenAI, Anthropic usw.) direkt aufgerufen werden
    • Beim Wechsel von einem bei Cloudflare gehosteten Modell zu einem Drittanbieter-Modell muss nur eine einzige Codezeile geändert werden
    • Support für die REST API soll bald folgen, sodass der gesamte Modellkatalog in jeder Umgebung zugänglich ist
  • Mehr als 70 Modelle und über 12 Anbieter können über eine einzige API und eine einheitliche Abrechnung genutzt werden
    • Wichtige Anbieter: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
    • Einschließlich Bild-, Video- und Sprachmodellen lassen sich multimodale Anwendungen erstellen
  • Alle Modellaufrufe werden über eine einzige API zusammengeführt, sodass sich AI-Nutzung und Kosten zentral verwalten lassen
    • Im Durchschnitt rufen Unternehmen 3,5 Modelle über mehrere Anbieter hinweg auf, doch AI Gateway kann dies in einem einzigen Dashboard nachverfolgen
    • Bei Anfragen können benutzerdefinierte Metadaten mitgegeben werden, um Kosten nach Kunde oder Workflow auszuwerten

Eigene Modelle direkt bereitstellen (Bring Your Own Model)

  • AI Gateway vereinheitlicht Modelle aller Anbieter, bereitet aber auch die direkte Bereitstellung von mit eigenen Daten feinabgestimmten Modellen vor
    • Derzeit führen Enterprise-Kunden Custom-Modelle auf dedizierten Instanzen aus; das soll künftig auf allgemeine Nutzer ausgeweitet werden
  • Cloudflare nutzt Cog-Technologie von Replicate, um Machine-Learning-Modelle zu containerisieren
    • In der Datei cog.yaml werden Abhängigkeiten definiert, in predict.py der Inferenzcode geschrieben; die Paketierung erfolgt dann automatisch
    • Cog abstrahiert komplexe Konfigurationen wie CUDA, Python-Versionen und das Laden von Gewichten
  • Wird mit dem Befehl cog build ein Container-Image erstellt und in Workers AI hochgeladen, übernimmt Cloudflare Bereitstellung und Betrieb
    • Geplant sind künftig wrangler-Befehle, schnelle Cold Starts auf Basis von GPU-Snapshots und APIs für Kunden
    • Tests laufen intern sowie mit einigen externen Kunden; langfristig soll jeder eigene Modelle in Workers AI nutzen können

Optimierung der Geschwindigkeit bis zum ersten Token

  • Die Kombination aus AI Gateway + Workers AI ist besonders vorteilhaft für Live-Agenten, bei denen Echtzeitreaktionen wichtig sind
    • Selbst wenn die gesamte Inferenz 3 Sekunden dauert, verbessert eine um 50 ms schnellere Ankunft des ersten Tokens das wahrgenommene Tempo für Nutzer
  • Cloudflare minimiert die Netzwerklatenz zwischen Nutzern und Inferenzendpunkten über Data Center in 330 Städten weltweit
  • Workers AI hostet agentenspezifische Open-Source-Modelle wie Kimi K2.5 und Echtzeit-Sprachmodelle
    • Beim Aufruf über AI Gateway laufen Code und Inferenz im selben Netzwerk, wodurch niedrigste Latenz erreicht wird

Zuverlässigkeit durch automatisches Failover

  • In Agenten-Workflows sind die Abhängigkeiten zwischen einzelnen Schritten hoch, daher ist Inferenzstabilität entscheidend
    • Wenn dasselbe Modell bei mehreren Anbietern verfügbar ist, leitet AI Gateway bei einem Ausfall automatisch zu einem anderen Anbieter weiter
    • Entwickler müssen keine eigene Logik für Ausfallbehandlung schreiben
  • Bei lang laufenden Agenten, die das Agents SDK verwenden, kann Streaming-Inferenz auch nach Verbindungsabbrüchen wiederhergestellt werden

    • AI Gateway puffert Streaming-Antworten unabhängig, sodass nach einer Unterbrechung bei erneuter Verbindung dieselbe Antwort weiterverwendet werden kann
    • Dieselben Tokens werden ohne doppelte Abrechnung wiederhergestellt; kombiniert mit Checkpointing im SDK bleibt die Unterbrechung für Nutzer unbemerkt

Replicate-Integration

  • Das Replicate-Team ist dem Cloudflare-AI-Platform-Team beigetreten, um eine vollständige Integration voranzutreiben
    • Alle Modelle von Replicate werden in AI Gateway migriert, und gehostete Modelle werden auf die Cloudflare-Infrastruktur umgestellt
    • Nutzer können bestehende Replicate-Modelle über AI Gateway aufrufen oder bei Replicate bereitgestellte Modelle in Workers AI hosten

Erste Schritte

Die Rolle von Cloudflare

  • Cloudflare ist eine connectivity cloud, die Unternehmensnetzwerke schützt, den Aufbau großer Anwendungen ermöglicht, Web-Performance beschleunigt und DDoS-Schutz sowie Zero-Trust-Sicherheit unterstützt
  • Mit der kostenlosen App 1.1.1.1 lässt sich das Internet schneller und sicherer nutzen
  • Die Mission von Cloudflare ist der Aufbau eines besseren Internets; weitere Informationen und Stellenangebote finden sich auf der offiziellen Website

1 Kommentare

 
GN⁺ 13 일 전
Hacker-News-Kommentare
  • Im Grunde wirkt das wie openrouter mit Cloudflare Argo networking obendrauf
    Mit der Replicate-Übernahme könnte man wohl noch Interessanteres bauen
    Application-specific RL wird immer besser, aber es fehlt an Möglichkeiten, das skalierbar auszurollen
    Auch Anbieter wie Fireworks sagen, dass sie LORA skaliert ausrollen, aber in der Praxis funktioniert das nicht gut
    Deshalb hoste ich die Grundlast meiner App derzeit selbst auf mehreren 3090ern in der Garage. Ist lächerlich, spart mir aber 1.000 Dollar im Monat

    • Mich würde interessieren, welche Modelle du laufen lässt und wie viele 3090er du für Skalierung brauchst
  • Das sieht ziemlich nützlich aus. Cloudflare stellt gute Tools gut zusammen
    Gerade D2 ist praktisch der einzige echte sqlite-as-a-service und dazu stabil, mit großzügigen Limits im kostenlosen Tarif

    • In der Dokumentation und im Marketing wird die Nutzung wie „eine DB pro Nutzer, pro Tenant“ betont, aber in der Praxis ist es schwer mit Workers zu verwenden
      Um eine neue DB zu binden, muss man den Worker neu deployen, was es faktisch unmöglich macht
    • Nach unserer Erfahrung ist die Stabilität von D1 nicht gut
      Queries hängen in der internen Netzwerkschicht mehrere Sekunden, im schlimmsten Fall sogar Dutzende Sekunden
      Manche Queries tauchen nicht einmal im Observability-Dashboard auf, sodass man das Problem ohne eigene Timeout-Erkennung gar nicht bemerkt
      Transaktionen werden auch nicht unterstützt, und im Issue-Thread sagt der PM, dass es dafür keine Implementierungspläne gibt
      Um Datenkonsistenz zu garantieren, muss man Durable Objects verwenden, was wiederum eigene Kosten und Trade-offs mit sich bringt
      Die Idee ist gut, aber für Produktion schwer vertrauenswürdig, für Hobbyprojekte okay
    • Es wäre gut, wenn Cloudflare ein D1-R2-Backup-System standardmäßig bereitstellen würde
      Im Moment geht das nur mit Custom-Code in einem Worker
    • Das 10-GB-Limit von D1 ist zu klein. Außerhalb von Spielzeugprojekten wird das schwierig
    • Es heißt, eine REST API komme bald, aber das wirkt wie eine Struktur, die Cloudflare lock-in fördern soll
      Einerseits OpenRouter bauen zu wollen, andererseits aber nur eigene Runtime-Bindings zu unterstützen, ist schwer nachzuvollziehen
  • Die Modellzusammenstellung der Workers AI-Modellliste und des
    AI-Modellkatalogs ist unterschiedlich
    Im Namespace „workers-ai/*“ gibt es deutlich weniger Modelle. Ich frage mich, ob das beabsichtigt ist

    • Zum Beispiel Modelle wie „workers-ai/@cf/google/gemma-4-26b-a4b-it“ oder
      „workers-ai/@cf/nvidia/nemotron-3-120b-a12b“ fehlen am /models-Endpunkt von gateway.ai.cloudflare.com. Als gehostete Modelle existieren sie aber
  • Ich nutze openrouter erfolgreich in Cloudflare Workers
    Wenn ein Modell offline ist, sind die cascading- und waterfalling-Funktionen auch deutlich besser
    In V1 scheint das noch nicht zu gehen
    Ich mag an openrouter fast alles, bin schon fast ein Fan

  • Das Problem der Inference-Schicht wird schnell gelöst
    Das Nächste Schwierige ist die Governance-Schicht, also was Agenten tun dürfen und wie man das nachweist
    Ich frage mich, ob Cloudflare darüber ebenfalls nachdenkt

    • Ein automatisches Authentifizierungssystem auf Zero-Trust-Basis wäre gut
      Ich stelle mir eine Struktur vor, in der jeder Agent RBAC-Credentials vorlegt, um Berechtigungen zu erhalten
  • Schön zu sehen, dass die Replicate-Übernahme endlich Früchte trägt

  • Auf der Modellseite sehe ich keine Preisinformationen
    Ich frage mich, wie viel teurer das ist, als direkt beim Anbieter zu zahlen
    Gibt Cloudflare das zum Selbstkostenpreis weiter?
    Außerdem ist zero data retention nicht der Standard, und bei manchen Anbietern wird es gar nicht unterstützt
    Es wäre gut, wenn sowohl completions im Stil von OpenAI als auch von Anthropic zurückgegeben werden könnten

    • Ich bin Cloudflare-Ingenieur. Preisinformationen werden bald in Doku und Dashboard ergänzt
      Derzeit entspricht es den Gebühren des Anbieters, dazu kommt eine kleine Bearbeitungsgebühr über unified billing credits
      OpenAI-/Anthropic-artige completions werden ebenfalls bald unterstützt
      Link zur Erklärung von unified billing
    • Preisinformationen zu Workers AI gibt es hier
  • Im Grunde wirkt das wie ein openrouter-ähnlicher Dienst

    • Stimmt. Allerdings ist die Modellauswahl eingeschränkt, außer man bringt eigene Modelle mit
    • Plus Argo networking obendrauf
  • Ziemlich große Ankündigung. Als AWS-Bedrock-Alternative wirkt das absolut konkurrenzfähig
    Die Uptime könnte sogar besser sein als bei Anthropic oder AWS