2 Punkte von GN⁺ 13 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • OpenAIs Frontier-Modelle kommen in die AWS-native Agenten-Laufzeit von Amazon Bedrock und werden nicht nur als Modelle bereitgestellt, sondern in Form von Managed Agents für Unternehmen integriert
  • Bedrock Managed Agents bündeln Identity, Permissions, Logging, Governance und Deployment, sodass Kunden Agenten in Unternehmensumgebungen schneller betreiben können, ohne die Komponenten selbst zusammensetzen zu müssen
  • Die Leistung von Agenten hängt derzeit nicht nur vom Modell selbst ab, sondern stark auch vom Zusammenspiel mit dem Harness, einschließlich Tools, State, Memory, Permissions und Evals; AWS und OpenAI behandeln diese Integration als gemeinsames Produkt
  • Kundendaten bleiben innerhalb der AWS VPC, OpenAI-Modelle werden über Bedrock ausgeführt, und auch der Support läuft primär über AWS
  • Wie die frühe Cloud, die Startups den Zugang erleichterte, folgt auch diese Integration dem Trend, die Hürden für die Einführung von KI zu senken, und zeigt zugleich den Anspruch, sich zusammen mit der schnell wachsenden Nachfrage nach Frontier-Modellen als neue Plattformschicht zu etablieren

AWS, Startups und die Geschwindigkeit der KI-Einführung

  • Das frühe Cloud-Modell von AWS machte Infrastruktur, die zuvor nur Großunternehmen zur Verfügung stand, mit wenigen Dollar und einer Kreditkarte nutzbar und erweiterte den kreativen Spielraum des Internets erheblich, weil Entwickler nicht im Voraus festlegen mussten, was daraus entstehen sollte
  • Die Wirkung der KI-Einführung wird als ähnlich groß oder sogar größer eingeschätzt
    • Die Struktur, in der man zehn Jahre lang programmieren lernen musste, um Anwendungen zu bauen, verliert an Bedeutung
    • Auch kleine Teams können ohne Hunderte Mitarbeiter und lange Entwicklungszyklen schnell bauen und iterativ verbessern
    • Das dient in vielen Bereichen weltweit als Mittel für neue Innovationen
  • Anders als in den Anfangstagen der Cloud verläuft die KI-Adoption sehr schnell
    • 2006 musste man bei der Cloud noch lange erklären, „warum ein Buchhandelsunternehmen Computing anbietet“, während Menschen KI viel schneller verstehen
    • Der Übergang vom einfachen intelligenten Chatbot zur Ausführung interner Unternehmensaufgaben brauchte zwar Aufklärung, verlief aber gemessen an der Geschwindigkeit technologischer Veränderungen vergleichsweise schnell
  • Der Plattformwechsel für Startups lässt sich in vier Phasen zusammenfassen: Internet, Cloud, Mobile, KI
    • In den frühen Tagen von YC machte Cloud-Infrastruktur wie AWS es möglich, mit wenig Kapital ein Unternehmen zu gründen
    • Die Hürde, Colocation-Fläche zu mieten, Server zusammenzubauen und im Vorfeld viel Geld einzuwerben, wurde stark gesenkt
    • Die Annahme, allein Serverkosten würden Zehntausende Dollar verschlingen, brach weg, wodurch Gründungen mit wenig Kapital möglich wurden
  • Startups schlagen etablierte Unternehmen in großen Plattformwechseln leichter, wenn sie in kürzeren Zyklen und mit weniger Kapital agieren können
    • Auch auf der heutigen KI-Welle zeigt sich eine ähnliche Richtung
    • Innerhalb von YC steigen die Umsatzerwartungen guter Unternehmen inzwischen so schnell, dass sie sich schon zwischen Beginn und Ende eines Batch spürbar verändern können
  • AWS wird weiterhin als Cloud genannt, die von vielen Startups in der Skalierungsphase genutzt wird
    • Scale, Availability, Security, Reliability, das ISV-Partnerökosystem innerhalb von AWS und die dortige Kundenbasis gelten zusammen als zentrale Stärken
    • Neben Credits bietet AWS auch Beratung zu Systemdesign und Go-to-Market und behandelt Startups weiterhin als wichtigen Grundpfeiler
    • Quartalsweise trifft man sich direkt mit Startups, um zu prüfen, ob die Produkte tatsächlich passen
  • Bei heutigen Startups ist das Muster sehr verbreitet, AWS für allgemeines Computing und die OpenAI API für KI gemeinsam zu nutzen

Bedrock Managed Agents und die Richtung des gemeinsamen Produkts

  • Bedrock Managed Agents werden nicht einfach als Bereitstellung von OpenAI-Modellen in AWS beschrieben, sondern als Integration von OpenAIs Frontier-Modellen in eine AWS-native Agenten-Laufzeit
    • Operative Elemente wie Identity, Permission State, Logging, Governance und Deployment werden gemeinsam gebündelt
  • Die nächste Phase der KI geht über das Schema „Text rein, Text raus“ hinaus und bewegt sich hin zu zustandsbehafteten Agenten, die im Unternehmen tatsächlich Arbeit erledigen
    • Der Ausdruck „virtual co-workers“ ist nicht perfekt, wird aber als die am wenigsten unpassende Bezeichnung behandelt
    • Die Branche hat sich noch nicht vollständig darauf geeinigt, wie man dieses Zielsystem nennen oder einsetzen soll
  • Codex wird als klares Beispiel für diese Entwicklung genannt
    • Entscheidend ist, dass die gewünschte Arbeit tatsächlich erledigt wird; Nutzer unterscheiden dann nicht mehr, ob das Modell oder das Harness mehr dazu beigetragen hat
  • Der Kopplungsgrad von Modell und Harness wird als Kern der Agentenleistung betrachtet
    • Tools, State, Memory, Permissions und Evals bestimmen maßgeblich das tatsächliche Verhalten
    • Das ist nicht direkt dasselbe wie Pre-Training, aber die Kopplung findet sowohl auf Post-Training- als auch auf Prompt-Ebene statt
    • Tool-Calling, das anfangs getrennt wirkte, wird im Lauf der Zeit tiefer in den Trainingsprozess integriert
    • Künftig könnten Modell und Harness sowie Pre-Training und Post-Training noch stärker zusammenwachsen
  • Der Reifegrad der Branche wird noch als so früh beschrieben, dass er mit der Zeit des Homebrew Computer Club verglichen wird
  • Die Zusammenarbeit von AWS und OpenAI zielt darauf, Bausteine zu bündeln, die Kunden bislang selbst zusammensetzen mussten, damit sie in Unternehmensumgebungen schneller zu konkretem Nutzen gelangen
    • Kunden wollen, dass Modell und Agent gemeinsam gut funktionieren und dabei Memory erhalten bleibt
    • Sie wollen nicht nur Drittanbieter-Tools, sondern auch eigene Tools, eigene Daten, eigene Anwendungen und eigene Betriebsumgebungen anbinden
    • Diese Integrationsarbeit lag bislang bei jedem Kunden selbst
    • Im gemeinsamen Produkt ist Identity eingebaut, und auch die Datenbankauthentifizierung ist so ausgelegt, dass sie innerhalb der AWS VPC erfolgt
  • Ziel ist nicht nur mehr Komfort, sondern auch Dinge möglich zu machen, die sich mit bisherigen Methoden selbst unter großem Aufwand nicht zuverlässig umsetzen ließen
  • Entwickler werden derzeit so beschrieben, dass sie beim Bauen mit Modellen zu viel Aufwand und zu viel Handarbeit haben
    • Auch bei der Nutzung von ChatGPT gibt es viel Copy-and-Paste und komplexe Prompt-Kombinationen
    • Diese Reibung wird verschwinden; derzeit befindet sich alles noch in einer sehr frühen und unbequemen Phase
  • Die Zusammenarbeit ist auch das Ergebnis davon, dass Kunden, die bereits auf AWS sind, OpenAI-Technologie wollen, während OpenAI den Zugang zu AWS-Kunden erweitern möchte
  • Noch stärker als der reine Modellvertrieb wird betont, dass hier gemeinsam ein neues Produkt entsteht
    • Wenn man in einem Jahr darauf zurückblickt, soll die Bedeutung dieses neuen Produkts größer erscheinen als nur die Aussage: „OpenAI-Modelle sind jetzt über AWS erreichbar“
    • Auf Ebene von Modell, Harness und Capability nähert sich das eher einer neuen Form des Computings an als einem herkömmlichen Aufruf einer Modell-API

AgentCore, Managed Agents, Betriebsmodell

  • AgentCore wird als Sammlung von Agenten-Primitiven vorgestellt, darunter Speicher, sichere Ausführungsumgebung und Berechtigungen
  • Bedrock Managed Agents ist ein übergeordnetes Produkt, das auf den AgentCore-Komponenten aufsetzt und OpenAI-Modelle mit verschiedenen Betriebselementen kombiniert; es wurde gemeinsam von AWS und OpenAI entwickelt
  • Schon mit AgentCore allein lassen sich direkt agentic workflows erstellen
    • Es gibt bereits Kunden, die dies in Production betreiben und praktisch nutzen
  • Auch derzeit ist es möglich, AgentCore zu verwenden und OpenAI-Modelle extern aufzurufen
    • Das ist zwar keine nativ in Bedrock integrierte Form, aber es gibt Kunden, die OpenAI-Modelle in anderen Clouds direkt aufrufen
  • AWS behandelt dies als offenes Ökosystem
    • Der Ansatz, gewünschte Fähigkeiten zu kombinieren und selbst aufzubauen, kann auch künftig weiterbestehen
    • Man geht davon aus, dass es – wie bei Menschen, die ihren Computer zu Hause selbst zusammenbauen – langfristig auch Builder geben wird, die ihre Agenten selbst bauen wollen
  • Viele Kunden wünschen sich einen einfacheren Ansatz, bei dem nicht alle Einzelteile selbst konfiguriert werden müssen; die heutige Kooperation zielt auf diese Nachfrage
  • Die Nutzung von OpenAI auf Azure wird als direkte API-Erfahrung eingeordnet, während die heutige Ankündigung bei Amazon als davon abgegrenzter Managed Service beschrieben wird
  • Dieser Managed-Agent-Service erfolgt derzeit exklusiv mit Amazon
    • Es geht nicht bloß um die Nutzung einer Amazon-API, sondern um einen joint effort, den beide Unternehmen gemeinsam vorantreiben
  • Kundendaten bleiben innerhalb von AWS
    • Alles verbleibt innerhalb der VPC und wird in der Bedrock-Umgebung geschützt
  • OpenAI-Modelle laufen über Bedrock; bei der Infrastruktur wird eine Mischung aus Trainium und GPUs verwendet
    • Teils geht es dabei um Timing-Fragen, teils um Capabilities
    • Mit der Zeit soll ein größerer Anteil auf Trainium verlagert werden
    • Auch OpenAI zeigt große Erwartungen daran, dass die eigenen Modelle auf Trainium laufen
  • Beim Betrieb von OpenAI-Modellen in der AWS-Umgebung übernimmt AWS den First-Level-Support
    • Kunden erhalten Hilfe über den AWS-Support und ihre AWS-Account-Ansprechpartner
    • Während der Implementierung sind auch Mitarbeitende von OpenAI beteiligt, um die Nutzung gemeinsam abzustimmen
    • Bugs, für die Hilfe von OpenAI nötig ist, eskaliert AWS an OpenAI

Lokal, Cloud, Berechtigungen und Sicherheitsgrenzen

  • Codex startete zunächst in der Cloud, entwickelte sich in der Praxis aber wieder stärker in Richtung lokaler Ausführung
  • Lokal ist einfacher, weil die Umgebung bereits vorhanden ist
    • Computerkonfiguration, Daten und Dateizugriff sind bereits eingerichtet, daher ist weniger Zusatzkonfiguration nötig
    • Auch wenn dies nicht der Endzustand ist, wirkt kurzfristig Benutzerfreundlichkeit stärker
  • Langfristig wird es als sinnvoller Weg beschrieben, dass Agenten in der Cloud laufen und sehr schwere Aufgaben oder Situationen, in denen der Computer geschlossen werden muss, in die Cloud ausgelagert werden
  • Der lokale Client hat weiterhin Vorteile
    • Wie auch iPhone-Apps lokale Komponenten haben, gibt es Vorteile bei Connectivity, Latenz, Local Compute sowie beim Zugriff auf Dateien und Anwendungen
    • Allerdings lässt sich ein Laptop selbst nicht horizontal skalieren, daher gibt es klare Skalierungsgrenzen
  • In Unternehmensumgebungen wird der lokale Ansatz schwieriger
    • Schon wenn etwas zwischen zwei Personen geteilt werden muss, steigt die Komplexität
    • Permissions und Security Boundaries werden komplizierter
    • Letztlich braucht es eine Brücke zwischen lokal und Cloud
  • Es ist naheliegend, Agenten in derselben Umgebung zu entwickeln, in der sie später bereitgestellt werden; das Design von Identity und Permissions ist jedoch weiterhin ein weitgehend unfertiger Bereich
    • Soll der Agent einfach das Konto einer Person verwenden?
    • Soll der Agent ein separates Konto haben?
    • Wie trennt man mehrere Agenten voneinander?
  • Nicht einmal ein Primitive wie „Bens Agent meldet sich als Ben an, hinterlässt aber den Hinweis, dass es nicht der echte Ben, sondern ein Agent ist“ existiert bisher
  • Je stärker Agenten Teil der Arbeitskraft werden und je höher Autonomie und Aufgabenkomplexität steigen, desto mehr müssen sich auch Zugriffskontrolle und Berechtigungsmodelle innerhalb von Unternehmen und im gesamten Internet weiterentwickeln
  • Je mehr in die Cloud verlagert wird, desto stärker kann die zentrale Organisation Sicherheitskontrolle ausüben
    • Kunden mögen das Potenzial leistungsfähiger Modelle und Agenten, sorgen sich aber am meisten davor, dass ein Fehler versehentlich das Unternehmen ruiniert
    • Grenzen lassen sich kontrollieren, indem etwas innerhalb der VPC läuft, über ein bestimmtes Gateway gehen muss oder Berechtigungen wie Rollen innerhalb der Umgebung erhält
    • Daran knüpft die Aussage an, dass AWS dank seiner über 20 Jahre aufgebauten Sicherheitsstruktur nicht nur von Startups, sondern auch von globalen Banken, Healthcare-Einrichtungen und Regierungsbehörden genutzt werden konnte
    • Je risikoaverser eine Organisation ist, desto eher können Guardrails in der Sandbox die Einführung sogar erleichtern

AI-Stack und Enterprise-Architektur

  • Unternehmenskunden wünschen sich eine Management-Schicht, die Daten und Agenten verbindet sowie Tracking und Überwachung der Token-Ausgaben bereitstellt
  • Große Unternehmenskunden verlangen konsistent nach einer Kombination aus Agent-Runtime-Umgebung, Management-Schicht und Workspace für Mitarbeitende
    • Als Beispiel für einen Workspace für Mitarbeitende wird ein Modell wie Codex genannt
    • Die Nachfrage nach solchen Paketen ist recht konsistent, aber das tatsächliche Angebot muss noch weiter aufgebaut werden
  • Man ist sich einig, dass es innerhalb von Organisationen eine Middleware / mittlere Schicht braucht, die mehrere Datenbanken, SaaS-Apps und verteilte Daten zusammenführt
  • In der aktuellen Struktur scheinen sowohl eine User-Agent-Schicht für die Nutzerinteraktion als auch eine Management-Schicht auf Unternehmensseite nötig zu sein
    • Auf Nutzerseite interagiert man mit mehreren Agenten und baut Systeme, in denen diese Agenten miteinander sprechen
    • In der Management-Schicht des Unternehmens sind verschiedene Controls wichtig, wenn AI etwa Dateisysteme durchsucht
  • Wenn die Modelle jedoch intelligent genug werden, ist auch denkbar, dass diese gesamte Struktur neu entworfen wird
    • Die heutige doppelte Schichtenstruktur ist an die aktuelle Welt angepasst
    • Wie die künftige Architektur genau aussehen wird, weiß man noch nicht
    • Irgendwann könnte man zu dem Schluss kommen: „Das sollte einfach im Modell selbst enthalten sein“
    • Durch die tatsächliche Nutzung und den realen Aufbau bei Kunden lernt man, was einfacher, schneller und besser gemacht werden muss

Nachfrage, Kapazität, Modell-Schichtung

  • OpenAI investiert in dieses Geschäft viel Compute-Einkauf und erheblichen Aufwand und erwartet entsprechend auch Umsätze
  • Die Nachfrage nach Intelligenz wird als nahezu unbegrenzt betrachtet, wenn der Preis nur weit genug sinkt
  • Aktuell scheint nicht der Preis, sondern eher Kapazitätsmangel die größere Einschränkung zu sein
    • Es gibt mehr Kunden, die unabhängig vom Preis mehr Capacity wollen und dafür auch zusätzliche Kosten tragen würden, als Kunden, die über den Preis verhandeln
    • Es wird die Überzeugung geäußert, dass die Kosten für Intelligenz auf dem heutigen Niveau künftig dramatisch sinken werden
  • Es wird als überraschendes Signal gewertet, dass sich ein erheblicher Teil der Gesamtnachfrage auf das absolute Frontier konzentriert
    • Stärker als die Annahme, dass frühere Modellgenerationen ausreichen würden, zeigt sich die Tendenz, weiterhin die neuesten Spitzenmodelle zu wollen
  • So wie die Compute-Kosten über Jahrzehnte stark gefallen sind und die Verkaufszahlen dennoch weiter stiegen, könnte auch AI einen ähnlichen Pfad wachsender Nachfrage nehmen
  • Im Moment braucht man für nützliche Aufgaben in vielen Fällen noch Frontier-Modelle, daher wollen alle dorthin
  • Mit der Zeit dürfte sich eine Mischstruktur herausbilden, in der kleine, günstige und schnelle Modelle neben sehr großen Modellen existieren
    • Manche kleineren Modelle könnten mit der Zeit sogar Aufgaben übernehmen, die selbst die heutigen neuesten OpenAI-Modelle noch nicht leisten können
    • Sehr große Modelle könnten dann auf größere Probleme wie die Heilung von Krebs zielen
  • Noch befindet sich alles in einer frühen Phase; dass Nachfrage und Wachstum bereits auf diesem Niveau zusammen auftreten, vergrößert das künftige Potenzial erheblich

Trainium, Abstraktion, interne Compute-Ressourcen

  • Auf die Frage, ob Trainium entgegen seinem Namen künftig vor allem beim Inference stärker in Erscheinung treten könnte, antwortete AWS, dass es sowohl für Training als auch für Inference nützlich sei.
  • Betont wurde, dass Kunden Trainium künftig eher über die Abstraktion eines Managed Service begegnen werden, statt direkt damit zu arbeiten.
    • So wie die meisten Kunden auch nicht direkt mit GPUs arbeiten, interagiert man bei der Nutzung von OpenAI oder Claude in Wirklichkeit nicht mit GPU, Trainium oder TPU, sondern mit einer Interface.
  • Auch künftig werden Accelerator-Chips wahrscheinlich hinter einer kleinen Zahl großer Modelle und Services arbeiten.
    • Es könnten 5, 10, 20 oder 100 sein, aber es werde wohl nicht dazu kommen, dass Millionen Menschen diese direkt programmieren.
    • Modelltraining kostet viel Geld und erfordert zudem hohe operative Expertise.
    • Das OpenAI-Team ist sehr stark darin, aus großen Compute-Clustern Wert herauszuholen, aber viele Teams mit solchen Fähigkeiten gibt es nicht.
  • OpenAI sagte, man habe sich zunächst als eine Art Token-Fabrik verstanden, korrigierte das dann aber zu etwas, das eher einer Intelligence-Fabrik entspreche.
    • Kunden wollen nicht eine bestimmte Zahl an Tokens, sondern möglichst viele Einheiten bestmöglicher Intelligenz zu den niedrigsten Kosten und in ausreichender Kapazität.
  • GPT-5.5 wurde als Beispiel genannt, bei dem die Kosten pro Token höher sind als bei 5.4, die Zahl der für dieselbe Antwort benötigten Tokens aber deutlich geringer ist.
    • Nutzer achten weniger darauf, wie viele Tokens eine Antwort gekostet hat, sondern eher darauf, ob die gewünschte Aufgabe erledigt wurde.
  • Ob ein größeres Modell mit weniger Tokens läuft oder ein kleineres mit mehr Tokens, ob auf GPU oder Trainium: Kunden wollen statt der internen Implementierung vor allem mehr Nutzen bei geringeren Kosten.
  • Auch beim Erstellen neuer Agenten in Codex oder in der Stateful Runtime Environment für Amazon Bedrock sollten Nutzer sich der Auswahl der internen Compute-Ressourcen nicht bewusst sein müssen.
  • Die Reduzierung des Token-Verbrauchs ist hauptsächlich das Ergebnis von Modellverbesserungen; Einflüsse durch das Harness spiegeln sich nur teilweise wider.
  • Auf die Frage, ob AWS ähnliche Managed Services auch auf andere Modelle ausweiten werde, hieß es lediglich, dass man sich derzeit auf die Zusammenarbeit mit OpenAI konzentriere.

Marktentwicklung und Plattformstrategie

  • ChatGPT wird als das erste große neue Consumer-Produkt seit Facebook bewertet.
  • OpenAI erklärte, man habe nicht nur mit ChatGPT, sondern auch mit der API und besonders mit Codex ziemlich gute Ergebnisse erzielt.
    • Rückblickend wurde auch gesagt, dass man früher stärker darauf fokussiert war, wie neue Sprachschnittstellen die Art verändern könnten, wie Menschen Informationen im Internet finden.
    • Google wird weiterhin als phenomenal company in Bezug auf Breite und Tiefe bewertet.
  • AWS verfolgt seit Anfang an eine partnerzentrierte Strategie und will eine Struktur schaffen, in der AWS erfolgreich ist, wenn die Partner erfolgreich sind.
    • Das unterscheidet sich von einem Ansatz, bei dem man alles selbst besitzen muss, und entspricht eher dem Vergrößern des Kuchens.
    • Kunden sollen das wählen können, was für sie am besten geeignet ist, unabhängig davon, ob es sich um ein eigenes Produkt oder ein Partnerprodukt handelt.
  • Bedrock wurde ebenfalls auf Basis dieser Strategie so entworfen, dass es eine breite Auswahl an Modellen und verschiedene Funktionen unterstützt.
    • Einen ähnlichen Ansatz hat AWS auch in anderen Bereichen wie Datenbanken und Compute-Plattformen beibehalten.
  • AWS setzt in der Infrastrukturebene auf eigene Kernkomponenten wie S3, ist aber der Ansicht, dass es für Kunden vorteilhafter ist, weiter oben im Stack ein breiteres Partner-Ökosystem zuzulassen.
  • Die Rollen beider Unternehmen sind so verteilt: OpenAI liefert die Software, AWS die Infrastruktur, und gemeinsam entsteht eine Plattform.
  • Da erwartet wird, dass sich die Modellfähigkeiten im kommenden Jahr steil weiterentwickeln, hält man den jetzigen Zeitpunkt für einen guten Moment, um gemeinsam eine Plattform aufzubauen.

1 Kommentare

 
GN⁺ 13 일 전
Hacker-News-Kommentare
  • In den datenschutzsensiblen Organisationen, mit denen ich arbeite, wurde Claude deutlich besser angenommen.
    Das lag daran, dass der Zugriff über Amazon als „vertrauenswürdigen“ Mittelsmann möglich war. OpenAI ist verboten und genießt kein Vertrauen.
    Ich stimme den Einschätzungen der Rechtsabteilungen dieser Organisationen nicht unbedingt zu, aber sie haben die Nutzungsbedingungen vermutlich deutlich gründlicher gelesen als ich.
    Ob diese Ankündigung das Kräfteverhältnis verändert, bleibt abzuwarten, aber aktuell wirkt OpenAI für mich in vielerlei Hinsicht ziemlich im Hintertreffen.
    Andererseits sind 2–8 Wochen Unterschied in der AI-Branche auch kein riesiger Abstand, daher könnte es eher ein Wahrnehmungsproblem als ein realer Effekt sein.
    Zumindest in meiner Informationsblase ist OpenAIs Ruf wegen Sam Altman am Boden, und wegen des unethischen Eindrucks sowie Dingen wie den Forderungen rund um fabs wirkt das Unternehmen ziemlich instabil, was nicht gerade Sympathie weckt.
    • Die großen LLM-Anbieter können überall ZDR-Verträge abschließen.
      Es reicht nicht aus, einfach nur AWS zu nutzen, und selbst wenn AWS das Modell betreibt, muss man für echtes ZDR das separat mit ihnen regeln [0].
      [0]: https://platform.claude.com/docs/en/build-with-claude/claude...
    • Anthropic hat zwar die besten Modelle und eine stabilere Führung, aber ich denke trotzdem, dass der große Schub bei der Enterprise-Zugänglichkeit vor allem durch AWS kam.
      Beide haben klar davon profitiert, und die Feedback-Loop-Kultur von AWS-Kunden hat Anthropic vermutlich geholfen, Enterprise-Anforderungen schneller abzudecken.
    • Ich frage mich, ob das in Bezug auf rechtliche Bedingungen, SLA und Datenbedenken wirklich besser ist als OpenAI on Azure.
      Das auf Azure gibt es schließlich schon eine ganze Weile.
    • OpenAI konzentriert sich nicht nur darauf, ein einziges LLM zu verkaufen, sondern macht auch Video- und Bildgenerierung.
      Anthropic dagegen fokussiert sich auf eine Sache, was wohl erklärt, warum sie bei SWE-Benchmarks immer zur Spitzengruppe gehören.
    • Der entscheidende Punkt ist nicht einfach, dass AWS ein „vertrauenswürdiger Mittelsmann“ ist, sondern dass das Modell im eigenen AWS-Konto des Kunden unter anderen Vertragsbedingungen läuft.
      AWS erklärt ausdrücklich, dass Eingaben und Ausgaben nicht mit dem Modellanbieter geteilt und auch nicht für das Training des Basismodells verwendet werden [1].
      Außerdem wurde OpenAI in NYT v. OpenAI im Mai 2025 mit einer Preservation Order belegt, und das Gericht zwingt das Unternehmen faktisch dazu, ChatGPT-Ausgabelogs auf unbestimmte Zeit aufzubewahren.
      Darunter fallen auch vom Nutzer gelöschte Konversationen, die ursprünglich innerhalb von 30 Tagen gelöscht worden wären [2].
      Damit erfüllt OpenAI für Organisationen, die an HIPAA/GDPR gebunden sind, nicht einmal die Mindestvoraussetzungen.
      [1] https://aws.amazon.com/bedrock/faqs/
      [2] https://openai.com/index/response-to-nyt-data-demands/
  • Da ich in Big Tech arbeite und schon für die Abstimmung eines kleinen Feature-Rollouts zwischen zwei Teams endlose Meetings erlebe, will ich mir gar nicht vorstellen, wie viele Meetings und 6-pager nötig waren, um solche Modelle auf Bedrock-Hardware zu bringen.
    • Auf diesem Niveau wird oft einfach entschieden und dann ein SWAT-Team zusammengestellt, das es innerhalb weniger Wochen durchdrückt.
      Politische Spielchen oder bürokratische Reviews binden meiner Ansicht nach meist eher Leute auf niedrigeren Ebenen mit Feature-Resten und Betriebsarbeit.
    • Hängt von der Implementierung ab, aber Amazon hat bereits gpt-oss-20b integriert.
      Wenn das Modell einer OSS-Variante von GPT ausreichend ähnlich ist, war es vielleicht gar nicht so kompliziert, wie man denkt.
  • Dasselbe Modell liefert auf unterschiedlichen Inference-Plattformen nicht zwangsläufig identische Ergebnisse.
    Wegen Quantisierung, kundenspezifischem Serving-Silizium, Batching und anderen Inference-Optimierungen kann sich das Verhalten zwischen der Version des ursprünglichen Anbieters und der gehosteten Version unterscheiden.
    Dieses Paper behandelt zwar nicht exakt denselben Fall, sondern auditierbare Open-Weight-Llama-Modelle, zeigt aber sehr ähnliche Effekte gut auf.
    https://arxiv.org/pdf/2410.20247
    • Wer gpt-x sowohl über OpenAI als auch über Microsoft genutzt hat, dürfte diesen Unterschied sehr deutlich gespürt haben.
  • Auch in unserer Organisation war die Bedrock-Bereitstellung ein zentraler Faktor dafür, die Nutzung von Anthropic voranzutreiben.
    Es sieht außerdem so aus, als ließe sich dort eine ordentliche Marge erzielen.
    Ich frage mich, ob das direkt mit der Entwicklung einer Entfremdung von Microsoft zusammenhängt.
    Schon in meinem Umfeld wird OpenAI bei ernsthaften Enterprise-Deployments fast vollständig ignoriert, weil das Angebot auf Azure nicht gut ist und es darüber hinaus keine besonders unternehmensfreundliche Alternative gibt.
    Es wirkt so, als habe OpenAI erkannt, dass es fatal wäre, den Enterprise-Markt weiter an die Kombination aus Anthropic und AWS zu verlieren, und bewege sich nun, um aufzuschließen.
  • Interessant ist hier der Weg über den Enterprise-Vertrieb.
    Regulierte Branchen wie Finanzwesen und Gesundheitswesen haben mit AWS oft bereits Verträge mit Zusagen zur Datenresidenz abgeschlossen.
    OpenAI auf Bedrock könnte für solche Organisationen ein viel größerer Durchbruch sein, als es auf dem Papier aussieht, weil sie keine DPA-Verhandlungen mehr separat mit OpenAI führen müssen.
  • Aus Compliance-Sicht ist das eine ziemlich willkommene Veränderung.
    Es gibt einen Unterauftragsverarbeiter weniger, und die Daten liegen ohnehin bereits bei AWS, sodass man sich weniger Sorgen machen muss, dass sie noch woanders hingeschickt werden.
  • Es sieht so aus, als würde OpenAI Anthropic dicht auf den Fersen sein.
  • Man kann OpenAI jetzt also über AWS kaufen, was auch bedeutet, dass ich wieder eine mit meinen Tools nicht vollständig kompatible Schnittstelle verwenden muss.
    Es sei denn, AWS hat endlich aufgegeben und Bedrock mit OpenAI-API-Kompatibilität brauchbarer gemacht.
  • Das kam schneller als erwartet.
    • Die eigentliche Vorbereitung hat sicher lange gedauert, aber der für die Öffentlichkeit sichtbare PR-Ablauf wirkt wie eine gut geölte Maschine.
      Schon allein, dass zu diesem HN-Post gleichzeitig vier Ankündigungslinks auftauchten, ist kein Zufall.
      Wenn das Falsche zum falschen Zeitpunkt gesagt wird, können Milliarden an Investitionen ins Wanken geraten, daher müssen Botschaften extrem sorgfältig ausgearbeitet und schrittweise veröffentlicht werden.
  • Es sieht so aus, als würde OpenAI letztlich in Richtung dumb pipe gehen.