Neue App in ChatGPT und das Apps SDK
- Es wurde eine Funktion vorgestellt, mit der sich interaktive Apps direkt in ChatGPT nutzen lassen.
- Die neuen Apps sind so konzipiert, dass sie natürlich im Gesprächsfluss funktionieren und Nutzerinnen und Nutzern bei Bedarf automatisch vorgeschlagen werden.
- Beispiel: „Spotify, erstelle mir eine Playlist für die Party dieses Wochenende“ → Die App wird automatisch ausgeführt und liefert kontextbasierte Ergebnisse.
- Bei Gesprächen rund um Immobilien wird die Zillow-App vorgeschlagen und zeigt direkt eine Karte mit zum Budget passenden Objekten an.
- Über Canva lassen sich im Gespräch erstellte Gliederungen in Folien umwandeln.
- Während man einen Coursera-Kurs besucht, kann man ChatGPT um ergänzende Erklärungen bitten.
- Apps bieten durch die Kombination aus natürlicher Sprache und visueller Oberfläche eine intuitivere Nutzung als herkömmliche Web-Apps.
- Partner-Apps zum Start sind unter anderem Booking.com, Canva, Coursera, Figma, Expedia, Spotify, Zillow.
- Noch in diesem Jahr sollen 11 weitere Apps hinzukommen: Doordash, Khan Academy, Instacart, Peloton, OpenTable, target, Uber, ...
- Einreichung und Review-Prozess für Apps starten Ende des Jahres; anschließend ist die schrittweise Einführung auch für ChatGPT Business, Enterprise und Edu geplant.
- Ein neues App-Verzeichnis ermöglicht das Durchsuchen und Suchen von Apps; Apps mit starkem Design und hoher Funktionalität werden innerhalb von Gesprächen empfohlen und prominent platziert.
-
Apps SDK
- Entwickler können mit der Preview-Version des Apps SDK eigene Apps erstellen und testen.
- Das SDK basiert auf einer erweiterten Struktur des Model Context Protocol (MCP) und ermöglicht die Definition sowohl der App-Logik als auch der Oberfläche.
- Das SDK ist Open Source und kann dadurch auch auf Plattformen außerhalb von ChatGPT nach demselben Standard ausgeführt werden.
- Entwickler können direkt bestehende Backends anbinden und Login sowie Zugriff auf Bezahlfunktionen unterstützen.
- Noch in diesem Jahr sollen in ChatGPT ein Monetarisierungsmodell für Apps sowie Sofortzahlungen auf Basis des Agentic Commerce Protocol unterstützt werden.
- Damit entwickelt sich ChatGPT über einen bloßen Gesprächsassistenten hinaus zu einer integrierten Plattform, die mit App-Ökosystemen interagiert.
AgentKit vorgestellt – vollständiges Toolset für Entwicklung, Bereitstellung und Optimierung von Agenten
- AgentKit ist der Nachfolger von Responses API und Agents SDK und eine integrierte Plattform, die den Aufbau von Agenten vereinfacht und die Zuverlässigkeit erhöht.
- Bislang mussten Connectoren, Evaluierungs-Pipelines, Prompt-Tuning und Frontend-Aufbau getrennt behandelt werden; nun lässt sich all das in einer Umgebung zentral verwalten.
-
Agent Builder – visuelles Werkzeug zur Workflow-Gestaltung
- Der Agent Builder bietet eine visuelle Canvas per Drag-and-drop, auf der sich Agentenlogik aufbauen und versionieren lässt.
- Preview-Ausführung, Inline-Evaluierungen und benutzerdefinierte Guardrails sind auf schnelle iterative Entwicklung ausgelegt.
- Ramp erklärte, dass mit diesem Tool komplexe Orchestrierungen, die zuvor Monate dauerten, innerhalb weniger Stunden fertiggestellt wurden und sich der Entwicklungszyklus um 70 % verkürzt habe.
- Auch Japans LY Corporation hat innerhalb von 2 Stunden ihren ersten Multi-Agent-Workflow aufgebaut.
-
Guardrails – Schutz für sichere Agenten
- Guardrails sind eine Open-Source-Sicherheitsschicht mit Funktionen für PII-Masking, Jailbreak-Erkennung und das Blockieren anomaler Antworten.
- Über die Guardrails-Bibliotheken für Python und JavaScript lassen sie sich eigenständig oder integriert im Agent Builder nutzen.
-
Connector Registry – zentrales Management für Datenintegration
- Die Connector Registry ist ein zentrales Verwaltungs-Panel, das Datenverbindungen über mehrere Workspaces und Organisationen hinweg verwaltet.
- Unterstützt werden Standard-Connectoren wie Dropbox, Google Drive, SharePoint, Microsoft Teams sowie MCPs von Drittanbietern.
- Administratoren können über die Global Admin Console Domains, SSO und API-Organisationen zentral verwalten; dies ist Voraussetzung für die Aktivierung der Connector Registry.
-
ChatKit – Toolkit mit eingebauter Conversational UI
- ChatKit ist ein Toolkit, mit dem sich eine Chat-UI für Agenten einfach in Produkte einbetten lässt.
- Streaming-Antworten, Verwaltung von Gesprächs-Threads und die Anzeige des Modell-Denkprozesses werden automatisch unterstützt.
- Es kann direkt in Web oder App eingebunden und per Theme-Anpassung auf das eigene Branding abgestimmt werden.
- Es wird bereits für Szenarien wie den Kundensupport-Agenten von HubSpot sowie verschiedene Wissensassistenten, Onboarding-Guides und Research-Helfer genutzt.
-
Evals – erweiterte Funktionen zur Leistungsmessung
- Für den Aufbau zuverlässiger Agenten wurden Evals um vier neue Funktionen erweitert.
- Datasets: Evaluierungs-Sets lassen sich mit automatischen Bewertungsmechanismen und menschlicher Annotation schnell aufbauen und erweitern.
- Trace grading: Führt eine Bewertung des gesamten Workflow-Laufs durch und erkennt Schwachstellen automatisch.
- Automated prompt optimization: Automatische Verbesserung von Prompts auf Basis der Evaluierungsergebnisse.
- Third-party model support: Unterstützung, damit auch externe Modelle evaluiert werden können.
-
Verstärktes Fine-Tuning (Reinforcement Fine-Tuning)
- RFT ermöglicht Entwicklerinnen und Entwicklern, OpenAI-Reasoning-Modelle für bestimmte Zwecke anzupassen.
- Es ist für o4-mini allgemein verfügbar, während RFT für GPT-5 sich im Private Beta befindet und bereits von Dutzenden Unternehmen getestet wird.
- Neue Beta-Funktionen
- Custom tool calls: Training des Modells, damit es geeignete Tools zum passenden Zeitpunkt aufruft.
- Custom graders: Definition maßgeschneiderter Bewertungskriterien für spezifische Anwendungsfälle.
- ChatKit und Evals sind ab heute allgemein für alle Entwickler verfügbar. Agent Builder und Connector Registry werden schrittweise als Beta bereitgestellt und sind im Standard-API-Preismodell enthalten.
- Bald sollen außerdem Workflows API und Optionen zur Bereitstellung von Agenten in ChatGPT hinzukommen.
Codex offiziell verfügbar – Ausbau des integrierten Code-Agenten für Entwicklungsteams
- OpenAI hat die allgemeine Verfügbarkeit der Cloud-basierten Code-Agenten-Plattform Codex angekündigt und drei Kernfunktionen ergänzt: Slack-Integration, Codex SDK und Admin-Tools.
- Codex läuft integriert über IDE, CLI und Cloud auf Basis des Modells GPT-5-Codex.
- Seit dem Start ist die tägliche Nutzung im Vergleich zu August um das 10-Fache gestiegen; in drei Wochen wurden 40 Billionen Tokens verarbeitet, womit Codex als eines der am schnellsten wachsenden Modelle gilt.
- Auch intern bei OpenAI nutzen mehr als 70 % der Ingenieurinnen und Ingenieure Codex; die Zahl der wöchentlich gemergten PRs sei dadurch um 70 % gestiegen, und den Großteil der Code-Reviews übernimmt Codex automatisch.
-
Slack-Integration
- Wenn man in einem Team-Kanal
@Codex erwähnt, sammelt Codex automatisch den Gesprächskontext und wählt die passende Umgebung für eine Antwort.
- Ergebnisse werden über Codex-Cloud-Links bereitgestellt, über die sich Änderungen mergen, iterativ überarbeiten oder lokal herunterladen lassen.
- Die Slack-Integration ermöglicht in kollaborativen Entwicklungsumgebungen auf natürliche Weise Code-Reviews, automatische Korrekturen und das Anstoßen von Build-Ausführungen.
-
Codex SDK
- Das Codex SDK ist ein Entwicklungskit, mit dem sich die Open-Source-Agentenimplementierung der Codex CLI auch in externen Anwendungen identisch nutzen lässt.
- Das SDK ist zunächst für TypeScript verfügbar; weitere Sprachen sollen folgen.
- Zentrale Funktionen
- Parsen von Agentenantworten mit strukturierten Ausgaben
- Eingebaute Kontextverwaltung zum Fortsetzen von Sitzungen
- Unterstützung für die Automatisierung von CI/CD-Pipelines über GitHub-Action-Integration
- In Shell-Umgebungen direkte Ausführung per Befehl
codex exec
- Instacart hat das SDK in die eigene Plattform Olive integriert und damit eine End-to-End-automatisierte Entwicklungsumgebung aufgebaut; bestätigt wurden Effekte wie geringere technische Schulden und bessere Codequalität.
-
Ausbau der Admin-Funktionen
- Mit Funktionen für Umgebungskontrolle und Löschung lassen sich sensible Daten verwalten und unnötige Umgebungen bereinigen.
- Es gibt ein Dashboard zur Analyse von Codex-Nutzung und Qualität der Code-Reviews über CLI, IDE und Web hinweg.
- Administratoren können lokale Nutzungsrichtlinien und Einstellungen für Codex zentral steuern, was es für große Organisationen geeignet macht.
- Cisco konnte mit Codex die Zeit für komplexe PR-Reviews um bis zu 50 % reduzieren, sodass sich Ingenieurinnen und Ingenieure stärker auf strategische Arbeit konzentrieren können.
- Slack-Integration und Codex SDK sind ab sofort in den ChatGPT-Plänen Plus, Pro, Business, Edu und Enterprise verfügbar.
- Ab dem 20. Oktober wird das Arbeitsvolumen von Codex Cloud in die Nutzungsberechnung einbezogen.
- Plus-Plan: In 5 Stunden etwa 30 bis 150 lokale Nachrichten oder 5 bis 40 Cloud-Tasks
- Pro-Plan: In 5 Stunden etwa 300 bis 1.500 lokale Nachrichten oder 50 bis 400 Cloud-Tasks
- Bei Überschreitung des Limits wird die Codex-Nutzung vorübergehend pausiert und nach Zurücksetzen des Kontingents wieder freigegeben.
- Code Review wird vorübergehend nicht in die Nutzung eingerechnet.
- Nur wenn auf GitHub das Tag
@codex review verwendet oder die Auto-Review-Funktion aktiviert wird, wird die Code-Review-Nutzung erfasst.
Video-Generierungs-API auf Basis von Sora vorgestellt
- Sora ist OpenAIs nächste Generation generativer Medienmodelle und erzeugt realistische, dynamische Videos mit Audio.
- Es wurde auf Basis von Forschung zu multimodaler Diffusion (multi-modal diffusion) entwickelt und lernt 3D-Raumverständnis, Kamerabewegung und Konsistenz physischer Bewegungen.
- Entwickler können damit Inhalte automatisch als Text-zu-Video oder Bild-zu-Video erzeugen.
- Die neue Video API besteht aus folgenden fünf zentralen Funktions-Endpunkten:
- Create video: Erstellt einen neuen Rendering-Job auf Basis eines Text-Prompts oder vorhandenen Videos.
- Get video status: Prüft den Fortschritt des Renderings.
- Download video: Lädt ein fertiggestelltes MP4-Video herunter.
- List videos: Verwaltet die Liste erzeugter Videos und unterstützt Paging.
- Delete videos: Löscht bestimmte Videos aus dem Speicher.
- Über die API lassen sich Videoerzeugung, Verwaltung, Erweiterung und Remixing programmatisch automatisieren.
-
Modelltypen
-
Sora 2 – für schnelle Iteration und Experimente
- Ein Modell mit Fokus auf Geschwindigkeit und Flexibilität, geeignet für Konzepttests und die Erstellung von Rough Cuts.
- Durch schnelle Ergebnisse eignet es sich für Social-Media-Inhalte oder Prototyp-Videos.
- Der Schwerpunkt liegt stärker auf Ideenfindung und visueller Richtungsprüfung als auf perfekter Qualität.
-
Sora 2 Pro – für hochwertige Produktionen
- Ein Modell, das auf cinematische Qualität ausgelegt ist.
- Das Rendering ist langsamer und teurer, dafür werden Stabilität und Detailgrad des Videos deutlich verbessert.
- Geeignet für hochauflösende Marketingvideos, Brand-Assets und Szenen im Filmstil.
GPT-5 Pro per API verfügbar
- GPT-5 Pro ist OpenAIs leistungsstärkstes Reasoning-Modell und nutzt mehr Rechenaufwand, um ausgefeiltere und präzisere Antworten zu erzeugen.
- Es ist langsamer als das normale GPT-5, bietet dafür aber starke Fähigkeiten bei der Lösung komplexer Probleme und eine konsistente Qualität.
- Es ist ein exklusives Modell für die Responses API, unterstützt mehrturnige dialogorientierte Anfragen und erweiterte API-Funktionen und unterstützt nur den Modus
reasoning.effort: high.
- Code Interpreter und Echtzeit-Streaming werden nicht unterstützt.
- Komplexe Anfragen können mehrere Minuten Verarbeitungszeit benötigen; bei langen Laufzeiten wird die Nutzung des Background Mode empfohlen.
- Kontextfenster 400.000 Tokens, maximale Ausgabe 272.000 Tokens, Knowledge Cutoff 30. September 2024
- Preise (Pricing): pro 1 Million Tokens
- Eingabe (Input): $15.00 (einschließlich Bildeingabe)
- Ausgabe (Output): $120.00
GPT Realtime Mini-Modell für günstige Sprachdienste
- GPT-Realtime-Mini ist eine kostengünstige und schnelle Version des Echtzeit-Gesprächsmodells, unterstützt Text-, Bild- und Audioeingaben und erzeugt Text- und Audioausgaben.
- Über WebRTC-, WebSocket- und SIP-Verbindungen sind Sprach- und Textreaktionen in Echtzeit möglich, bei mehr als 6-mal niedrigeren Kosten als gpt-realtime.
- Kontextfenster 32.000 Tokens, maximale Ausgabe 4.096 Tokens, Knowledge Cutoff 1. Oktober 2023
- Preise (Pricing): pro 1 Million Tokens
- Text-Tokens
- Eingabe (Input): $0.60
- Zwischengespeicherte Eingabe (Cached input): $0.06
- Ausgabe (Output): $2.40
- Vergleich mit bestehenden Modellen
- Eingabe: gpt-realtime: $4, GPT-5: $1.25, gpt-realtime-mini: $0.60 (am günstigsten)
- Ausgabe: gpt-realtime: $16, GPT-5: $10, gpt-realtime-mini: $2.4 (am günstigsten)
- Audio-Tokens
- Eingabe (Input): $10
- Zwischengespeicherte Eingabe (Cached input): $0.3
- Ausgabe: $20
- Bild-Tokens
- Eingabe: $0.8
- Zwischengespeicherte Eingabe: $0.08
GPT Image 1 Mini-Modell
- GPT-Image-1-Mini ist eine kostengünstige Version von GPT Image 1 und ein multimodales Modell, das Text und Bilder als Eingabe entgegennimmt und Bilder als Ausgabe erzeugt.
- Der Fokus liegt eher auf Effizienz und niedrigen Kosten als auf höchster Qualität, wodurch es sich für großvolumige Bildgenerierung und visuelles Prototyping eignet.
- Text- und Bildeingaben werden unterstützt, die Ausgabe ist ausschließlich Bild.
- Die Geschwindigkeit ist langsamer, dafür ist die Kosten-Nutzen-Effizienz hoch.
- Preise (Pricing): pro 1 Million Tokens
- Text-Tokens
- Eingabe (Input): $2.00
- Zwischengespeicherte Eingabe (Cached input): $0.20
- Ausgabe (Output): $8.00
- Vergleich mit bestehenden Modellen
- Eingabe: GPT Image 1: $5.00, GPT Image 1 Mini: $2.00 (ca. 60 % günstiger)
- Ausgabe: GPT Image 1: $20.00, GPT Image 1 Mini: $8.00 (ca. 60 % günstiger)
- Bild-Tokens
- Eingabe (Input): $2.50
- Zwischengespeicherte Eingabe (Cached input): $0.25
- Ausgabe (Output): $8.00
- Bilderzeugung (pro 1 Bild)
- Niedrige Qualität
- 1024×1024: $0.005
- 1024×1536: $0.006
- 1536×1024: $0.006
- Mittlere Qualität
- 1024×1024: $0.011
- 1024×1536: $0.015
- 1536×1024: $0.015
1 Kommentare
Auf Hacker News ist es ebenfalls ruhiger als erwartet. Vielleicht liegt es daran, dass sie immer wieder nur nach und nach etwas ankündigen und veröffentlichen.