18 Punkte von xguru 2025-10-07 | 1 Kommentare | Auf WhatsApp teilen

Neue App in ChatGPT und das Apps SDK

  • Es wurde eine Funktion vorgestellt, mit der sich interaktive Apps direkt in ChatGPT nutzen lassen.
  • Die neuen Apps sind so konzipiert, dass sie natürlich im Gesprächsfluss funktionieren und Nutzerinnen und Nutzern bei Bedarf automatisch vorgeschlagen werden.
    • Beispiel: „Spotify, erstelle mir eine Playlist für die Party dieses Wochenende“ → Die App wird automatisch ausgeführt und liefert kontextbasierte Ergebnisse.
    • Bei Gesprächen rund um Immobilien wird die Zillow-App vorgeschlagen und zeigt direkt eine Karte mit zum Budget passenden Objekten an.
    • Über Canva lassen sich im Gespräch erstellte Gliederungen in Folien umwandeln.
    • Während man einen Coursera-Kurs besucht, kann man ChatGPT um ergänzende Erklärungen bitten.
  • Apps bieten durch die Kombination aus natürlicher Sprache und visueller Oberfläche eine intuitivere Nutzung als herkömmliche Web-Apps.
  • Partner-Apps zum Start sind unter anderem Booking.com, Canva, Coursera, Figma, Expedia, Spotify, Zillow.
    • Noch in diesem Jahr sollen 11 weitere Apps hinzukommen: Doordash, Khan Academy, Instacart, Peloton, OpenTable, target, Uber, ...
  • Einreichung und Review-Prozess für Apps starten Ende des Jahres; anschließend ist die schrittweise Einführung auch für ChatGPT Business, Enterprise und Edu geplant.
  • Ein neues App-Verzeichnis ermöglicht das Durchsuchen und Suchen von Apps; Apps mit starkem Design und hoher Funktionalität werden innerhalb von Gesprächen empfohlen und prominent platziert.
  • Apps SDK

    • Entwickler können mit der Preview-Version des Apps SDK eigene Apps erstellen und testen.
    • Das SDK basiert auf einer erweiterten Struktur des Model Context Protocol (MCP) und ermöglicht die Definition sowohl der App-Logik als auch der Oberfläche.
    • Das SDK ist Open Source und kann dadurch auch auf Plattformen außerhalb von ChatGPT nach demselben Standard ausgeführt werden.
    • Entwickler können direkt bestehende Backends anbinden und Login sowie Zugriff auf Bezahlfunktionen unterstützen.
  • Noch in diesem Jahr sollen in ChatGPT ein Monetarisierungsmodell für Apps sowie Sofortzahlungen auf Basis des Agentic Commerce Protocol unterstützt werden.
  • Damit entwickelt sich ChatGPT über einen bloßen Gesprächsassistenten hinaus zu einer integrierten Plattform, die mit App-Ökosystemen interagiert.

AgentKit vorgestellt – vollständiges Toolset für Entwicklung, Bereitstellung und Optimierung von Agenten

  • AgentKit ist der Nachfolger von Responses API und Agents SDK und eine integrierte Plattform, die den Aufbau von Agenten vereinfacht und die Zuverlässigkeit erhöht.
  • Bislang mussten Connectoren, Evaluierungs-Pipelines, Prompt-Tuning und Frontend-Aufbau getrennt behandelt werden; nun lässt sich all das in einer Umgebung zentral verwalten.
  • Agent Builder – visuelles Werkzeug zur Workflow-Gestaltung

    • Der Agent Builder bietet eine visuelle Canvas per Drag-and-drop, auf der sich Agentenlogik aufbauen und versionieren lässt.
    • Preview-Ausführung, Inline-Evaluierungen und benutzerdefinierte Guardrails sind auf schnelle iterative Entwicklung ausgelegt.
    • Ramp erklärte, dass mit diesem Tool komplexe Orchestrierungen, die zuvor Monate dauerten, innerhalb weniger Stunden fertiggestellt wurden und sich der Entwicklungszyklus um 70 % verkürzt habe.
    • Auch Japans LY Corporation hat innerhalb von 2 Stunden ihren ersten Multi-Agent-Workflow aufgebaut.
    • Guardrails – Schutz für sichere Agenten

      • Guardrails sind eine Open-Source-Sicherheitsschicht mit Funktionen für PII-Masking, Jailbreak-Erkennung und das Blockieren anomaler Antworten.
      • Über die Guardrails-Bibliotheken für Python und JavaScript lassen sie sich eigenständig oder integriert im Agent Builder nutzen.
  • Connector Registry – zentrales Management für Datenintegration

    • Die Connector Registry ist ein zentrales Verwaltungs-Panel, das Datenverbindungen über mehrere Workspaces und Organisationen hinweg verwaltet.
    • Unterstützt werden Standard-Connectoren wie Dropbox, Google Drive, SharePoint, Microsoft Teams sowie MCPs von Drittanbietern.
    • Administratoren können über die Global Admin Console Domains, SSO und API-Organisationen zentral verwalten; dies ist Voraussetzung für die Aktivierung der Connector Registry.
  • ChatKit – Toolkit mit eingebauter Conversational UI

    • ChatKit ist ein Toolkit, mit dem sich eine Chat-UI für Agenten einfach in Produkte einbetten lässt.
    • Streaming-Antworten, Verwaltung von Gesprächs-Threads und die Anzeige des Modell-Denkprozesses werden automatisch unterstützt.
    • Es kann direkt in Web oder App eingebunden und per Theme-Anpassung auf das eigene Branding abgestimmt werden.
    • Es wird bereits für Szenarien wie den Kundensupport-Agenten von HubSpot sowie verschiedene Wissensassistenten, Onboarding-Guides und Research-Helfer genutzt.
  • Evals – erweiterte Funktionen zur Leistungsmessung

    • Für den Aufbau zuverlässiger Agenten wurden Evals um vier neue Funktionen erweitert.
      • Datasets: Evaluierungs-Sets lassen sich mit automatischen Bewertungsmechanismen und menschlicher Annotation schnell aufbauen und erweitern.
      • Trace grading: Führt eine Bewertung des gesamten Workflow-Laufs durch und erkennt Schwachstellen automatisch.
      • Automated prompt optimization: Automatische Verbesserung von Prompts auf Basis der Evaluierungsergebnisse.
      • Third-party model support: Unterstützung, damit auch externe Modelle evaluiert werden können.
  • Verstärktes Fine-Tuning (Reinforcement Fine-Tuning)

    • RFT ermöglicht Entwicklerinnen und Entwicklern, OpenAI-Reasoning-Modelle für bestimmte Zwecke anzupassen.
    • Es ist für o4-mini allgemein verfügbar, während RFT für GPT-5 sich im Private Beta befindet und bereits von Dutzenden Unternehmen getestet wird.
    • Neue Beta-Funktionen
      • Custom tool calls: Training des Modells, damit es geeignete Tools zum passenden Zeitpunkt aufruft.
      • Custom graders: Definition maßgeschneiderter Bewertungskriterien für spezifische Anwendungsfälle.
  • ChatKit und Evals sind ab heute allgemein für alle Entwickler verfügbar. Agent Builder und Connector Registry werden schrittweise als Beta bereitgestellt und sind im Standard-API-Preismodell enthalten.
    • Bald sollen außerdem Workflows API und Optionen zur Bereitstellung von Agenten in ChatGPT hinzukommen.

Codex offiziell verfügbar – Ausbau des integrierten Code-Agenten für Entwicklungsteams

  • OpenAI hat die allgemeine Verfügbarkeit der Cloud-basierten Code-Agenten-Plattform Codex angekündigt und drei Kernfunktionen ergänzt: Slack-Integration, Codex SDK und Admin-Tools.
  • Codex läuft integriert über IDE, CLI und Cloud auf Basis des Modells GPT-5-Codex.
    • Seit dem Start ist die tägliche Nutzung im Vergleich zu August um das 10-Fache gestiegen; in drei Wochen wurden 40 Billionen Tokens verarbeitet, womit Codex als eines der am schnellsten wachsenden Modelle gilt.
  • Auch intern bei OpenAI nutzen mehr als 70 % der Ingenieurinnen und Ingenieure Codex; die Zahl der wöchentlich gemergten PRs sei dadurch um 70 % gestiegen, und den Großteil der Code-Reviews übernimmt Codex automatisch.
  • Slack-Integration

    • Wenn man in einem Team-Kanal @Codex erwähnt, sammelt Codex automatisch den Gesprächskontext und wählt die passende Umgebung für eine Antwort.
    • Ergebnisse werden über Codex-Cloud-Links bereitgestellt, über die sich Änderungen mergen, iterativ überarbeiten oder lokal herunterladen lassen.
    • Die Slack-Integration ermöglicht in kollaborativen Entwicklungsumgebungen auf natürliche Weise Code-Reviews, automatische Korrekturen und das Anstoßen von Build-Ausführungen.
  • Codex SDK

    • Das Codex SDK ist ein Entwicklungskit, mit dem sich die Open-Source-Agentenimplementierung der Codex CLI auch in externen Anwendungen identisch nutzen lässt.
    • Das SDK ist zunächst für TypeScript verfügbar; weitere Sprachen sollen folgen.
    • Zentrale Funktionen
      • Parsen von Agentenantworten mit strukturierten Ausgaben
      • Eingebaute Kontextverwaltung zum Fortsetzen von Sitzungen
      • Unterstützung für die Automatisierung von CI/CD-Pipelines über GitHub-Action-Integration
      • In Shell-Umgebungen direkte Ausführung per Befehl codex exec
    • Instacart hat das SDK in die eigene Plattform Olive integriert und damit eine End-to-End-automatisierte Entwicklungsumgebung aufgebaut; bestätigt wurden Effekte wie geringere technische Schulden und bessere Codequalität.
  • Ausbau der Admin-Funktionen

    • Mit Funktionen für Umgebungskontrolle und Löschung lassen sich sensible Daten verwalten und unnötige Umgebungen bereinigen.
    • Es gibt ein Dashboard zur Analyse von Codex-Nutzung und Qualität der Code-Reviews über CLI, IDE und Web hinweg.
    • Administratoren können lokale Nutzungsrichtlinien und Einstellungen für Codex zentral steuern, was es für große Organisationen geeignet macht.
    • Cisco konnte mit Codex die Zeit für komplexe PR-Reviews um bis zu 50 % reduzieren, sodass sich Ingenieurinnen und Ingenieure stärker auf strategische Arbeit konzentrieren können.
  • Slack-Integration und Codex SDK sind ab sofort in den ChatGPT-Plänen Plus, Pro, Business, Edu und Enterprise verfügbar.
  • Ab dem 20. Oktober wird das Arbeitsvolumen von Codex Cloud in die Nutzungsberechnung einbezogen.
    • Plus-Plan: In 5 Stunden etwa 30 bis 150 lokale Nachrichten oder 5 bis 40 Cloud-Tasks
    • Pro-Plan: In 5 Stunden etwa 300 bis 1.500 lokale Nachrichten oder 50 bis 400 Cloud-Tasks
    • Bei Überschreitung des Limits wird die Codex-Nutzung vorübergehend pausiert und nach Zurücksetzen des Kontingents wieder freigegeben.
    • Code Review wird vorübergehend nicht in die Nutzung eingerechnet.
      • Nur wenn auf GitHub das Tag @codex review verwendet oder die Auto-Review-Funktion aktiviert wird, wird die Code-Review-Nutzung erfasst.

Video-Generierungs-API auf Basis von Sora vorgestellt

  • Sora ist OpenAIs nächste Generation generativer Medienmodelle und erzeugt realistische, dynamische Videos mit Audio.
  • Es wurde auf Basis von Forschung zu multimodaler Diffusion (multi-modal diffusion) entwickelt und lernt 3D-Raumverständnis, Kamerabewegung und Konsistenz physischer Bewegungen.
  • Entwickler können damit Inhalte automatisch als Text-zu-Video oder Bild-zu-Video erzeugen.
  • Die neue Video API besteht aus folgenden fünf zentralen Funktions-Endpunkten:
    • Create video: Erstellt einen neuen Rendering-Job auf Basis eines Text-Prompts oder vorhandenen Videos.
    • Get video status: Prüft den Fortschritt des Renderings.
    • Download video: Lädt ein fertiggestelltes MP4-Video herunter.
    • List videos: Verwaltet die Liste erzeugter Videos und unterstützt Paging.
    • Delete videos: Löscht bestimmte Videos aus dem Speicher.
  • Über die API lassen sich Videoerzeugung, Verwaltung, Erweiterung und Remixing programmatisch automatisieren.
  • Modelltypen

    • Sora 2 – für schnelle Iteration und Experimente

      • Ein Modell mit Fokus auf Geschwindigkeit und Flexibilität, geeignet für Konzepttests und die Erstellung von Rough Cuts.
      • Durch schnelle Ergebnisse eignet es sich für Social-Media-Inhalte oder Prototyp-Videos.
      • Der Schwerpunkt liegt stärker auf Ideenfindung und visueller Richtungsprüfung als auf perfekter Qualität.
    • Sora 2 Pro – für hochwertige Produktionen

      • Ein Modell, das auf cinematische Qualität ausgelegt ist.
      • Das Rendering ist langsamer und teurer, dafür werden Stabilität und Detailgrad des Videos deutlich verbessert.
      • Geeignet für hochauflösende Marketingvideos, Brand-Assets und Szenen im Filmstil.

GPT-5 Pro per API verfügbar

  • GPT-5 Pro ist OpenAIs leistungsstärkstes Reasoning-Modell und nutzt mehr Rechenaufwand, um ausgefeiltere und präzisere Antworten zu erzeugen.
  • Es ist langsamer als das normale GPT-5, bietet dafür aber starke Fähigkeiten bei der Lösung komplexer Probleme und eine konsistente Qualität.
  • Es ist ein exklusives Modell für die Responses API, unterstützt mehrturnige dialogorientierte Anfragen und erweiterte API-Funktionen und unterstützt nur den Modus reasoning.effort: high.
  • Code Interpreter und Echtzeit-Streaming werden nicht unterstützt.
  • Komplexe Anfragen können mehrere Minuten Verarbeitungszeit benötigen; bei langen Laufzeiten wird die Nutzung des Background Mode empfohlen.
  • Kontextfenster 400.000 Tokens, maximale Ausgabe 272.000 Tokens, Knowledge Cutoff 30. September 2024
  • Preise (Pricing): pro 1 Million Tokens
    • Eingabe (Input): $15.00 (einschließlich Bildeingabe)
    • Ausgabe (Output): $120.00

GPT Realtime Mini-Modell für günstige Sprachdienste

  • GPT-Realtime-Mini ist eine kostengünstige und schnelle Version des Echtzeit-Gesprächsmodells, unterstützt Text-, Bild- und Audioeingaben und erzeugt Text- und Audioausgaben.
  • Über WebRTC-, WebSocket- und SIP-Verbindungen sind Sprach- und Textreaktionen in Echtzeit möglich, bei mehr als 6-mal niedrigeren Kosten als gpt-realtime.
  • Kontextfenster 32.000 Tokens, maximale Ausgabe 4.096 Tokens, Knowledge Cutoff 1. Oktober 2023
  • Preise (Pricing): pro 1 Million Tokens
    • Text-Tokens
      • Eingabe (Input): $0.60
      • Zwischengespeicherte Eingabe (Cached input): $0.06
      • Ausgabe (Output): $2.40
      • Vergleich mit bestehenden Modellen
        • Eingabe: gpt-realtime: $4, GPT-5: $1.25, gpt-realtime-mini: $0.60 (am günstigsten)
        • Ausgabe: gpt-realtime: $16, GPT-5: $10, gpt-realtime-mini: $2.4 (am günstigsten)
    • Audio-Tokens
      • Eingabe (Input): $10
      • Zwischengespeicherte Eingabe (Cached input): $0.3
      • Ausgabe: $20
    • Bild-Tokens
      • Eingabe: $0.8
      • Zwischengespeicherte Eingabe: $0.08

GPT Image 1 Mini-Modell

  • GPT-Image-1-Mini ist eine kostengünstige Version von GPT Image 1 und ein multimodales Modell, das Text und Bilder als Eingabe entgegennimmt und Bilder als Ausgabe erzeugt.
  • Der Fokus liegt eher auf Effizienz und niedrigen Kosten als auf höchster Qualität, wodurch es sich für großvolumige Bildgenerierung und visuelles Prototyping eignet.
  • Text- und Bildeingaben werden unterstützt, die Ausgabe ist ausschließlich Bild.
  • Die Geschwindigkeit ist langsamer, dafür ist die Kosten-Nutzen-Effizienz hoch.
  • Preise (Pricing): pro 1 Million Tokens
    • Text-Tokens
      • Eingabe (Input): $2.00
      • Zwischengespeicherte Eingabe (Cached input): $0.20
      • Ausgabe (Output): $8.00
      • Vergleich mit bestehenden Modellen
        • Eingabe: GPT Image 1: $5.00, GPT Image 1 Mini: $2.00 (ca. 60 % günstiger)
        • Ausgabe: GPT Image 1: $20.00, GPT Image 1 Mini: $8.00 (ca. 60 % günstiger)
    • Bild-Tokens
      • Eingabe (Input): $2.50
      • Zwischengespeicherte Eingabe (Cached input): $0.25
      • Ausgabe (Output): $8.00
    • Bilderzeugung (pro 1 Bild)
      • Niedrige Qualität
        • 1024×1024: $0.005
        • 1024×1536: $0.006
        • 1536×1024: $0.006
      • Mittlere Qualität
        • 1024×1024: $0.011
        • 1024×1536: $0.015
        • 1536×1024: $0.015

1 Kommentare

 
laeyoung 2025-10-08

Auf Hacker News ist es ebenfalls ruhiger als erwartet. Vielleicht liegt es daran, dass sie immer wieder nur nach und nach etwas ankündigen und veröffentlichen.