Wichtige Ankündigungen
- Realtime API, mit der sich Funktionen ähnlich dem erweiterten Sprachmodus von ChatGPT umsetzen lassen
- Das Rate Limit des o1-Modells wurde auf das Niveau von GPT-4o angehoben (10.000 Aufrufe pro Minute)
- Preissenkung für die GPT-4o-API durch automatisches Prompt-Caching. Bei wiederholten Aufrufen 50 % günstiger, ohne zusätzliche Entwicklung
- Multimodale Fine-Tuning-API
- Die Zahl der auf der OpenAI-Plattform aktiven Apps hat sich von letztem bis zu diesem Jahr verdreifacht, und die Zahl aktiver Entwickler liegt bei 3 Millionen
Überblick über das o1-Modell
- OpenAI hat mit o1 ein neues Reasoning-Modell veröffentlicht
- o1 wird als neue Modellfamilie eingeordnet, die sich von dem bisherigen GPT-4o unterscheidet
- OpenAI geht davon aus, dass die Entwicklung mehrerer Modelle für unterschiedliche Anwendungsfälle der Weg der Zukunft ist
- o1 eignet sich wegen seiner starken Fähigkeit zum Denken in Chain-of-Thought-Form besonders für Programmieraufgaben, ist jedoch langsam und teuer
- Da die meisten Prompts die fortgeschrittenen Reasoning-Fähigkeiten von o1 nicht benötigen, wird o1 nicht das Standardmodell werden
- Romain Huet, Leiter der Developer Relations bei OpenAI, zeigte mit o1 eine Demo, in der mit einem einzigen Prompt in 30 Sekunden eine iPhone-App von Anfang bis Ende erstellt wurde
- Außerdem brachte er eine Drohne auf die Bühne, erstellte eine Web-App und demonstrierte vor dem Publikum die Steuerung der Drohne
- Solche Demos wären zwar auch mit früheren GPT-Modellen möglich gewesen, mit o1 lassen sie sich jedoch deutlich schneller umsetzen
- o1 zeigt eine Zukunft, in der der Weg von der Idee zur App in 1 bis 2 Minuten möglich ist
Sprachbasierte Echtzeit-API
- Die beeindruckendste von OpenAI veröffentlichte Funktion ist die Realtime API, mit der Entwickler Funktionen ähnlich dem erweiterten Sprachmodus von ChatGPT in ihre Apps integrieren können
- Entwickler können aufgezeichnetes Audio an die OpenAI-Server senden und in Echtzeit aufgezeichnete Antworten, Transkripte und Function Calls erhalten
- Die Realtime API startet ab heute als öffentliche Beta und soll künftig auch weitere Modalitäten wie Video unterstützen
- Die Realtime API kostet 0,06 US-Dollar pro Minute für Audioeingabe und 0,24 US-Dollar pro Minute für Audioausgabe, insgesamt also 0,15 US-Dollar (unter der Annahme gleicher Audio-Ein- und Ausgabe)
- Damit ist sie teurer als der Speech-to-Speech-Service von ElevenLabs mit rund 0,11 US-Dollar pro Minute, dort zahlt man jedoch nicht nutzungsbasiert, sondern muss jeden Monat ein festes Zeitkontingent kaufen
- Echtzeit-Sprache eröffnet viele neue Anwendungsfälle, etwa bessere Lesehilfen oder immersiveren Sprachunterricht
Fine-Tuning-Tools
- OpenAI nimmt die Idee ernst, dass die Nutzung mehrerer Modelle besser ist als die Verwendung eines einzigen großen Modells
- Unternehmen werden dabei unterstützt, maßgeschneiderte Versionen von GPT-4o für ihre eigenen Anwendungsfälle zu erstellen
- OpenAI zeichnet die Zukunft, in der jedes Unternehmen über feinabgestimmte Modelle verfügt, die auf die eigenen Daten zugreifen können
API für Bild-Fine-Tuning
- Jeder kann GPT-4o mit eigenen Bilddaten feinabstimmen
- Wenn man zum Beispiel im medizinischen Bereich arbeitet und die Fähigkeit von GPT-4o feinabstimmen möchte, MRTs zu lesen und zu beschriften, kann man diese API nutzen
Tools zur Model Distillation
- OpenAI hat zwei Tools veröffentlicht, um Model Distillation zu verbessern, also den Prozess, kleinere, schnellere und günstigere Versionen von Foundation-Modellen für bestimmte Anwendungsfälle zu erstellen
- Im Developer Playground wurde eine Funktion hinzugefügt, mit der frühere API-Interaktionen aufgezeichnet und als Daten für das Fine-Tuning genutzt werden können, was die Distillation erleichtert
- Außerdem wurde dem Playground das Tool Evals hinzugefügt, damit Entwickler die Leistung feinabgestimmter Modelle bewerten können
50 % geringere Kosten für wiederholte API-Aufrufe durch Prompt-Caching
- OpenAI hat eine neue Funktion für Prompt-Caching veröffentlicht, die wiederholte API-Aufrufe erkennt und zuvor generierte Antworten zurückgibt
- Diese Funktion arbeitet ab heute automatisch und kann die Kosten vieler API-Aufrufe ohne zusätzlichen Aufwand für Entwickler um 50 % senken
- Die Funktion setzt den Trend fort, dass OpenAI im Wettbewerb die Kosten für die API-Nutzung immer weiter senkt
- Für Entwickler sind das gute Nachrichten, zugleich entsteht dadurch eine interessante Dynamik mit Microsoft, dem größten Partner von OpenAI
- Microsoft hat große Unternehmen dazu gedrängt, GPT-4-API-Aufrufe vorab in bestimmtem Umfang zu kaufen, um sich Kapazitäten zu sichern
- Man fragt sich, wie Microsoft und Kunden mit bestehenden Kaufzusagen auf diese Preissenkungen reagieren werden
Die Strategie von OpenAI
1. Fokus auf die Entwicklung mehrerer Modelle für unterschiedliche Anwendungsfälle
- OpenAI glaubt, dass die effektivsten Anwendungen nicht alles mit einem einzigen Modell erledigen, sondern mehrere Modelle gemeinsam nutzen
- Entwickler können Modelle mit starken Reasoning-Fähigkeiten wie o1 zusammen mit Modellen wie GPT-4o verwenden, die bei langen Kontexten oder der Verarbeitung von Bild-Prompts stark sind, um Nutzern ein konsistentes Erlebnis zu bieten
2. o1 ist ein wichtiger Schritt hin zu autonom arbeitenden Agenten
- Agenten gehören seit Langem zu den attraktivsten AI-Anwendungen, doch frühere GPT-Modelle funktionierten oft nicht zuverlässig, wenn sie Aufgaben eigenständig lösen sollten
- Dank seiner Fähigkeit, den eigenen Denkprozess zu reflektieren und die nächsten Schritte zu planen, dürfte o1 eine Schlüsselrolle beim Aufbau wirklich autonomer Agenten spielen
3. Entwickler verfügen inzwischen über enorm viele Technologien, um für Nutzer erstaunliche Erfahrungen zu schaffen
- Es ist leicht zu vergessen, dass noch vor wenigen Jahren nichts von dem, was heute gezeigt wurde, möglich war oder überhaupt im Fokus stand
- Heute kann sogar ein einzelner Entwickler, der in seiner Freizeit Apps baut, Dinge erreichen, die früher nicht einmal ein ganzes Entwicklungsteam umsetzen konnte
Noch keine Kommentare.