Alles, was OpenAI auf dem DevDay angekündigt hat

xguru · 2024-10-03T10:20:02+09:00

Wichtige Ankündigungen Realtime API, mit der sich Funktionen ähnlich dem erweiterten Sprachmodus von ChatGPT umsetzen lassen Das Rate Limit des o1-Modells wurde auf das Niveau von GPT-4o angehoben (10.000 Aufrufe pro Minute) Preissenkung für die GPT-4o-API durch automatisches Prompt-Caching. Bei wiederholten Aufrufen 50 % günstiger, ohne zusätzliche Entwicklung Multimodale Fine-Tuning-API Die Zahl der auf der OpenAI-Plattform aktiven Apps hat sich von letztem bis zu diesem Jahr verdreifacht, und die Zahl aktiver Entwickler liegt bei 3 Millionen Überblick über das o1-Modell OpenAI hat mit o1 ein neues Reasoning-Modell veröffentlicht o1 wird als neue Modellfamilie eingeordnet, die sich von dem bisherigen GPT-4o unterscheidet OpenAI geht davon aus, dass die Entwicklung mehrerer Modelle für unterschiedliche Anwendungsfälle der Weg der Zukunft ist o1 eignet sich wegen seiner starken Fähigkeit zum Denken in Chain-of-Thought-Form besonders für Programmieraufgaben, ist jedoch langsam und teuer Da die meisten Prompts die fortgeschrittenen Reasoning-Fähigkeiten von o1 nicht benötigen, wird o1 nicht das Standardmodell werden Romain Huet, Leiter der Developer Relations bei OpenAI, zeigte mit o1 eine Demo, in der mit einem einzigen Prompt in 30 Sekunden eine iPhone-App von Anfang bis Ende erstellt wurde Außerdem brachte er eine Drohne auf die Bühne, erstellte eine Web-App und demonstrierte vor dem Publikum die Steuerung der Drohne Solche Demos wären zwar auch mit früheren GPT-Modellen möglich gewesen, mit o1 lassen sie sich jedoch deutlich schneller umsetzen o1 zeigt eine Zukunft, in der der Weg von der Idee zur App in 1 bis 2 Minuten möglich ist Sprachbasierte Echtzeit-API Die beeindruckendste von OpenAI veröffentlichte Funktion ist die Realtime API, mit der Entwickler Funktionen ähnlich dem erweiterten Sprachmodus von ChatGPT in ihre Apps integrieren können Entwickler können aufgezeichnetes Audio an die OpenAI-Server senden und in Echtzeit aufgezeichnete Antworten, Transkripte und Function Calls erhalten Die Realtime API startet ab heute als öffentliche Beta und soll künftig auch weitere Modalitäten wie Video unterstützen Die Realtime API kostet 0,06 US-Dollar pro Minute für Audioeingabe und 0,24 US-Dollar pro Minute für Audioausgabe, insgesamt also 0,15 US-Dollar (unter der Annahme gleicher Audio-Ein- und Ausgabe) Damit ist sie teurer als der Speech-to-Speech-Service von ElevenLabs mit rund 0,11 US-Dollar pro Minute, dort zahlt man jedoch nicht nutzungsbasiert, sondern muss jeden Monat ein festes Zeitkontingent kaufen Echtzeit-Sprache eröffnet viele neue Anwendungsfälle, etwa bessere Lesehilfen oder immersiveren Sprachunterricht Fine-Tuning-Tools OpenAI nimmt die Idee ernst, dass die Nutzung mehrerer Modelle besser ist als die Verwendung eines einzigen großen Modells Unternehmen werden dabei unterstützt, maßgeschneiderte Versionen von GPT-4o für ihre eigenen Anwendungsfälle zu erstellen OpenAI zeichnet die Zukunft, in der jedes Unternehmen über feinabgestimmte Modelle verfügt, die auf die eigenen Daten zugreifen können API für Bild-Fine-Tuning Jeder kann GPT-4o mit eigenen Bilddaten feinabstimmen Wenn man zum Beispiel im medizinischen Bereich arbeitet und die Fähigkeit von GPT-4o feinabstimmen möchte, MRTs zu lesen und zu beschriften, kann man diese API nutzen Tools zur Model Distillation OpenAI hat zwei Tools veröffentlicht, um Model Distillation zu verbessern, also den Prozess, kleinere, schnellere und günstigere Versionen von Foundation-Modellen für bestimmte Anwendungsfälle zu erstellen Im Developer Playground wurde eine Funktion hinzugefügt, mit der frühere API-Interaktionen aufgezeichnet und als Daten für das Fine-Tuning genutzt werden können, was die Distillation erleichtert Außerdem wurde dem Playground das Tool Evals hinzugefügt, damit Entwickler die Leistung feinabgestimmter Modelle bewerten können 50 % geringere Kosten für wiederholte API-Aufrufe durch Prompt-Caching OpenAI hat eine neue Funktion für Prompt-Caching veröffentlicht, die wiederholte API-Aufrufe erkennt und zuvor generierte Antworten zurückgibt Diese Funktion arbeitet ab heute automatisch und kann die Kosten vieler API-Aufrufe ohne zusätzlichen Aufwand für Entwickler um 50 % senken Die Funktion setzt den Trend fort, dass OpenAI im Wettbewerb die Kosten für die API-Nutzung immer weiter senkt Für Entwickler sind das gute Nachrichten, zugleich entsteht dadurch eine interessante Dynamik mit Microsoft, dem größten Partner von OpenAI Microsoft hat große Unternehmen dazu gedrängt, GPT-4-API-Aufrufe vorab in bestimmtem Umfang zu kaufen, um sich Kapazitäten zu sichern Man fragt sich, wie Microsoft und Kunden mit bestehenden Kaufzusagen auf diese Preissenkungen reagieren werden Die Strategie von OpenAI 1. Fokus auf die Entwicklung mehrerer Modelle für unterschiedliche Anwendungsfälle OpenAI glaubt, dass die effektivsten Anwendungen nicht alles mit einem einzigen Modell erledigen, sondern mehrere Modelle gemeinsam nutzen Entwickler können Modelle mit starken Reasoning-Fähigkeiten wie o1 zusammen mit Modellen wie GPT-4o verwenden, die bei langen Kontexten oder der Verarbeitung von Bild-Prompts stark sind, um Nutzern ein konsistentes Erlebnis zu bieten 2. o1 ist ein wichtiger Schritt hin zu autonom arbeitenden Agenten Agenten gehören seit Langem zu den attraktivsten AI-Anwendungen, doch frühere GPT-Modelle funktionierten oft nicht zuverlässig, wenn sie Aufgaben eigenständig lösen sollten Dank seiner Fähigkeit, den eigenen Denkprozess zu reflektieren und die nächsten Schritte zu planen, dürfte o1 eine Schlüsselrolle beim Aufbau wirklich autonomer Agenten spielen 3. Entwickler verfügen inzwischen über enorm viele Technologien, um für Nutzer erstaunliche Erfahrungen zu schaffen Es ist leicht zu vergessen, dass noch vor wenigen Jahren nichts von dem, was heute gezeigt wurde, möglich war oder überhaupt im Fokus stand Heute kann sogar ein einzelner Entwickler, der in seiner Freizeit Apps baut, Dinge erreichen, die früher nicht einmal ein ganzes Entwicklungsteam umsetzen konnte

(every.to)

12 Punkte von xguru 2024-10-03 | Noch keine Kommentare. | Auf WhatsApp teilen

Wichtige Ankündigungen

Realtime API, mit der sich Funktionen ähnlich dem erweiterten Sprachmodus von ChatGPT umsetzen lassen
Das Rate Limit des o1-Modells wurde auf das Niveau von GPT-4o angehoben (10.000 Aufrufe pro Minute)
Preissenkung für die GPT-4o-API durch automatisches Prompt-Caching. Bei wiederholten Aufrufen 50 % günstiger, ohne zusätzliche Entwicklung
Multimodale Fine-Tuning-API
Die Zahl der auf der OpenAI-Plattform aktiven Apps hat sich von letztem bis zu diesem Jahr verdreifacht, und die Zahl aktiver Entwickler liegt bei 3 Millionen

Überblick über das o1-Modell

OpenAI hat mit o1 ein neues Reasoning-Modell veröffentlicht
o1 wird als neue Modellfamilie eingeordnet, die sich von dem bisherigen GPT-4o unterscheidet
OpenAI geht davon aus, dass die Entwicklung mehrerer Modelle für unterschiedliche Anwendungsfälle der Weg der Zukunft ist
o1 eignet sich wegen seiner starken Fähigkeit zum Denken in Chain-of-Thought-Form besonders für Programmieraufgaben, ist jedoch langsam und teuer
Da die meisten Prompts die fortgeschrittenen Reasoning-Fähigkeiten von o1 nicht benötigen, wird o1 nicht das Standardmodell werden
Romain Huet, Leiter der Developer Relations bei OpenAI, zeigte mit o1 eine Demo, in der mit einem einzigen Prompt in 30 Sekunden eine iPhone-App von Anfang bis Ende erstellt wurde
Außerdem brachte er eine Drohne auf die Bühne, erstellte eine Web-App und demonstrierte vor dem Publikum die Steuerung der Drohne
Solche Demos wären zwar auch mit früheren GPT-Modellen möglich gewesen, mit o1 lassen sie sich jedoch deutlich schneller umsetzen
o1 zeigt eine Zukunft, in der der Weg von der Idee zur App in 1 bis 2 Minuten möglich ist

Sprachbasierte Echtzeit-API

Die beeindruckendste von OpenAI veröffentlichte Funktion ist die Realtime API, mit der Entwickler Funktionen ähnlich dem erweiterten Sprachmodus von ChatGPT in ihre Apps integrieren können
Entwickler können aufgezeichnetes Audio an die OpenAI-Server senden und in Echtzeit aufgezeichnete Antworten, Transkripte und Function Calls erhalten
Die Realtime API startet ab heute als öffentliche Beta und soll künftig auch weitere Modalitäten wie Video unterstützen
Die Realtime API kostet 0,06 US-Dollar pro Minute für Audioeingabe und 0,24 US-Dollar pro Minute für Audioausgabe, insgesamt also 0,15 US-Dollar (unter der Annahme gleicher Audio-Ein- und Ausgabe)
Damit ist sie teurer als der Speech-to-Speech-Service von ElevenLabs mit rund 0,11 US-Dollar pro Minute, dort zahlt man jedoch nicht nutzungsbasiert, sondern muss jeden Monat ein festes Zeitkontingent kaufen
Echtzeit-Sprache eröffnet viele neue Anwendungsfälle, etwa bessere Lesehilfen oder immersiveren Sprachunterricht

Fine-Tuning-Tools

OpenAI nimmt die Idee ernst, dass die Nutzung mehrerer Modelle besser ist als die Verwendung eines einzigen großen Modells
Unternehmen werden dabei unterstützt, maßgeschneiderte Versionen von GPT-4o für ihre eigenen Anwendungsfälle zu erstellen
OpenAI zeichnet die Zukunft, in der jedes Unternehmen über feinabgestimmte Modelle verfügt, die auf die eigenen Daten zugreifen können

API für Bild-Fine-Tuning

Jeder kann GPT-4o mit eigenen Bilddaten feinabstimmen
Wenn man zum Beispiel im medizinischen Bereich arbeitet und die Fähigkeit von GPT-4o feinabstimmen möchte, MRTs zu lesen und zu beschriften, kann man diese API nutzen

Tools zur Model Distillation

OpenAI hat zwei Tools veröffentlicht, um Model Distillation zu verbessern, also den Prozess, kleinere, schnellere und günstigere Versionen von Foundation-Modellen für bestimmte Anwendungsfälle zu erstellen
Im Developer Playground wurde eine Funktion hinzugefügt, mit der frühere API-Interaktionen aufgezeichnet und als Daten für das Fine-Tuning genutzt werden können, was die Distillation erleichtert
Außerdem wurde dem Playground das Tool Evals hinzugefügt, damit Entwickler die Leistung feinabgestimmter Modelle bewerten können

50 % geringere Kosten für wiederholte API-Aufrufe durch Prompt-Caching

OpenAI hat eine neue Funktion für Prompt-Caching veröffentlicht, die wiederholte API-Aufrufe erkennt und zuvor generierte Antworten zurückgibt
Diese Funktion arbeitet ab heute automatisch und kann die Kosten vieler API-Aufrufe ohne zusätzlichen Aufwand für Entwickler um 50 % senken
Die Funktion setzt den Trend fort, dass OpenAI im Wettbewerb die Kosten für die API-Nutzung immer weiter senkt
Für Entwickler sind das gute Nachrichten, zugleich entsteht dadurch eine interessante Dynamik mit Microsoft, dem größten Partner von OpenAI
Microsoft hat große Unternehmen dazu gedrängt, GPT-4-API-Aufrufe vorab in bestimmtem Umfang zu kaufen, um sich Kapazitäten zu sichern
Man fragt sich, wie Microsoft und Kunden mit bestehenden Kaufzusagen auf diese Preissenkungen reagieren werden

Die Strategie von OpenAI

1. Fokus auf die Entwicklung mehrerer Modelle für unterschiedliche Anwendungsfälle

OpenAI glaubt, dass die effektivsten Anwendungen nicht alles mit einem einzigen Modell erledigen, sondern mehrere Modelle gemeinsam nutzen
Entwickler können Modelle mit starken Reasoning-Fähigkeiten wie o1 zusammen mit Modellen wie GPT-4o verwenden, die bei langen Kontexten oder der Verarbeitung von Bild-Prompts stark sind, um Nutzern ein konsistentes Erlebnis zu bieten

2. o1 ist ein wichtiger Schritt hin zu autonom arbeitenden Agenten

Agenten gehören seit Langem zu den attraktivsten AI-Anwendungen, doch frühere GPT-Modelle funktionierten oft nicht zuverlässig, wenn sie Aufgaben eigenständig lösen sollten
Dank seiner Fähigkeit, den eigenen Denkprozess zu reflektieren und die nächsten Schritte zu planen, dürfte o1 eine Schlüsselrolle beim Aufbau wirklich autonomer Agenten spielen

3. Entwickler verfügen inzwischen über enorm viele Technologien, um für Nutzer erstaunliche Erfahrungen zu schaffen

Es ist leicht zu vergessen, dass noch vor wenigen Jahren nichts von dem, was heute gezeigt wurde, möglich war oder überhaupt im Fokus stand
Heute kann sogar ein einzelner Entwickler, der in seiner Freizeit Apps baut, Dinge erreichen, die früher nicht einmal ein ganzes Entwicklungsteam umsetzen konnte