OpenAI stellt Entwickler-Tools für die Entwicklung von AI-Agenten vor

xguru · 2025-03-12T09:08:31+09:00

Web Search: Sucht im Web nach aktuellen Informationen und gibt zitierte URLs zurück File Search: Semantische/Stichwortsuche in der Liste hochgeladener Dateien Computer Use: Steuert den Computer und führt Aufgaben aus Responses API: Fortschrittliche integrierte Antwortschnittstelle. Unterstützt Text-/Bildeingaben und kann Web-/Dateisuche sowie CUA-Funktionen nutzen Agents SDK: Orchestrierungs-Framework für die Entwicklung von Agenten Einige berechtigte Entwickler/Unternehmen können OpenAI beim Verbessern der Modelle helfen, indem sie Prompts mit OpenAI teilen Bis Ende April dieses Jahres können gpt-4.5-preview, gpt-4o und o1 mit bis zu 1 Million Tokens pro Tag kostenlos genutzt werden, gpt-4o-mini, o1-mini und o3-mini mit bis zu 10 Millionen Tokens pro Tag Die Berechtigung kann im OpenAI-Entwickler-Dashboard geprüft werden Vorstellungsartikel von OpenAI: New tools for building agents Web Search Kann direkt im Web nach Informationen suchen, um in ChatGPT aktuelle Informationen bereitzustellen Über die Chat Completions API können feinabgestimmte Modelle und Such-Tools direkt genutzt werden Verwendung der Websuche in der Chat Completions API Das Modell sucht vor der Antwort immer im Web nach aktuellen Informationen Wenn das Websuch-Tool (web_search_preview) nur bei Bedarf verwendet werden soll, muss zur Responses API gewechselt werden Modelle mit Web-Search-Unterstützung gpt-4o-search-preview gpt-4o-mini-search-preview File Search Ermöglicht es dem Modell, vor der Generierung einer Antwort relevante Informationen aus den Dateien des Nutzers zu suchen Wird in der Responses API bereitgestellt und durchsucht die Wissensbasis hochgeladener Dateien per semantischer Suche und Stichwortsuche Nutzung von Vector Store und semantischer Suche Durch das Erstellen eines Vector Store und das Hochladen von Dateien kann das Grundwissen des Modells erweitert werden Es handelt sich um ein von OpenAI verwaltetes Tool, sodass Nutzer den Code nicht selbst implementieren müssen Wenn das Modell dies für erforderlich hält, ruft es das Tool automatisch auf, durchsucht Dateien nach Informationen und erzeugt eine Antwort Verwendung Zuerst muss eine Wissensbasis im Vector Store eingerichtet und Dateien hochgeladen werden Nach der Einrichtung des Vector Store kann das file_search-Tool zur Liste der für das Modell verfügbaren Tools hinzugefügt werden Derzeit ist die Suche nur in einem Vector Store gleichzeitig möglich (es kann nur eine einzelne Vector-Store-ID verwendet werden) Computer Use Basiert auf dem Modell Computer-Using Agent (CUA), das Aufgaben auf dem Computer des Nutzers ausführen kann Kombiniert die visuelle Verarbeitung und die fortgeschrittenen Reasoning-Fähigkeiten von GPT-4o, um Computeroberflächen zu steuern und Aufgaben auszuführen Wird über die Responses API bereitgestellt und ist in Chat Completions nicht verfügbar Derzeit in der Beta; es können Schwachstellen oder Fehler auftreten. Für vollständig authentifizierte Umgebungen oder kritische Aufgaben wird die Nutzung nicht empfohlen Funktionsweise Das Modell sendet Computer-Aktionsbefehle wie Klick(x, y) und Eingabe(text) Der Code des Nutzers führt diese Aktionen in einer Computer- oder Browser-Umgebung aus und gibt einen Screenshot des Ergebnisses zurück Das Modell versteht anhand des Screenshots den Zustand der Umgebung und schlägt die nächste Aktion vor Über eine kontinuierliche Schleife können verschiedene Aufgaben wie Klicken, Eingeben und Scrollen automatisiert werden Beispielhafte Anwendungsfälle: Flugbuchungen, Produktsuche, Ausfüllen von Formularen Responses API Die fortschrittlichste Modell-Schnittstelle von OpenAI Unterstützt Text- und Bildeingaben und erzeugt Textausgaben Bietet zustandsbehaftete Interaktionen, bei denen die Ausgabe einer vorherigen Antwort als nächste Eingabe verwendet werden kann Erweiterbare Funktionen Die Fähigkeiten des Modells können über integrierte Tools erweitert werden File Search – semantische Suche und Stichwortsuche in hochgeladenen Dateien Web Search – Suche nach aktuellen Web-Informationen Computer Use – Steuerung von Computeroberflächen und Ausführung automatisierter Aufgaben Function Calling – Zugriff auf externe Systeme und Daten Python-Funktionen können aufgerufen und externe Systeme angesprochen werden Agents SDK Ermöglicht die Entwicklung agentenbasierter AI-Apps mit einem einfachen, leicht nutzbaren Paket ohne komplexe Abstraktionen Eine produktionsreife Weiterentwicklung der früheren Experimentierplattform Swarm Zentrale Komponenten (Primitive): Agents – LLM-basierte Agenten mit Anweisungen und Tools Handoffs – Delegation bestimmter Aufgaben an andere Agenten Guardrails – Validierung und Filterung der Eingabewerte von Agenten Python-Integration und starke Funktionen Bei Verwendung mit Python lassen sich leistungsfähige Beziehungen zwischen Tools einrichten und komplexe Workflows umsetzen Enthält Tracing zur Visualisierung und zum Debugging Unterstützt Bewertung, Debugging und sogar Modell-Fine-Tuning Wichtige Merkmale des Agents SDK Designprinzipien Leistungsfähig genug in den Funktionen, aber mit geringer Lernhürde, sodass man sich schnell einarbeiten kann Liefert im Standardzustand starke Ergebnisse, erlaubt bei Bedarf aber detaillierte Konfiguration Grundfunktionen Agent Loop: Eingebaute Schleife, die Tool-Aufruf → Ergebnisverarbeitung → Erzeugung der LLM-Antwort → Beendigung automatisch abwickelt Python-first-Design: Agenten können unter direkter Nutzung der Sprachfunktionen von Python verbunden und orchestriert werden Handoffs: Delegation und Koordination von Aufgaben zwischen mehreren Agenten Guardrails: Validierung von Eingabewerten und parallele Prüfungen, mit möglichem frühzeitigem Abbruch bei Fehlern Function Tools: Python-Funktionen werden automatisch in Tools umgewandelt → automatische Schemaerstellung und Validierung Tracing: Integriertes Tracing zur Visualisierung von Workflows, für Debugging, Bewertung und Verbesserungen

(x.com/OpenAIDevs)

21 Punkte von xguru 2025-03-12 | Noch keine Kommentare. | Auf WhatsApp teilen

Web Search: Sucht im Web nach aktuellen Informationen und gibt zitierte URLs zurück
File Search: Semantische/Stichwortsuche in der Liste hochgeladener Dateien
Computer Use: Steuert den Computer und führt Aufgaben aus
Responses API: Fortschrittliche integrierte Antwortschnittstelle. Unterstützt Text-/Bildeingaben und kann Web-/Dateisuche sowie CUA-Funktionen nutzen
Agents SDK: Orchestrierungs-Framework für die Entwicklung von Agenten

Einige berechtigte Entwickler/Unternehmen können OpenAI beim Verbessern der Modelle helfen, indem sie Prompts mit OpenAI teilen
- Bis Ende April dieses Jahres können gpt-4.5-preview, gpt-4o und o1 mit bis zu 1 Million Tokens pro Tag kostenlos genutzt werden, gpt-4o-mini, o1-mini und o3-mini mit bis zu 10 Millionen Tokens pro Tag
- Die Berechtigung kann im OpenAI-Entwickler-Dashboard geprüft werden

Vorstellungsartikel von OpenAI: New tools for building agents

Web Search

Kann direkt im Web nach Informationen suchen, um in ChatGPT aktuelle Informationen bereitzustellen
Über die Chat Completions API können feinabgestimmte Modelle und Such-Tools direkt genutzt werden
Verwendung der Websuche in der Chat Completions API
- Das Modell sucht vor der Antwort immer im Web nach aktuellen Informationen
- Wenn das Websuch-Tool (web_search_preview) nur bei Bedarf verwendet werden soll, muss zur Responses API gewechselt werden
Modelle mit Web-Search-Unterstützung
- gpt-4o-search-preview
- gpt-4o-mini-search-preview

File Search

Ermöglicht es dem Modell, vor der Generierung einer Antwort relevante Informationen aus den Dateien des Nutzers zu suchen
Wird in der Responses API bereitgestellt und durchsucht die Wissensbasis hochgeladener Dateien per semantischer Suche und Stichwortsuche
Nutzung von Vector Store und semantischer Suche
- Durch das Erstellen eines Vector Store und das Hochladen von Dateien kann das Grundwissen des Modells erweitert werden
- Es handelt sich um ein von OpenAI verwaltetes Tool, sodass Nutzer den Code nicht selbst implementieren müssen
- Wenn das Modell dies für erforderlich hält, ruft es das Tool automatisch auf, durchsucht Dateien nach Informationen und erzeugt eine Antwort
Verwendung
- Zuerst muss eine Wissensbasis im Vector Store eingerichtet und Dateien hochgeladen werden
- Nach der Einrichtung des Vector Store kann das file_search-Tool zur Liste der für das Modell verfügbaren Tools hinzugefügt werden
- Derzeit ist die Suche nur in einem Vector Store gleichzeitig möglich (es kann nur eine einzelne Vector-Store-ID verwendet werden)

Computer Use

Basiert auf dem Modell Computer-Using Agent (CUA), das Aufgaben auf dem Computer des Nutzers ausführen kann
Kombiniert die visuelle Verarbeitung und die fortgeschrittenen Reasoning-Fähigkeiten von GPT-4o, um Computeroberflächen zu steuern und Aufgaben auszuführen
Wird über die Responses API bereitgestellt und ist in Chat Completions nicht verfügbar
Derzeit in der Beta; es können Schwachstellen oder Fehler auftreten. Für vollständig authentifizierte Umgebungen oder kritische Aufgaben wird die Nutzung nicht empfohlen
Funktionsweise
- Das Modell sendet Computer-Aktionsbefehle wie Klick(x, y) und Eingabe(text)
- Der Code des Nutzers führt diese Aktionen in einer Computer- oder Browser-Umgebung aus und gibt einen Screenshot des Ergebnisses zurück
- Das Modell versteht anhand des Screenshots den Zustand der Umgebung und schlägt die nächste Aktion vor
- Über eine kontinuierliche Schleife können verschiedene Aufgaben wie Klicken, Eingeben und Scrollen automatisiert werden
Beispielhafte Anwendungsfälle: Flugbuchungen, Produktsuche, Ausfüllen von Formularen

Responses API

Die fortschrittlichste Modell-Schnittstelle von OpenAI
Unterstützt Text- und Bildeingaben und erzeugt Textausgaben
Bietet zustandsbehaftete Interaktionen, bei denen die Ausgabe einer vorherigen Antwort als nächste Eingabe verwendet werden kann
Erweiterbare Funktionen
- Die Fähigkeiten des Modells können über integrierte Tools erweitert werden
  - File Search – semantische Suche und Stichwortsuche in hochgeladenen Dateien
  - Web Search – Suche nach aktuellen Web-Informationen
  - Computer Use – Steuerung von Computeroberflächen und Ausführung automatisierter Aufgaben
- Function Calling – Zugriff auf externe Systeme und Daten
  - Python-Funktionen können aufgerufen und externe Systeme angesprochen werden

Agents SDK

Ermöglicht die Entwicklung agentenbasierter AI-Apps mit einem einfachen, leicht nutzbaren Paket ohne komplexe Abstraktionen
Eine produktionsreife Weiterentwicklung der früheren Experimentierplattform Swarm
Zentrale Komponenten (Primitive):
- Agents – LLM-basierte Agenten mit Anweisungen und Tools
- Handoffs – Delegation bestimmter Aufgaben an andere Agenten
- Guardrails – Validierung und Filterung der Eingabewerte von Agenten
Python-Integration und starke Funktionen
- Bei Verwendung mit Python lassen sich leistungsfähige Beziehungen zwischen Tools einrichten und komplexe Workflows umsetzen
- Enthält Tracing zur Visualisierung und zum Debugging
- Unterstützt Bewertung, Debugging und sogar Modell-Fine-Tuning
Wichtige Merkmale des Agents SDK
- Designprinzipien
  - Leistungsfähig genug in den Funktionen, aber mit geringer Lernhürde, sodass man sich schnell einarbeiten kann
  - Liefert im Standardzustand starke Ergebnisse, erlaubt bei Bedarf aber detaillierte Konfiguration
- Grundfunktionen
  - Agent Loop: Eingebaute Schleife, die Tool-Aufruf → Ergebnisverarbeitung → Erzeugung der LLM-Antwort → Beendigung automatisch abwickelt
  - Python-first-Design: Agenten können unter direkter Nutzung der Sprachfunktionen von Python verbunden und orchestriert werden
  - Handoffs: Delegation und Koordination von Aufgaben zwischen mehreren Agenten
  - Guardrails: Validierung von Eingabewerten und parallele Prüfungen, mit möglichem frühzeitigem Abbruch bei Fehlern
  - Function Tools: Python-Funktionen werden automatisch in Tools umgewandelt → automatische Schemaerstellung und Validierung
  - Tracing: Integriertes Tracing zur Visualisierung von Workflows, für Debugging, Bewertung und Verbesserungen