- Web Search: Sucht im Web nach aktuellen Informationen und gibt zitierte URLs zurück
- File Search: Semantische/Stichwortsuche in der Liste hochgeladener Dateien
- Computer Use: Steuert den Computer und führt Aufgaben aus
- Responses API: Fortschrittliche integrierte Antwortschnittstelle. Unterstützt Text-/Bildeingaben und kann Web-/Dateisuche sowie CUA-Funktionen nutzen
- Agents SDK: Orchestrierungs-Framework für die Entwicklung von Agenten
- Einige berechtigte Entwickler/Unternehmen können OpenAI beim Verbessern der Modelle helfen, indem sie Prompts mit OpenAI teilen
- Bis Ende April dieses Jahres können
gpt-4.5-preview, gpt-4o und o1 mit bis zu 1 Million Tokens pro Tag kostenlos genutzt werden, gpt-4o-mini, o1-mini und o3-mini mit bis zu 10 Millionen Tokens pro Tag
- Die Berechtigung kann im OpenAI-Entwickler-Dashboard geprüft werden
- Kann direkt im Web nach Informationen suchen, um in ChatGPT aktuelle Informationen bereitzustellen
- Über die Chat Completions API können feinabgestimmte Modelle und Such-Tools direkt genutzt werden
- Verwendung der Websuche in der Chat Completions API
- Das Modell sucht vor der Antwort immer im Web nach aktuellen Informationen
- Wenn das Websuch-Tool (
web_search_preview) nur bei Bedarf verwendet werden soll, muss zur Responses API gewechselt werden
- Modelle mit Web-Search-Unterstützung
gpt-4o-search-preview
gpt-4o-mini-search-preview
- Ermöglicht es dem Modell, vor der Generierung einer Antwort relevante Informationen aus den Dateien des Nutzers zu suchen
- Wird in der Responses API bereitgestellt und durchsucht die Wissensbasis hochgeladener Dateien per semantischer Suche und Stichwortsuche
- Nutzung von Vector Store und semantischer Suche
- Durch das Erstellen eines Vector Store und das Hochladen von Dateien kann das Grundwissen des Modells erweitert werden
- Es handelt sich um ein von OpenAI verwaltetes Tool, sodass Nutzer den Code nicht selbst implementieren müssen
- Wenn das Modell dies für erforderlich hält, ruft es das Tool automatisch auf, durchsucht Dateien nach Informationen und erzeugt eine Antwort
- Verwendung
- Zuerst muss eine Wissensbasis im Vector Store eingerichtet und Dateien hochgeladen werden
- Nach der Einrichtung des Vector Store kann das file_search-Tool zur Liste der für das Modell verfügbaren Tools hinzugefügt werden
- Derzeit ist die Suche nur in einem Vector Store gleichzeitig möglich (es kann nur eine einzelne Vector-Store-ID verwendet werden)
- Basiert auf dem Modell Computer-Using Agent (CUA), das Aufgaben auf dem Computer des Nutzers ausführen kann
- Kombiniert die visuelle Verarbeitung und die fortgeschrittenen Reasoning-Fähigkeiten von GPT-4o, um Computeroberflächen zu steuern und Aufgaben auszuführen
- Wird über die Responses API bereitgestellt und ist in Chat Completions nicht verfügbar
- Derzeit in der Beta; es können Schwachstellen oder Fehler auftreten. Für vollständig authentifizierte Umgebungen oder kritische Aufgaben wird die Nutzung nicht empfohlen
- Funktionsweise
- Das Modell sendet Computer-Aktionsbefehle wie Klick(x, y) und Eingabe(text)
- Der Code des Nutzers führt diese Aktionen in einer Computer- oder Browser-Umgebung aus und gibt einen Screenshot des Ergebnisses zurück
- Das Modell versteht anhand des Screenshots den Zustand der Umgebung und schlägt die nächste Aktion vor
- Über eine kontinuierliche Schleife können verschiedene Aufgaben wie Klicken, Eingeben und Scrollen automatisiert werden
- Beispielhafte Anwendungsfälle: Flugbuchungen, Produktsuche, Ausfüllen von Formularen
- Die fortschrittlichste Modell-Schnittstelle von OpenAI
- Unterstützt Text- und Bildeingaben und erzeugt Textausgaben
- Bietet zustandsbehaftete Interaktionen, bei denen die Ausgabe einer vorherigen Antwort als nächste Eingabe verwendet werden kann
- Erweiterbare Funktionen
- Die Fähigkeiten des Modells können über integrierte Tools erweitert werden
- File Search – semantische Suche und Stichwortsuche in hochgeladenen Dateien
- Web Search – Suche nach aktuellen Web-Informationen
- Computer Use – Steuerung von Computeroberflächen und Ausführung automatisierter Aufgaben
- Function Calling – Zugriff auf externe Systeme und Daten
- Python-Funktionen können aufgerufen und externe Systeme angesprochen werden
- Ermöglicht die Entwicklung agentenbasierter AI-Apps mit einem einfachen, leicht nutzbaren Paket ohne komplexe Abstraktionen
- Eine produktionsreife Weiterentwicklung der früheren Experimentierplattform Swarm
- Zentrale Komponenten (Primitive):
- Agents – LLM-basierte Agenten mit Anweisungen und Tools
- Handoffs – Delegation bestimmter Aufgaben an andere Agenten
- Guardrails – Validierung und Filterung der Eingabewerte von Agenten
- Python-Integration und starke Funktionen
- Bei Verwendung mit Python lassen sich leistungsfähige Beziehungen zwischen Tools einrichten und komplexe Workflows umsetzen
- Enthält Tracing zur Visualisierung und zum Debugging
- Unterstützt Bewertung, Debugging und sogar Modell-Fine-Tuning
- Wichtige Merkmale des Agents SDK
- Designprinzipien
- Leistungsfähig genug in den Funktionen, aber mit geringer Lernhürde, sodass man sich schnell einarbeiten kann
- Liefert im Standardzustand starke Ergebnisse, erlaubt bei Bedarf aber detaillierte Konfiguration
- Grundfunktionen
- Agent Loop: Eingebaute Schleife, die Tool-Aufruf → Ergebnisverarbeitung → Erzeugung der LLM-Antwort → Beendigung automatisch abwickelt
- Python-first-Design: Agenten können unter direkter Nutzung der Sprachfunktionen von Python verbunden und orchestriert werden
- Handoffs: Delegation und Koordination von Aufgaben zwischen mehreren Agenten
- Guardrails: Validierung von Eingabewerten und parallele Prüfungen, mit möglichem frühzeitigem Abbruch bei Fehlern
- Function Tools: Python-Funktionen werden automatisch in Tools umgewandelt → automatische Schemaerstellung und Validierung
- Tracing: Integriertes Tracing zur Visualisierung von Workflows, für Debugging, Bewertung und Verbesserungen
Noch keine Kommentare.