21 Punkte von xguru 2025-03-12 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Web Search: Sucht im Web nach aktuellen Informationen und gibt zitierte URLs zurück
  • File Search: Semantische/Stichwortsuche in der Liste hochgeladener Dateien
  • Computer Use: Steuert den Computer und führt Aufgaben aus
  • Responses API: Fortschrittliche integrierte Antwortschnittstelle. Unterstützt Text-/Bildeingaben und kann Web-/Dateisuche sowie CUA-Funktionen nutzen
  • Agents SDK: Orchestrierungs-Framework für die Entwicklung von Agenten
  • Einige berechtigte Entwickler/Unternehmen können OpenAI beim Verbessern der Modelle helfen, indem sie Prompts mit OpenAI teilen
    • Bis Ende April dieses Jahres können gpt-4.5-preview, gpt-4o und o1 mit bis zu 1 Million Tokens pro Tag kostenlos genutzt werden, gpt-4o-mini, o1-mini und o3-mini mit bis zu 10 Millionen Tokens pro Tag
    • Die Berechtigung kann im OpenAI-Entwickler-Dashboard geprüft werden

Web Search

  • Kann direkt im Web nach Informationen suchen, um in ChatGPT aktuelle Informationen bereitzustellen
  • Über die Chat Completions API können feinabgestimmte Modelle und Such-Tools direkt genutzt werden
  • Verwendung der Websuche in der Chat Completions API
    • Das Modell sucht vor der Antwort immer im Web nach aktuellen Informationen
    • Wenn das Websuch-Tool (web_search_preview) nur bei Bedarf verwendet werden soll, muss zur Responses API gewechselt werden
  • Modelle mit Web-Search-Unterstützung
    • gpt-4o-search-preview
    • gpt-4o-mini-search-preview

File Search

  • Ermöglicht es dem Modell, vor der Generierung einer Antwort relevante Informationen aus den Dateien des Nutzers zu suchen
  • Wird in der Responses API bereitgestellt und durchsucht die Wissensbasis hochgeladener Dateien per semantischer Suche und Stichwortsuche
  • Nutzung von Vector Store und semantischer Suche
    • Durch das Erstellen eines Vector Store und das Hochladen von Dateien kann das Grundwissen des Modells erweitert werden
    • Es handelt sich um ein von OpenAI verwaltetes Tool, sodass Nutzer den Code nicht selbst implementieren müssen
    • Wenn das Modell dies für erforderlich hält, ruft es das Tool automatisch auf, durchsucht Dateien nach Informationen und erzeugt eine Antwort
  • Verwendung
    • Zuerst muss eine Wissensbasis im Vector Store eingerichtet und Dateien hochgeladen werden
    • Nach der Einrichtung des Vector Store kann das file_search-Tool zur Liste der für das Modell verfügbaren Tools hinzugefügt werden
    • Derzeit ist die Suche nur in einem Vector Store gleichzeitig möglich (es kann nur eine einzelne Vector-Store-ID verwendet werden)

Computer Use

  • Basiert auf dem Modell Computer-Using Agent (CUA), das Aufgaben auf dem Computer des Nutzers ausführen kann
  • Kombiniert die visuelle Verarbeitung und die fortgeschrittenen Reasoning-Fähigkeiten von GPT-4o, um Computeroberflächen zu steuern und Aufgaben auszuführen
  • Wird über die Responses API bereitgestellt und ist in Chat Completions nicht verfügbar
  • Derzeit in der Beta; es können Schwachstellen oder Fehler auftreten. Für vollständig authentifizierte Umgebungen oder kritische Aufgaben wird die Nutzung nicht empfohlen
  • Funktionsweise
    • Das Modell sendet Computer-Aktionsbefehle wie Klick(x, y) und Eingabe(text)
    • Der Code des Nutzers führt diese Aktionen in einer Computer- oder Browser-Umgebung aus und gibt einen Screenshot des Ergebnisses zurück
    • Das Modell versteht anhand des Screenshots den Zustand der Umgebung und schlägt die nächste Aktion vor
    • Über eine kontinuierliche Schleife können verschiedene Aufgaben wie Klicken, Eingeben und Scrollen automatisiert werden
  • Beispielhafte Anwendungsfälle: Flugbuchungen, Produktsuche, Ausfüllen von Formularen

Responses API

  • Die fortschrittlichste Modell-Schnittstelle von OpenAI
  • Unterstützt Text- und Bildeingaben und erzeugt Textausgaben
  • Bietet zustandsbehaftete Interaktionen, bei denen die Ausgabe einer vorherigen Antwort als nächste Eingabe verwendet werden kann
  • Erweiterbare Funktionen
    • Die Fähigkeiten des Modells können über integrierte Tools erweitert werden
      • File Search – semantische Suche und Stichwortsuche in hochgeladenen Dateien
      • Web Search – Suche nach aktuellen Web-Informationen
      • Computer Use – Steuerung von Computeroberflächen und Ausführung automatisierter Aufgaben
    • Function Calling – Zugriff auf externe Systeme und Daten
      • Python-Funktionen können aufgerufen und externe Systeme angesprochen werden

Agents SDK

  • Ermöglicht die Entwicklung agentenbasierter AI-Apps mit einem einfachen, leicht nutzbaren Paket ohne komplexe Abstraktionen
  • Eine produktionsreife Weiterentwicklung der früheren Experimentierplattform Swarm
  • Zentrale Komponenten (Primitive):
    • Agents – LLM-basierte Agenten mit Anweisungen und Tools
    • Handoffs – Delegation bestimmter Aufgaben an andere Agenten
    • Guardrails – Validierung und Filterung der Eingabewerte von Agenten
  • Python-Integration und starke Funktionen
    • Bei Verwendung mit Python lassen sich leistungsfähige Beziehungen zwischen Tools einrichten und komplexe Workflows umsetzen
    • Enthält Tracing zur Visualisierung und zum Debugging
    • Unterstützt Bewertung, Debugging und sogar Modell-Fine-Tuning
  • Wichtige Merkmale des Agents SDK
    • Designprinzipien
      • Leistungsfähig genug in den Funktionen, aber mit geringer Lernhürde, sodass man sich schnell einarbeiten kann
      • Liefert im Standardzustand starke Ergebnisse, erlaubt bei Bedarf aber detaillierte Konfiguration
    • Grundfunktionen
      • Agent Loop: Eingebaute Schleife, die Tool-Aufruf → Ergebnisverarbeitung → Erzeugung der LLM-Antwort → Beendigung automatisch abwickelt
      • Python-first-Design: Agenten können unter direkter Nutzung der Sprachfunktionen von Python verbunden und orchestriert werden
      • Handoffs: Delegation und Koordination von Aufgaben zwischen mehreren Agenten
      • Guardrails: Validierung von Eingabewerten und parallele Prüfungen, mit möglichem frühzeitigem Abbruch bei Fehlern
      • Function Tools: Python-Funktionen werden automatisch in Tools umgewandelt → automatische Schemaerstellung und Validierung
      • Tracing: Integriertes Tracing zur Visualisierung von Workflows, für Debugging, Bewertung und Verbesserungen

Noch keine Kommentare.

Noch keine Kommentare.