Gemini Deep Research Agent API veröffentlicht

(x.com/GoogleAIStudio)

4 Punkte von ragingwind 6 일 전 | Noch keine Kommentare. | Auf WhatsApp teilen

Google hat den Gemini Deep Research Agent als API veröffentlicht. Deep Research ist eine Funktion, bei der die AI für eine vom Nutzer gestellte Frage selbst einen Suchplan erstellt, mehrere Webseiten durchsucht, vergleicht und zusammenfasst und anschließend automatisch einen ausführlichen Bericht mit Quellenangaben erzeugt. Bisher war das nur in der Web-UI von Google AI Studio nutzbar, nun können Entwickler es über eine neue asynchrone Schnittstelle namens Interactions API direkt in ihre eigenen Apps integrieren. Anders als bei einem bisherigen generate_content-Aufruf läuft die Aufgabe mehrere Minuten im Hintergrund, daher ist die Struktur so angelegt, dass nach dem Absenden der Anfrage periodisch per Polling geprüft oder der Fortschritt per Streaming empfangen wird.

Verfügbare Modelle

deep-research-preview-04-2026: Fokus auf Geschwindigkeit und Effizienz. Geeignet für Echtzeit-Streaming in Client-UIs.
deep-research-max-preview-04-2026: Ausgelegt auf maximale Vollständigkeit. Besonders stark bei automatisierter Kontextsammlung und Synthese.

Zusammenfassung der Kernfunktionen

Kollaborative Planung (Collaborative Planning): Die Recherche startet nicht sofort; der Agent schlägt zunächst einen Plan vor. Erst nachdem der Nutzer ihn geprüft, angepasst und freigegeben hat, beginnt die eigentliche Ausführung.
Automatische Erstellung von Charts und Infografiken: Wenn die Option visualization="auto" aktiviert ist, erzeugt der Agent selbstständig Charts und Grafiken und gibt sie als base64-kodierte Bilder zurück.
MCP-Server-Anbindung: Unterstützt das Model Context Protocol (ein offener Standard, um externe Tools mit LLMs zu verbinden), sodass Tools externer Dienste wie etwa Finanzdaten an den Agenten angebunden werden können.
Erweiterbares Toolset: Google-Suche, Lesen von URL-Inhalten und Code-Ausführung sind standardmäßig enthalten. Dateisuche (für hochgeladene Dokumente) und MCP-Server können optional ergänzt werden.
Multimodale Eingaben: Neben Text können auch Bilder, PDFs und Audiodateien als Recherchekontext mitgegeben werden.
Echtzeit-Streaming und Denkzusammenfassungen: Der Fortschritt der Recherche kann in Echtzeit gestreamt werden; mit thinking_summaries="auto" lassen sich außerdem Zusammenfassungen der Zwischenschritte der Argumentation anzeigen.

Wichtige Codebeispiele

Das ist die grundlegendste Verwendung. Mit background=True wird eine asynchrone Aufgabe gestartet, anschließend wird im Abstand von 10 Sekunden per Polling geprüft, ob sie abgeschlossen ist.

import time  
from google import genai  
  
client = genai.Client()  
  
interaction = client.interactions.create(  
    input="Research the history of Google TPUs.",  
    agent="deep-research-preview-04-2026",  
    background=True,  
)  
  
while True:  
    interaction = client.interactions.get(interaction.id)  
    if interaction.status == "completed":  
        print(interaction.outputs[-1].text)  
        break  
    elif interaction.status == "failed":  
        print(f"Research failed: {interaction.error}")  
        break  
    time.sleep(10)

Das ist der Ablauf der kollaborativen Planung. Zunächst wird mit collaborative_planning=True nur ein Plan angefordert, dann wird Feedback gegeben, und erst nachdem am Ende auf False umgestellt wurde, startet die eigentliche Recherche. Wichtig ist: Wenn nur Text wie "go ahead" gesendet und das Flag nicht geändert wird, wird kein Bericht erzeugt.

# Schritt 1: Plan anfordern  
plan = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Research Google TPUs vs competitor hardware.",  
    agent_config={"type": "deep-research", "collaborative_planning": True},  
    background=True,  
)  
while (result := client.interactions.get(id=plan.id)).status != "completed":  
    time.sleep(5)  
print(result.outputs[-1].text)  # Planausgabe  
  
# Schritt 2: Plan anpassen (Gespräch mit previous_interaction_id fortsetzen)  
refined = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Add a section comparing power efficiency.",  
    agent_config={"type": "deep-research", "collaborative_planning": True},  
    previous_interaction_id=plan.id,  
    background=True,  
)  
while (result := client.interactions.get(id=refined.id)).status != "completed":  
    time.sleep(5)  
print(result.outputs[-1].text)  # Überarbeiteter Plan  
  
# Schritt 3: Nach Freigabe ausführen (unbedingt auf collaborative_planning=False umstellen)  
report = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Plan looks good!",  
    agent_config={"type": "deep-research", "collaborative_planning": False},  
    previous_interaction_id=refined.id,  
    background=True,  
)  
while (result := client.interactions.get(id=report.id)).status != "completed":  
    time.sleep(5)  
print(result.outputs[-1].text)  # Abschlussbericht

Dies sind Beispiele für die Diagrammerstellung und multimodale Eingaben. Wenn die Visualisierungsoption aktiviert ist, erzielt man bessere Ergebnisse, wenn im Prompt konkret angegeben wird, welche Art von Chart gewünscht ist.

# Recherche mit Charts  
interaction = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Analyze global semiconductor market trends. Include charts showing market share changes.",  
    agent_config={"type": "deep-research", "visualization": "auto"},  
    background=True,  
)  
  
# Multimodale Recherche mit einem PDF-Paper als Kontext  
interaction = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input=[  
        {"type": "text", "text": "What has been the impact of this research paper?"},  
        {"type": "document", "uri": "https://arxiv.org/pdf/1706.03762";, "mime_type": "application/pdf"},  
    ],  
    background=True,  
)

Dies ist ein Beispiel dafür, wie durch die Anbindung eines MCP-Servers externe Finanzdaten für den Agenten bereitgestellt werden. Mit allowed_tools kann zudem eingeschränkt werden, welche Tools der Agent aufrufen darf.

interaction = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Research how recent geopolitical events influenced USD interest rates",  
    tools=[  
        {  
            "type": "mcp_server",  
            "name": "Finance Data Provider",  
            "url": "https://finance.example.com/mcp";,  
            "headers": {"Authorization": "Bearer my-token"},  
        }  
    ],  
    background=True,  
)

Unterscheidungsmerkmale

Auffällig ist, dass hier nicht einfach nur RAG (Retrieval-Augmented Generation, also das Abrufen externer Dokumente und deren Übergabe an ein LLM) oder eine einmalige Frage-Antwort-Interaktion angeboten wird, sondern ein lang angelegter Research-Workflow aus Planung, Suche und Synthese über eine einzige API automatisiert wird. Besonders die kollaborative Planung zeigt gut die Designphilosophie: „Der Agent macht es selbst, aber die Richtung gibt der Mensch vor.“
Da sich öffentliche Websuche und die Suche in nicht öffentlichen Dokumenten allein über die Tool-Konfiguration kombinieren lassen, eröffnet sich auch Potenzial für Recherche auf Basis interner Unternehmensunterlagen.

Einordnung

Da AI-Research-Agenten nun auf API-Ebene verfügbar werden, lässt sich „Deep Research“ direkt in Anwendungen integrieren, ohne ein separates Agent-Framework einsetzen zu müssen. Allerdings verlangt die asynchrone, pollingbasierte API-Struktur von Entwicklern, die an synchrone LLM-Aufrufe gewöhnt sind, einen Wechsel im Entwurfsmuster; zudem dürfte bei einer Antwortlatenz von mehreren Minuten die Frage, wie sich das auf UX-Ebene sinnvoll auffangen lässt, die zentrale Herausforderung bei der praktischen Einführung sein.

Gemini Deep Research Agent API veröffentlicht

Verwandte Beiträge

Noch keine Kommentare.