Google DeepMind stellt Gemini 2.0 vor, ein neues KI-Modell für das agentische Zeitalter

(blog.google)

2 Punkte von GN⁺ 2024-12-12 | 1 Kommentare | Auf WhatsApp teilen

Gemini 1.0 war ein Durchbruch als multimodales Modell, das Informationen aus Text, Video, Bild, Audio und Code verarbeiten kann
Gemini 2.0 treibt diese Vision weiter voran und entwickelt sich zu einem agentischen Modell, das die Welt verstehen, mehrere Schritte planen und Aufgaben ausführen kann
Gemini 2.0 wird in zentrale Produkte wie die Google-Suche integriert und bietet die Fähigkeit, auch komplexere Themen und mehrstufige Fragen zu verarbeiten

Hauptmerkmale von Gemini 2.0 Flash

Bietet auf Basis des Erfolgs von 1.5 Flash nochmals verbesserte Leistung und schnelle Reaktionszeiten
Doppelt so schnell wie 1.5 Pro und zugleich bessere Ergebnisse in wichtigen Benchmarks
Unterstützt nicht nur multimodale Eingaben wie Bilder, Videos und Audio, sondern auch die Generierung von Bildern zusammen mit Text sowie mehrsprachige Sprachsynthese
Kann Tools wie Google Search, Code-Ausführung und benutzerdefinierte Funktionen nativ aufrufen
Wird zunächst für Entwickler und vertrauenswürdige Tester bereitgestellt und soll Anfang nächsten Jahres breiter ausgerollt werden

Vorstellung von Forschungsprojekten

Project Astra : Ein universeller KI-Assistent mit erweiterten Speicherfunktionen
- Verbesserungen bei Funktionen wie mehrsprachigen Gesprächen, der Nutzung von Google Search/Lens/Maps und einem Sitzungsspeicher von etwa 10 Minuten
- Wird über Feedback vertrauenswürdiger Tester auf Android-Geräten weiterentwickelt
Project Mariner : Ein Forschungsprototyp, der mit dem Browser interagiert und bei komplexen Aufgaben helfen kann
- Erreichte starke 83,5 % im WebVoyager-Benchmark
- Mit eingebauten Sicherheitsmaßnahmen, die vor der endgültigen Ausführung eine Bestätigung durch den Nutzer anfordern
Jules : Ein KI-gestützter Coding-Agent, der in GitHub-Workflows integriert ist
- Unterstützt Entwickler dabei, Issues zu lösen und Pläne auszuführen

Anwendungsfelder für KI-Agenten

Gemeinsam mit dem Spieleentwickler Supercell wird der Einsatz von KI-Agenten in Spielen erforscht
Zudem laufen Experimente, um die Fähigkeiten von Gemini 2.0 zur räumlichen Schlussfolgerung in der Robotik anzuwenden

Sicherheit und verantwortungsvolle Entwicklung

Bei der Entwicklung neuer Technologien wird ein schrittweiser und explorativer Ansatz verfolgt
Über einen KI-gestützten Red-Team-Ansatz werden automatisch Verfahren zur Risikoerkennung und -minderung erzeugt
In Project Mariner wurden Funktionen umgesetzt, die Nutzer vor bösartigen Prompt-Injection-Versuchen schützen
Es gibt Kontrollfunktionen zum Schutz der Privatsphäre sowie die Möglichkeit, Sitzungen zu löschen

Nächste Schritte

Die Funktionen von Gemini 2.0 sollen auf die Gemini-App und weitere Google-Produkte ausgeweitet werden
Auf dem Weg zu AGI sollen Sicherheit und Verantwortungsbewusstsein höchste Priorität behalten

1 Kommentare

GN⁺ 2024-12-12

Hacker-News-Kommentare

Das neue llm-gemini-Plugin unterstützt das Gemini-2.0-Flash-Modell. Die Nutzung im Terminal wurde geteilt.
- Gemini-Modelle können Python-Code schreiben und ausführen.
- Netzwerkaufrufe sind nicht möglich, aber es wurden verschiedene Ansätze ausprobiert.
- Es zeigt eine starke Leistung bei visuellen Erklärungen.
Große Unternehmen wechseln die Richtung langsam, aber wenn sie sich einmal festgelegt haben, können sie Dinge erreichen, die kleine Unternehmen nicht schaffen.
- Google verfügt in diesem Bereich über viele Talente und erzielt gute Ergebnisse.
- Ob es bei Produktisierung und Marketing von LLM-Modellen mithalten kann, ist noch offen, aber die Leistung ist hervorragend.
Es übertrifft Gemini 1.5 Pro in den meisten Benchmarks.
- Google DeepMind passt sich an das LLM-Zeitalter an.
- Über TPUs kontrolliert es die Hardware direkt.
Ein neues SDK wurde angekündigt. Es scheint modernen Best Practices zu folgen.
- Es wurden zwar OpenAI-kompatible Endpunkte angeboten, aber ob sie langfristig unterstützt werden, war unklar.
- Es wird empfohlen, Kubernetes-Cluster und GCP-Bucket-Konfigurationen einzurichten.
Es ist erfreulich, dass Googles neues Release sofort verfügbar ist.
- Gemini Flash 2.0 übertrifft Gemini Pro 1.5 bei Advent-of-Code-Problemen.
- Flash 2.0 behebt Kompilierungsfehler.
Das Wort "agentic" wirkt unangenehm.
- Wörter wie "vielseitig", "facettenreich" oder "autonom" wären passender.
Das Gemini-2-Modell unterstützt Audio- und Bildgenerierung.
- Die Bildgenerierung soll im Januar allgemein verfügbar werden.
- Computer-Vision-Aufgaben werden über LLMs möglich werden.
Gemini 2 liegt in der Chatbot Arena vor 4o.
Ich halte das Wort "agentic" für unpassend.
- Es handelt sich größtenteils um eine Pipeline aus System-Prompts und Tools.
Über Google AI Studio im Safari-Browser auf dem iPhone wurde auf Gemini 2.0 Flash zugegriffen.
- Es identifizierte präzise, was durch die Kamera zu sehen war.
- Es konnte englischen und japanischen Text lesen.
- Es erkannte Klaviertöne visuell, aber nicht allein über den Ton.

Google DeepMind stellt Gemini 2.0 vor, ein neues KI-Modell für das agentische Zeitalter

Hauptmerkmale von Gemini 2.0 Flash

Vorstellung von Forschungsprojekten

Anwendungsfelder für KI-Agenten

Sicherheit und verantwortungsvolle Entwicklung

Nächste Schritte

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare