Google DeepMind stellt Gemini 2.0 vor, ein neues KI-Modell für das agentische Zeitalter
(blog.google)- Gemini 1.0 war ein Durchbruch als multimodales Modell, das Informationen aus Text, Video, Bild, Audio und Code verarbeiten kann
- Gemini 2.0 treibt diese Vision weiter voran und entwickelt sich zu einem agentischen Modell, das die Welt verstehen, mehrere Schritte planen und Aufgaben ausführen kann
- Gemini 2.0 wird in zentrale Produkte wie die Google-Suche integriert und bietet die Fähigkeit, auch komplexere Themen und mehrstufige Fragen zu verarbeiten
Hauptmerkmale von Gemini 2.0 Flash
- Bietet auf Basis des Erfolgs von 1.5 Flash nochmals verbesserte Leistung und schnelle Reaktionszeiten
- Doppelt so schnell wie 1.5 Pro und zugleich bessere Ergebnisse in wichtigen Benchmarks
- Unterstützt nicht nur multimodale Eingaben wie Bilder, Videos und Audio, sondern auch die Generierung von Bildern zusammen mit Text sowie mehrsprachige Sprachsynthese
- Kann Tools wie Google Search, Code-Ausführung und benutzerdefinierte Funktionen nativ aufrufen
- Wird zunächst für Entwickler und vertrauenswürdige Tester bereitgestellt und soll Anfang nächsten Jahres breiter ausgerollt werden
Vorstellung von Forschungsprojekten
- Project Astra : Ein universeller KI-Assistent mit erweiterten Speicherfunktionen
- Verbesserungen bei Funktionen wie mehrsprachigen Gesprächen, der Nutzung von Google Search/Lens/Maps und einem Sitzungsspeicher von etwa 10 Minuten
- Wird über Feedback vertrauenswürdiger Tester auf Android-Geräten weiterentwickelt
- Project Mariner : Ein Forschungsprototyp, der mit dem Browser interagiert und bei komplexen Aufgaben helfen kann
- Erreichte starke 83,5 % im WebVoyager-Benchmark
- Mit eingebauten Sicherheitsmaßnahmen, die vor der endgültigen Ausführung eine Bestätigung durch den Nutzer anfordern
- Jules : Ein KI-gestützter Coding-Agent, der in GitHub-Workflows integriert ist
- Unterstützt Entwickler dabei, Issues zu lösen und Pläne auszuführen
Anwendungsfelder für KI-Agenten
- Gemeinsam mit dem Spieleentwickler Supercell wird der Einsatz von KI-Agenten in Spielen erforscht
- Zudem laufen Experimente, um die Fähigkeiten von Gemini 2.0 zur räumlichen Schlussfolgerung in der Robotik anzuwenden
Sicherheit und verantwortungsvolle Entwicklung
- Bei der Entwicklung neuer Technologien wird ein schrittweiser und explorativer Ansatz verfolgt
- Über einen KI-gestützten Red-Team-Ansatz werden automatisch Verfahren zur Risikoerkennung und -minderung erzeugt
- In Project Mariner wurden Funktionen umgesetzt, die Nutzer vor bösartigen Prompt-Injection-Versuchen schützen
- Es gibt Kontrollfunktionen zum Schutz der Privatsphäre sowie die Möglichkeit, Sitzungen zu löschen
Nächste Schritte
- Die Funktionen von Gemini 2.0 sollen auf die Gemini-App und weitere Google-Produkte ausgeweitet werden
- Auf dem Weg zu AGI sollen Sicherheit und Verantwortungsbewusstsein höchste Priorität behalten
1 Kommentare
Hacker-News-Kommentare
Das neue llm-gemini-Plugin unterstützt das Gemini-2.0-Flash-Modell. Die Nutzung im Terminal wurde geteilt.
Große Unternehmen wechseln die Richtung langsam, aber wenn sie sich einmal festgelegt haben, können sie Dinge erreichen, die kleine Unternehmen nicht schaffen.
Es übertrifft Gemini 1.5 Pro in den meisten Benchmarks.
Ein neues SDK wurde angekündigt. Es scheint modernen Best Practices zu folgen.
Es ist erfreulich, dass Googles neues Release sofort verfügbar ist.
Das Wort "agentic" wirkt unangenehm.
Das Gemini-2-Modell unterstützt Audio- und Bildgenerierung.
Gemini 2 liegt in der Chatbot Arena vor 4o.
Ich halte das Wort "agentic" für unpassend.
Über Google AI Studio im Safari-Browser auf dem iPhone wurde auf Gemini 2.0 Flash zugegriffen.