Veröffentlichung von Gemini 2.0

(developers.googleblog.com)

3 Punkte von lemonmint 2024-12-12 | 1 Kommentare | Auf WhatsApp teilen

Gemini 2.0: Das KI-Modell der nächsten Generation für Entwickler

Ein hochmodernes KI-Modell von Google, das Entwickler dabei unterstützt, die Zukunft der KI zu gestalten.
Seit der Veröffentlichung von Gemini 1.0 nutzen Millionen von Entwicklern Gemini in 109 Sprachen über Google AI Studio und Vertex AI.
Mit Gemini 2.0 Flash Experimental wird die Entwicklung noch immersiver und interaktiver Anwendungen möglich, außerdem gibt es einen neuen Coding-Agenten, der Aufgaben im Namen von Entwicklern ausführt.

Gemini 2.0 Flash

Ein auf dem Erfolg von Gemini 1.5 Flash aufbauendes Modell, das doppelt so schnell wie 1.5 Pro ist und zugleich starke Leistung bietet.
Bietet neue multimodale Ausgabefunktionen und native Tool-Nutzung.
Führt eine multimodale Live-API ein, mit der sich dynamische Anwendungen über Audio- und Video-Streaming in Echtzeit erstellen lassen.
Entwickler können das experimentelle Gemini 2.0 Flash in Google AI Studio und Vertex AI testen und erkunden; die allgemeine Verfügbarkeit ist für Anfang nächsten Jahres geplant.

Hauptfunktionen:

Verbesserte Leistung:
- Leistungsstärker als Gemini 1.5 Pro und dabei mit der Geschwindigkeit und Effizienz des Flash-Modells.
- Verbesserte Leistung bei Multimodalität, Text, Code, Video, räumlichem Verständnis und Schlussfolgern.
- Insbesondere verbessert das gesteigerte räumliche Verständnis die Genauigkeit beim Erzeugen von Bounding Boxes für kleine Objekte in komplexen Bildern.
Neue Ausgabeformen:
- Über einen einzigen API-Aufruf lassen sich kombinierte Antworten erzeugen, die Text, Audio und Bilder enthalten.
- Das unsichtbare Wasserzeichen SynthID wird auf alle Bild- und Audioausgaben angewendet, um Probleme mit Fehlinformationen und falscher Zuschreibung zu verringern.
- Mehrsprachige native Audioausgabe: Mit 8 hochwertigen Stimmen sowie einer Auswahl verschiedener Sprachen und Akzente lässt sich die Text-to-Speech-Audioausgabe fein steuern.
- Native Bildausgabe: Kann Bilder erzeugen und unterstützt interaktive Bearbeitung über mehrere Durchläufe, sodass Bilder auf Basis vorheriger Ausgaben verbessert werden können. Das ist nützlich, um multimodale Inhalte wie etwa Rezepte durch die Kombination von Text und Bildern zu erstellen.
Native Tool-Nutzung:
- Verfügt über Tool-Nutzung als grundlegende Fähigkeit zum Aufbau von Agenten-Erlebnissen.
- Kann Tools wie Google Search und Code Execution nativ aufrufen und über benutzerdefinierte Function Calling auch Drittanbieter-Funktionen nutzen.
- Die Nutzung von Google Search als Tool ermöglicht faktenbasiertere und umfassendere Antworten und erhöht den Traffic für Publisher.
- Mehrere Suchanfragen können parallel ausgeführt werden, um gleichzeitig relevante Informationen aus mehreren Quellen zu finden und so die Genauigkeit zu erhöhen.
Multimodale Live-API:
- Ermöglicht den Aufbau multimodaler Echtzeit-Anwendungen mit Audio- und Video-Streaming-Eingaben von Kamera oder Bildschirm.
- Unterstützt natürliche Gesprächsmuster wie Unterbrechungen und Voice Activity Detection.
- Mehrere Tools können integriert werden, um komplexe Anwendungsfälle mit einem einzigen API-Aufruf zu lösen.

Fortschritte bei KI-gestützter Code-Unterstützung

KI-gestützte Code-Unterstützung entwickelt sich rasant von einfacher Code-Suche zu KI-basierten Helfern, die direkt in Entwickler-Workflows eingebettet sind.
Auf Gemini 2.0 basierende Coding-Agenten können Aufgaben im Namen von Entwicklern ausführen.
2.0 Flash mit Code-Execution-Tool erreichte in SWE-bench Verified, das die Agentenleistung bei realen Software-Engineering-Aufgaben testet, eine Erfolgsquote von 51,8 %.

Jules: KI-basierter Code-Agent

Ein experimenteller KI-basierter Code-Agent für Python- und Javascript-Coding-Aufgaben.
Er ist in GitHub-Workflows integriert, arbeitet asynchron und übernimmt Bugfixes sowie andere zeitaufwendige Aufgaben.
Jules erstellt einen umfassenden mehrstufigen Plan zur Problemlösung, bearbeitet effizient mehrere Dateien und bereitet Pull Requests vor, um Änderungen direkt in GitHub einzubringen.

Vorteile von Jules:

Höhere Produktivität: Durch asynchrones Coding lassen sich Probleme und Coding-Aufgaben an Jules delegieren, was die Effizienz steigert.
Fortschrittsverfolgung: Echtzeit-Updates helfen dabei, informiert zu bleiben und Aufgaben mit nötiger Aufmerksamkeit zu priorisieren.
Kontrolle für Entwickler: Der von Jules erstellte Plan kann überprüft, Feedback gegeben oder Anpassungen angefordert werden. Der von Jules geschriebene Code kann geprüft und in das Projekt gemergt werden.
Derzeit für eine Gruppe vertrauenswürdiger Tester verfügbar; Anfang 2025 soll es auch anderen Entwicklern bereitgestellt werden.

Data-Science-Agent in Colab

Unter labs.google/code gibt es einen experimentellen Data-Science-Agenten, mit dem sich Datensätze hochladen und innerhalb weniger Minuten Erkenntnisse gewinnen lassen.
Dieselben Agentenfunktionen werden mit Gemini 2.0 auch in Colab integriert.
Wenn Analyseziele in natürlicher Sprache beschrieben werden, wird automatisch ein Notebook erzeugt, das Forschung und Datenanalyse beschleunigen kann.
Über das Trusted-Tester-Programm wird Early Access angeboten; in der ersten Hälfte von 2025 soll die Funktion breiter für Colab-Nutzer ausgerollt werden.

Unterstützung für Entwickler

Die Modelle von Gemini 2.0 helfen Entwicklern dabei, leistungsstarke KI-Apps schneller und einfacher zu erstellen.
Gemini 2.0 soll in Plattformen wie Android Studio, Chrome DevTools und Firebase integriert werden.
Gemini 2.0 Flash wird in Gemini Code Assist für verbesserte Coding-Unterstützung in beliebten IDEs wie Visual Studio Code, IntelliJ und PyCharm verfügbar sein.

1 Kommentare

lemonmint 2024-12-12

Es scheint jetzt in Google AI Studio und Vertex AI verfügbar zu sein.

Die Modellleistung und die Latenz der Live-E2E-Sprachausgabe sind beeindruckend.