Googles Modell der nächsten Generation: Gemini 1.5
(blog.google)- Letzte Woche hat Google mit der Veröffentlichung von Gemini 1.0 Ultra, seinem leistungsfähigsten Modell, einen wichtigen Fortschritt erzielt, um Google-Produkte nützlicher zu machen
- Entwickler und Cloud-Kunden können über die Gemini API in AI Studio und Vertex AI mit dem Bauen auf Basis von 1.0 Ultra beginnen
- Die Teams, die mit Sicherheit als Kernprinzip die Grenzen der Modelle weiter vorantreiben, machen schnelle Fortschritte und sind bereit, die nächste Generation, Gemini 1.5, vorzustellen
- Gemini 1.5 zeigt in vielerlei Hinsicht deutliche Verbesserungen, und 1.5 Pro erreicht eine ähnliche Qualität wie 1.0 Ultra bei geringerem Rechenaufwand
- Die neue Generation bringt einen Durchbruch beim Verständnis langer Kontexte über verschiedene Modalitäten hinweg und erhöht die vom Modell verarbeitbare Informationsmenge erheblich, mit konsistenter Ausführung bis zu 1 Million Tokens
Einführung in Gemini 1.5
- Neue Fortschritte im Bereich KI haben das Potenzial, KI in Zukunft für Milliarden von Menschen nützlicher zu machen
- Seit der Vorstellung von Gemini 1.0 wurde weiter getestet, verfeinert und die Leistungsfähigkeit verbessert
- Gemini 1.5 bietet eine deutlich verbesserte Performance und steht auf Forschungs- und Engineering-Innovationen, die einen Wandel im Ansatz markieren
- Mit einer neuen Mixture-of-Experts-(MoE)-Architektur werden Training und Bereitstellung effizienter gemacht
- Gemini 1.5 Pro ist ein multimodales Modell mittlerer Größe, das für ein breites Aufgabenspektrum optimiert ist und eine Leistung auf dem Niveau von 1.0 Ultra, dem bisher größten Modell, liefert
- Gemini 1.5 Pro bietet ein Standard-Kontextfenster von 128.000 Tokens, aber Entwickler und Unternehmenskunden können über AI Studio und Vertex AI ein Kontextfenster von bis zu 1 Million Tokens ausprobieren
Effiziente Architektur
- Gemini 1.5 basiert auf führender Forschung zu Transformer- und MoE-Architekturen
- Ein traditioneller Transformer arbeitet als ein einziges großes neuronales Netz, während ein MoE-Modell in kleinere „Experten“-Netze unterteilt ist
- Je nach Eingabetyp lernt ein MoE-Modell, im neuronalen Netz nur die relevantesten Expertenpfade selektiv zu aktivieren
- Diese Spezialisierung verbessert die Effizienz des Modells erheblich
Größerer Kontext, nützlichere Funktionen
- Das „Kontextfenster“ eines KI-Modells besteht aus Tokens, die zur Informationsverarbeitung verwendet werden
- Je größer das Kontextfenster eines Modells ist, desto mehr Informationen kann es auf einmal verarbeiten, wodurch die Ausgaben konsistenter, relevanter und nützlicher werden
- Durch Innovationen im Machine Learning konnte die Kapazität des Kontextfensters von 1.5 Pro weit über die ursprünglichen 32.000 Tokens von Gemini 1.0 hinaus erweitert werden
- 1.5 Pro kann nun auf einmal enorme Informationsmengen verarbeiten, und in der Forschung wurde es erfolgreich mit bis zu 10 Millionen Tokens getestet
Leistungsverbesserungen
- In einem umfassenden Testpanel mit Bewertungen für Text, Code, Bilder, Audio und Video übertraf 1.5 Pro 1.0 Pro bei 87 % der Benchmarks, die zur Entwicklung großer Sprachmodelle (LLMs) verwendet wurden
- 1.5 Pro hält trotz des vergrößerten Kontextfensters ein hohes Leistungsniveau aufrecht
Umfangreiche Ethik- und Sicherheitstests
- Entsprechend den KI-Prinzipien und strengen Sicherheitsrichtlinien wird sichergestellt, dass die Modelle umfangreiche Ethik- und Sicherheitstests durchlaufen
- Seit der Veröffentlichung von 1.0 Ultra hat das Team das Modell kontinuierlich verfeinert, um es für einen breiteren Release sicher zu machen
- Vor dem Start von 1.5 Pro wurden umfangreiche Bewertungen in Bereichen wie Inhaltssicherheit und Schäden durch Repräsentation durchgeführt; diese Tests sollen fortlaufend erweitert werden
Mit Gemini-Modellen entwickeln und experimentieren
- Es wurde das Ziel gesetzt, die neue Generation der Gemini-Modelle Milliarden von Menschen weltweit sowie Entwicklern und Unternehmen verantwortungsvoll bereitzustellen
- Ab heute ist eine begrenzte Preview von 1.5 Pro für Entwickler und Unternehmenskunden über AI Studio und Vertex AI verfügbar
- Sobald das Modell für einen breiteren Release bereit ist, soll 1.5 Pro mit dem Standard-Kontextfenster von 128.000 Tokens eingeführt werden
- Frühe Tester können das Kontextfenster von 1 Million Tokens während der Testphase kostenlos ausprobieren, allerdings kann diese experimentelle Funktion zu höherer Latenz führen
Meinung von GN⁺
- Der wichtigste Punkt bei Gemini 1.5 ist, dass die Menge an Informationen, die ein KI-Modell verarbeiten kann, stark erhöht wird, wodurch komplexere und vielfältigere Aufgaben möglich werden
- Dieses Modell hebt die Entwicklung von KI auf eine neue Ebene und wird Entwicklern und Unternehmen helfen, nützlichere Modelle und Anwendungen zu bauen
- Es ist ein Beispiel dafür, wie Googles Forschung und Innovation die Zukunft der KI-Technologie prägen, und diese Technologie bietet spannende Einblicke darin, wie KI künftig in unseren Alltag integriert werden kann
3 Kommentare
Von den AI-Tools, die ich aktuell nutze, verwende ich am häufigsten GPT-4, und es sieht so aus, als würde AI-Technologie nach und nach noch stärker in den Alltag integriert werden.
Google scheint ziemlich unter Druck zu stehen. Noch bevor überhaupt etwas veröffentlicht wird, lassen sie ständig durchsickern, was besser sein soll und was nicht. Ultra unterstützt immer noch nicht einmal Mehrsprachigkeit ordentlich und ist auf einem Niveau, bei dem man den Prompt-Genie von OpenAI aus dem Vorjahr gebraucht hätte.
Hacker-News-Meinungen
Zusammenfassung der Kommentare zum Whitepaper:
Interessante Informationen aus dem technischen Bericht:
Bemerkenswerte Leistung im technischen Bericht:
Neue Fähigkeit großer Sprachmodelle:
Fehlendes Vertrauen in Google:
Zweifel an Demis Hassabis:
Die Umwälzung durch 10M Token:
Negative Erfahrungen mit Gemini:
Unterschied zwischen Pro und Ultra:
Revolution durch die Größe des Kontextfensters: