Googles Modell der nächsten Generation: Gemini 1.5

(blog.google)

9 Punkte von GN⁺ 2024-02-16 | 3 Kommentare | Auf WhatsApp teilen

Letzte Woche hat Google mit der Veröffentlichung von Gemini 1.0 Ultra, seinem leistungsfähigsten Modell, einen wichtigen Fortschritt erzielt, um Google-Produkte nützlicher zu machen
Entwickler und Cloud-Kunden können über die Gemini API in AI Studio und Vertex AI mit dem Bauen auf Basis von 1.0 Ultra beginnen
Die Teams, die mit Sicherheit als Kernprinzip die Grenzen der Modelle weiter vorantreiben, machen schnelle Fortschritte und sind bereit, die nächste Generation, Gemini 1.5, vorzustellen
Gemini 1.5 zeigt in vielerlei Hinsicht deutliche Verbesserungen, und 1.5 Pro erreicht eine ähnliche Qualität wie 1.0 Ultra bei geringerem Rechenaufwand
Die neue Generation bringt einen Durchbruch beim Verständnis langer Kontexte über verschiedene Modalitäten hinweg und erhöht die vom Modell verarbeitbare Informationsmenge erheblich, mit konsistenter Ausführung bis zu 1 Million Tokens

Einführung in Gemini 1.5

Neue Fortschritte im Bereich KI haben das Potenzial, KI in Zukunft für Milliarden von Menschen nützlicher zu machen
Seit der Vorstellung von Gemini 1.0 wurde weiter getestet, verfeinert und die Leistungsfähigkeit verbessert
Gemini 1.5 bietet eine deutlich verbesserte Performance und steht auf Forschungs- und Engineering-Innovationen, die einen Wandel im Ansatz markieren
Mit einer neuen Mixture-of-Experts-(MoE)-Architektur werden Training und Bereitstellung effizienter gemacht
Gemini 1.5 Pro ist ein multimodales Modell mittlerer Größe, das für ein breites Aufgabenspektrum optimiert ist und eine Leistung auf dem Niveau von 1.0 Ultra, dem bisher größten Modell, liefert
Gemini 1.5 Pro bietet ein Standard-Kontextfenster von 128.000 Tokens, aber Entwickler und Unternehmenskunden können über AI Studio und Vertex AI ein Kontextfenster von bis zu 1 Million Tokens ausprobieren

Effiziente Architektur

Gemini 1.5 basiert auf führender Forschung zu Transformer- und MoE-Architekturen
Ein traditioneller Transformer arbeitet als ein einziges großes neuronales Netz, während ein MoE-Modell in kleinere „Experten“-Netze unterteilt ist
Je nach Eingabetyp lernt ein MoE-Modell, im neuronalen Netz nur die relevantesten Expertenpfade selektiv zu aktivieren
Diese Spezialisierung verbessert die Effizienz des Modells erheblich

Größerer Kontext, nützlichere Funktionen

Das „Kontextfenster“ eines KI-Modells besteht aus Tokens, die zur Informationsverarbeitung verwendet werden
Je größer das Kontextfenster eines Modells ist, desto mehr Informationen kann es auf einmal verarbeiten, wodurch die Ausgaben konsistenter, relevanter und nützlicher werden
Durch Innovationen im Machine Learning konnte die Kapazität des Kontextfensters von 1.5 Pro weit über die ursprünglichen 32.000 Tokens von Gemini 1.0 hinaus erweitert werden
1.5 Pro kann nun auf einmal enorme Informationsmengen verarbeiten, und in der Forschung wurde es erfolgreich mit bis zu 10 Millionen Tokens getestet

Leistungsverbesserungen

In einem umfassenden Testpanel mit Bewertungen für Text, Code, Bilder, Audio und Video übertraf 1.5 Pro 1.0 Pro bei 87 % der Benchmarks, die zur Entwicklung großer Sprachmodelle (LLMs) verwendet wurden
1.5 Pro hält trotz des vergrößerten Kontextfensters ein hohes Leistungsniveau aufrecht

Umfangreiche Ethik- und Sicherheitstests

Entsprechend den KI-Prinzipien und strengen Sicherheitsrichtlinien wird sichergestellt, dass die Modelle umfangreiche Ethik- und Sicherheitstests durchlaufen
Seit der Veröffentlichung von 1.0 Ultra hat das Team das Modell kontinuierlich verfeinert, um es für einen breiteren Release sicher zu machen
Vor dem Start von 1.5 Pro wurden umfangreiche Bewertungen in Bereichen wie Inhaltssicherheit und Schäden durch Repräsentation durchgeführt; diese Tests sollen fortlaufend erweitert werden

Mit Gemini-Modellen entwickeln und experimentieren

Es wurde das Ziel gesetzt, die neue Generation der Gemini-Modelle Milliarden von Menschen weltweit sowie Entwicklern und Unternehmen verantwortungsvoll bereitzustellen
Ab heute ist eine begrenzte Preview von 1.5 Pro für Entwickler und Unternehmenskunden über AI Studio und Vertex AI verfügbar
Sobald das Modell für einen breiteren Release bereit ist, soll 1.5 Pro mit dem Standard-Kontextfenster von 128.000 Tokens eingeführt werden
Frühe Tester können das Kontextfenster von 1 Million Tokens während der Testphase kostenlos ausprobieren, allerdings kann diese experimentelle Funktion zu höherer Latenz führen

Meinung von GN⁺

Der wichtigste Punkt bei Gemini 1.5 ist, dass die Menge an Informationen, die ein KI-Modell verarbeiten kann, stark erhöht wird, wodurch komplexere und vielfältigere Aufgaben möglich werden
Dieses Modell hebt die Entwicklung von KI auf eine neue Ebene und wird Entwicklern und Unternehmen helfen, nützlichere Modelle und Anwendungen zu bauen
Es ist ein Beispiel dafür, wie Googles Forschung und Innovation die Zukunft der KI-Technologie prägen, und diese Technologie bietet spannende Einblicke darin, wie KI künftig in unseren Alltag integriert werden kann

3 Kommentare

yoo04233 2024-02-17

Von den AI-Tools, die ich aktuell nutze, verwende ich am häufigsten GPT-4, und es sieht so aus, als würde AI-Technologie nach und nach noch stärker in den Alltag integriert werden.

riskatcher 2024-02-16

Google scheint ziemlich unter Druck zu stehen. Noch bevor überhaupt etwas veröffentlicht wird, lassen sie ständig durchsickern, was besser sein soll und was nicht. Ultra unterstützt immer noch nicht einmal Mehrsprachigkeit ordentlich und ist auf einem Niveau, bei dem man den Prompt-Genie von OpenAI aus dem Vorjahr gebraucht hätte.

GN⁺ 2024-02-16

Hacker-News-Meinungen

Zusammenfassung der Kommentare zum Whitepaper:
- Unzureichende Erklärung, wie 10M Token Kontext erreicht werden: Das Whitepaper erwähnt nicht, wie ein 10M-Token-Kontext erreicht wird.
- Geringere Komplexität von RAG-Stacks: Die Fähigkeit zu 10M Kontext beseitigt sofort den Großteil der Komplexität der meisten RAG-Stacks, was viele Anwendungsfälle erheblich vereinfacht.
- Überlegenheit von 1.5 Pro: Es wird deutlich gemacht, dass 1.5 Pro GPT-4 im Allgemeinen überlegen ist, was es als neuen LLM-as-judge-Leader interessant macht.
- Hohe Leistungsfähigkeit von 1.5 Ultra: 1.5 Ultra scheint äußerst leistungsfähig zu sein, und 1.5 Pro ist bereits sehr leistungsfähig. Es erreichte in verschiedenen Tests hohe Werte, und es wird darauf hingewiesen, dass Tests mit niedrigen Werten meist auf False Negatives hinauslaufen.
- Potenzial von 1.5 Pro: 1.5 Pro sollte den Maßstab für Workflow-Aufgaben setzen. 1.0 Ultra ist sehr leistungsfähig, aber etwas langsam. Open Models, die dies nutzen, dürften sich qualitativ stark verbessern.
- Erneute Überprüfung von Coding-Tests: Es ist Zeit, Coding-Tests, die das Schreiben neuer Module verlangen, noch einmal durchzuführen.
- Neugier darauf, wie 10M Kontext erreicht werden: Die Audio- und Video-"Needle"-Tests, die auf 10M Token hinweg perfekte Erinnerung zeigen, deuten darauf hin, dass es irgendeine Form von Kompression oder Ähnlichem geben könnte und nicht einfach einen einzelnen extrem langen Vektor.
Interessante Informationen aus dem technischen Bericht:
- Problem mit Datenleckagen im HumanEval-Benchmark: HumanEval ist ein Open-Source-Evaluierungsbenchmark nach Industriestandard, aber es ist nicht leicht, versehentliche Leckagen über Webseiten und Open-Source-Code-Repositories zu kontrollieren. Die Analyse der Testdatenleckage von Gemini 1.0 Ultra zeigt, dass fortgesetztes Pretraining auf einem Datensatz, der den Test-Split von HumanEval auch nur für eine einzige Epoche enthält, den Wert deutlich von 74,4 % auf 89,0 % erhöht. Dieser Anstieg bleibt bestehen, selbst wenn Beispiele in anderen Formaten wie JSON und HTML enthalten sind. Die Forschenden fordern dazu auf, das Leckagerisiko zu minimieren, indem bei der Bewertung der Coding-Fähigkeiten solcher Modelle stets eine kleine Menge wirklich zurückgehaltener, intern geschriebener Testfunktionen beibehalten wird. Der Natural2Code-Benchmark wurde geschaffen, um diese Lücke zu schließen, folgt demselben Format wie HumanEval, hat aber andere Prompts und Test-Sets.
Bemerkenswerte Leistung im technischen Bericht:
- Langkontext-Fähigkeit von Gemini 1.5 Pro: Die Untersuchung der Langkontext-Fähigkeit von Gemini 1.5 Pro ergab kontinuierliche Verbesserungen bei der Next-Token-Prediction und nahezu perfekte Retrieval-Leistung (>99 %) bis mindestens 10M Token.
Neue Fähigkeit großer Sprachmodelle:
- Übersetzung der Sprache Kalamang: Ein Modell, dem ein Grammatikhandbuch für die Sprache Kalamang bereitgestellt wurde, die weltweit von weniger als 200 Menschen gesprochen wird, lernt, von Englisch nach Kalamang zu übersetzen, auf einem Niveau, das dem eines Menschen ähnelt, der aus demselben Material lernt.
Fehlendes Vertrauen in Google:
- Zweifel an Googles Ankündigungen: Weil ein früher veröffentlichtes Marketing-Video in Wahrheit nicht das reale Produkt zeigte, wird nichts von Google geglaubt, außer es gibt ein Eingabeformular, das sofort getestet werden kann.
Zweifel an Demis Hassabis:
- Skeptische Sicht auf frühere PR-Strategien: Gegenüber Demis Hassabis gibt es seit seiner Zeit als Videospielentwickler Skepsis in Bezug auf PR. "Infinite Polygons" wurde in der Branche zum Running Gag, und sein Spiel Republic gilt als uninteressanter Flop.
Die Umwälzung durch 10M Token:
- Zusammenhang zwischen Prompt-Größe und Qualität: 10M Token wären ein echter Gamechanger. Wenn es keinen merklichen Qualitätsabfall mit wachsender Prompt-Größe gibt, wäre das äußerst innovativ. Man würde beginnen, den Prompt selbst eher als eine Art Runtime statt als statischen Input zu betrachten.
Negative Erfahrungen mit Gemini:
- Schwache Leistung von Gemini: Nach dem Ausprobieren von Gemini war die Leistung sehr enttäuschend. Es schnitt deutlich schlechter ab als ChatGPT oder eine lokale llama. Es gibt kein Vertrauen in Googles AI-Strategie, und es wird angenommen, dass alle fähigen Talente zu OpenAI oder Anthropic gewechselt sind.
Unterschied zwischen Pro und Ultra:
- Größe des Kontextfensters: Kontextfenster bis zu einer Million Token, derzeit alles über 100k Token, eröffnen sehr interessante Möglichkeiten. RAG kann mit so vielen Informationen sehr leistungsfähig sein.
Revolution durch die Größe des Kontextfensters:
- Lösung des Problems der Input-Token-Befüllung: Wenn es tatsächlich wie beworben funktioniert, würde es die Notwendigkeit von RAG oder Fine-Tuning für bestimmte Analysen ersetzen. Man fragt sich, wie das Problem der Befüllung mit Input-Token gelöst wurde.