Gemini 3.0 durch A/B-Tests öffentlich entdeckt

(ricklamers.io)

5 Punkte von GN⁺ 2025-10-17 | 1 Kommentare | Auf WhatsApp teilen

Einige Nutzer haben entdeckt, dass in Google AI Studio ein neues Gemini-3.0-Modell in Form von A/B-Tests bereitgestellt wird
Von Gemini 3.0 wird als Next-Generation-Modell insbesondere eine verbesserte Coding-Leistung erwartet; reale Nutzer konnten Qualitätsunterschiede anhand eines SVG-Bildgenerierungstests bestätigen
Die Testergebnisse zeigen, dass sich die SVG-Ausgabe eines Xbox-360-Controllers deutlich verbessert hat und im Vergleich zu Gemini 2.5 Pro eine große Weiterentwicklung erkennbar ist
Die Modellkennung lautet ecpt50a2y6mpgkcn; wahrscheinlich handelt es sich um eine Gemini 3.0 Pro-Version. Bestätigt wurden zudem Leistungsänderungen wie eine um 40 % längere Ausgabe und eine um 24 Sekunden höhere TTFT
Das deutet darauf hin, dass Google mit der experimentellen Ausrollung des Gemini-Modells der nächsten Generation begonnen hat, was auf eine baldige offizielle Veröffentlichung schließen lässt

Inoffizielle Veröffentlichung und Kontext von Gemini 3.0

Jüngsten Gerüchten zufolge wurde bekannt, dass einige Nutzer in Google AI Studio per A/B-Test Zugriff auf Gemini 3.0 erhalten
Gemini 3.0 ist derzeit ein Modell, das im KI-Bereich wegen erwarteter Verbesserungen bei AI-Bild-Rendering und Coding-Leistung große Aufmerksamkeit erhält
Nach mehreren eigenen Versuchen konnte die A/B-Test-Ansicht tatsächlich erlebt werden
Verwendeter Prompt: Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
Das von Gemini 3.0 erzeugte Xbox-Controller-SVG war in Bezug auf Details, Genauigkeit und Layout-Qualität dem bestehenden Modell klar überlegen
Als Modell-ID wurde ecpt50a2y6mpgkcn bestätigt, konkrete Versionsinformationen lassen sich jedoch schwer bestimmen
Da als Standardauswahlmodell Gemini 2.5 Pro eingestellt war, liegt die Vermutung nahe, dass tatsächlich mit Gemini 3.0 Pro verglichen wurde
Im Vergleich zu Gemini 2.5 Pro
- TTFT (Time to First Token) um etwa 24 Sekunden erhöht
- Ausgabelänge um etwa 40 % erhöht
- Möglichkeit der Einbeziehung von Reasoning-Tokens

Appendix

Auflistung der ausgegebenen Bilder aus dem A/B-Vergleich zwischen Gemini 3.0 und Gemini 2.5 Pro

1 Kommentare

GN⁺ 2025-10-17

Hacker-News-Kommentare

Ich gehöre damit vielleicht zu einer Minderheit, aber obwohl ich bei der Arbeit alle Pro-Modelle nutzen kann, habe ich die Erfahrung gemacht, dass Gemini durchweg besser ist als ChatGPT, Claude und Deepseek. Vielleicht liegt das daran, dass ich viel Webentwicklung mache, besonders HTML/SCSS, und ich denke, Googles Vorteil ist, dass sie das Internet gecrawlt haben und dadurch mehr Daten besitzen. Jedes Modell hat wohl seine Stärken, aber bei UI/UX-Webentwicklung ist Gemini für mich wirklich herausragend. Ich freue mich sehr auf Version 3.0.
- Ich fand Gemini 2.5 Pro in den beiden folgenden Fällen besonders besser als Claude und GPT-5.
  - Kreatives Schreiben: Gemini ist den anderen Modellen hier deutlich überlegen. Für mich ist Gemini 2.5 Pro persönlich das einzige Modell, das man überhaupt halbwegs für kreatives Schreiben (Gedichte, Kurzgeschichten) nutzen kann. Es versteht Nuancen ziemlich gut, deshalb nutze ich es auch, um meine eigenen kreativen Texte zu kritisieren. Natürlich sind alle Modelle in Bereichen wie dem Schreiben von Gedichten noch immer unzureichend.
  - Komplexes Schlussfolgern (Mathematik auf Bachelor-/Master-Niveau): Gemini ist minimal genauer, deshalb halte ich es hier für das beste Modell. Claude Opus 4.1 und Sonnet 4.5 sind auf ähnlichem Niveau, aber Gemini 2.5 liefert konsistentere und besser vorhersehbare Antworten (ich nutze es oft für Algebra, kommutative Algebra, Kategorientheorie, algebraische Geometrie, Topologie usw.).
  - Allerdings ist Gemini in der Rolle als „Agent“ schwächer als Claude und GPT-5, etwa beim Durchsuchen großer Codebasen oder bei offenen Refactoring-Anfragen. Es gibt teilweise Probleme mit Tool-Calling, deshalb verhält es sich in Copilot/Cursor inkonsistent.
  - Insgesamt halte ich Gemini 2.5 Pro für das intelligenteste Modell, aber ich denke, es ist richtig, je nach Aufgabe unterschiedliche Modelle zu verwenden.
- Vor ein paar Wochen hat ein Third-Party-Skript das Klick-Event meines React-Buttons gestört, und ich wollte das durch Hinzufügen eines mousedown-Events beheben. Ich war müde und wollte schnell und grob etwas bauen, das einige ms nach mousedown einen Klick simuliert. Also erklärte ich Gemini meinen Plan, und Gemini lehnte das direkt ab und schlug stattdessen eine sauberere Lösung vor: die Kombination von mousedown und mouseup. Ich war wirklich überrascht, dass es das Problem perfekt verstanden und statt meiner Wunschlösung einen besseren Ansatz empfohlen hat.
- Wir benchmarken in unserem Unternehmen die großen LLM-Modelle, und Gemini 2.5 ist mit großem Abstand auf Platz 1, abgesehen von einigen sehr spezifischen Bereichen. Das passt gut zu den Gerüchten, dass Googles Pretraining am besten ist, mit nur etwas enttäuschendem Tuning/Alignment. Genau deshalb freue ich mich sehr auf Gemini 3. Version 2.5 ist zwar die beste, hat aber noch viel Verbesserungspotenzial. (Spezifische Bereiche: „echtes Schlussfolgern“ (GPT-5) und Schreiben von Python-Skripten (Claude-Familie)).
- Bei Suchgenauigkeit oder faktenbasierten Aufgaben habe ich das Gefühl, dass sowohl Claude als auch Gemini deutlich hinter ChatGPT zurückliegen. Gemini beginnt nach ein paar Suchvorgängen schon ungefähr Dinge zu erfinden, während ChatGPT dutzende bis hunderte Suchläufe wiederholt und auf Basis früherer Ergebnisse weiter sucht.
- Ich mag das größere Kontextfenster von Gemini wirklich sehr. Meine Arbeitsweise besteht darin, die gesamte Codebasis in Strings umzuwandeln, in Gemini einzufügen und dann Fragen zu stellen. Andere freuen sich darüber, dass „Agenten“ nur ein paar Dateien auswählen und ansehen, aber ich finde es viel praktischer und effektiver, einfach die komplette Codebasis hineinzuwerfen und dann interaktiv mit Codegenerierung, Dateibearbeitung usw. zu arbeiten.
Ich verstehe den übermäßigen Fokus auf das Erzeugen von SVGs mit LLMs nicht so ganz. Diese Aufgabe gelingt selten auf Anhieb, und selbst für Menschen ist sie schwer auszuprobieren, daher ist sie nicht besonders nützlich. Wenn ein Modell visuelles Feedback bekommen und das Ergebnis verbessern könnte, wäre das viel hilfreicher. Weil das jetzt zu einer beliebten Benchmark-Aufgabe geworden ist, fügen Unternehmen Beispieldaten in die Trainingssätze ein, sodass man am Ende nur noch vergleicht, wer den besseren „Text-to-SVG“-Datensatz verwendet hat, und nicht die Gesamtqualität des Modells.
Seit etwa einem Monat tauchen mit allerlei Spekulationen immer wieder Neuigkeiten zu Gemini 3 auf. Bis zur offiziellen Ankündigung sollte man mit Urteilen abwarten; niemand weiß, ob es ein Ersatz für Pro, Flash oder Flash Lite wird, ein komplett neues Modell ist oder überhaupt veröffentlicht wird. Durch die A/B-Tests in AIStudio bekommt man nur das Ergebnis eines einzigen Prompts und kann höchstens Geschwindigkeit, Latenz und Instruktionsbefolgung einschätzen. Die tatsächliche Leistungsfähigkeit eines Modells auf Basis eines einzelnen Prompts zu bewerten, halte ich nicht für eine professionelle Evaluation. Wie es mit mehreren Dateien oder Tool-Calling umgeht, kann man dabei natürlich nicht beurteilen. Statt die Erwartungen blind hochzuschrauben, sollte man weder übertriebener Hoffnung noch Enttäuschung verfallen. Das ist auch der Grund, warum ich spekulative Inhalte nicht besonders mag: Es wird nur Reizvolles betont, ohne echten Kontext und Analyse.
- Heutzutage wirkt es fast so, als wäre Hype selbst ein Beruf geworden, aber unter jedem Twitter-Link stehen übertriebene Reaktionen wie „GAME CHANGER!!!“ oder „Everyone will be shocked!“, und das nervt mich etwas. Die tatsächlichen Beispiele sind beeindruckend, aber es ist schade, dass fast nur solche unprofessionellen Bewertungen kursieren.
Das ist wirklich eine hervorragende Pelikan-Zeichnung. Ich freue mich sehr darauf, Gemini 3 auszuprobieren. Passendes Twitter-Beispiel
- Der Benchmark ist (endlich) gebrochen.
- Es wirkt kunstvoller als erwartet.
- Ist das wirklich gut? Für meine Augen sieht es einfach nicht besonders gut aus.
Was ich ungewöhnlich fand: Gemini 2.5 Pro ist für die meisten Zwecke Spitzenklasse, aber nur unbedingt bei der ersten Frage. Das heißt, es ist am besten, wenn der gesamte Kontext enthalten ist und man genau eine Frage stellt und genau eine Antwort erhält. Je länger man das Gespräch fortsetzt, desto schneller sinkt die Qualität. Das ist seltsam, obwohl das Kontextfenster länger ist als bei anderen Modellen. Ich nutze es so, dass ich das ganze Projekt (ungefähr 200.000 Tokens) ins Chatfenster gebe, eine einzige gut formulierte Frage stelle und dieses Chatfenster dann sofort schließe.
- Das Phänomen, dass die Antwortqualität bei langen Gesprächen kontinuierlich schlechter wird, war bei allen LLMs gleich, die ich bisher benutzt habe. Deshalb gehe ich nie über zwei Nachrichten hinaus. Wenn die erste Antwort nicht das liefert, was ich will, dann sinkt die Wahrscheinlichkeit auf eine richtige Antwort mit jeder weiteren Nachricht. Ich finde, man sollte immer einen neuen Chat beginnen und es mit angepassten Prompts erneut versuchen.
Es heißt, „Gemini 3.0 ist derzeit eines der am meisten erwarteten AI-Releases, insbesondere wegen der verbesserten Fähigkeiten beim Schreiben von Code“, aber nach dem, was ich von Freunden höre, die es intern bei Google verwenden, werden alle enttäuscht sein.
Edit: Tatsächlich können sie Gemini 3 gar nicht benutzen, also ist es eher selbstverständlich, dass sie sagen, es sei nicht gut.
- Gemini 3.0 ist selbst intern bei Google derzeit nicht breit ausgerollt. „Gemini for Google“ ist eine feinabgestimmte Version von 2.5 Pro oder 2.5 Flash. Das 3.0-Modell selbst wird nicht breit genutzt. (Google-Mitarbeiter, arbeite in einem zahlungsbezogenen Team, persönliche Meinung.)
- Tut mir leid, dieser Euphorie einen Dämpfer zu verpassen, aber selbst unser Vibecoding-Team bei Google nutzt Gemini 3 nicht.
- Das ist nicht überraschend. LLMs stoßen an die Grenze ihrer Leistungsverbesserungen (abnehmende Erträge), und man braucht einen Weg, GPUs billiger herzustellen.
Auf Twitter tauchen gerade viel mehr Beispiele zu Gemini 3 auf. Nachdem ich sie gesehen habe, habe ich sofort Google-Aktien gekauft. Wenn man die Ergebnisse betrachtet, wirkt es so, als würde das Modell nicht einfach alte Templates kopieren und einfügen, sondern tatsächlich kreative neue Designs erzeugen. Auf Code-Ebene derart konsistente und schöne Ergebnisse zu liefern, ist extrem schwierig, und es hat mich schockiert, dass Gemini 3 das offenbar schafft. Außerdem ist Google das einzige Unternehmen, das die vertikale Integration bis hin zu Modell und Hardware vollendet hat, daher halte ich seine Erfolgschancen im AI-Zeitalter für sehr hoch.
- Ich bin kein Finanzexperte, aber ich kann dir sagen, dass es keine sichere Anlagestrategie ist, Aktien nur auf Basis von Hype-Tweets zu kaufen. Wenn es aber Spielgeld ist und du es zum Spaß probierst, ist natürlich alles okay.
Auf chetasluas Twitter werden verschiedene Versuchsergebnisse zu Gemini 3 gepostet (Web-Desktop, Vampire-Survivor-Klon, tatsächlich spielbares Vogel-3D-Modell, verschiedene Spieleklone, SVGs usw.). Besonders im One-Shot-Format sind die Ergebnisse sehr stark und beeindruckend.
- Dieses Beispiel fand ich wirklich originell: CodePen-Live-Demo
  Wenn man das Python-Terminal startet, erscheint ein etwas lustiger Effekt des Durchbrechens der vierten Wand.
  1. Wenn man das „Python“-Schlüsselwort print verwendet, öffnet sich im Browser tatsächlich der Drucken-Dialog.
  2. Wenn man das „Python“-Schlüsselwort open verwendet, öffnet sich ein neuer Browser-Tab und versucht, auf die betreffende Datei zuzugreifen.
    Das heißt, die Ausführung von print und open ist direkt mit dem Browser verbunden.
Ich hoffe, das Looping-Problem wird verbessert. Es ist wirklich ein ernstes Problem. Sogar die CLI hat eine Loop-Erkennung, und sie schlägt schon nach einer Minute Nutzung an. Auch 2.5 Pro in der Gemini-App ist fast unbenutzbar, weil es Wörter immer wieder wiederholt, selbst wenn man mehrmals anweist, nicht zu wiederholen.
Ich frage mich, ob die Modelle SVGs „mit den Augen“ bewerten und dann mehrfach überarbeiten, oder ob erwartet wird, dass sie das Ergebnis in einem Durchgang perfekt liefern.
- In meinem Benchmark gibt es nur eine einzige Chance.
  Ich habe auch getestet, dem Vision-Modell das gerenderte Ergebnis zu zeigen und bis zu drei Verbesserungsrunden zuzulassen, aber überraschenderweise wurden die Ergebnisse dadurch nicht besser.

Gemini 3.0 durch A/B-Tests öffentlich entdeckt

Inoffizielle Veröffentlichung und Kontext von Gemini 3.0

Appendix

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare