5 Punkte von GN⁺ 2025-03-29 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Das von Google veröffentlichte Gemini 2.5 Pro erhielt wegen der spektakulären Einführung der Bildgenerierungsfunktionen von GPT-4o weniger Aufmerksamkeit, stellt aber tatsächlich einen wichtigen Fortschritt dar
  • Die Code-Erstellungsleistung ist herausragend, und mit einer Kontextlänge von bis zu 1 Million Token kann es sogar ganze Codebasen verarbeiten
  • Auch das Nutzerfeedback ist sehr positiv, und in realen Coding-Tests zeigt das Modell hervorragende Ergebnisse
  • Bei komplexen Reasoning-Problemen bleibt es jedoch hinter Grok 3 und Claude 3.7 Sonnet zurück

Wichtige Verbesserungen

  • Gemini 2.5 Pro erzielt Leistungssteigerungen durch Post-Training-Optimierung und Parametererweiterung auf Basis der Architektur von Gemini 2.0 Flash
  • Unterstützung für eine Kontextlänge von bis zu 1.000.000 ermöglicht es, selbst beim Eingeben einer gesamten Codebasis hervorragende Resultate zu erzielen
  • Das mehrsprachige Verständnis wurde verbessert; in den LMSYS-Rankings wurde bei der Verarbeitung von Spanisch ein neuer Rekord erreicht

Benchmark-Leistung

  • In wichtigen Benchmarks wie LMSYS, Livebench, GPQA, AIME und SWEbench verified wurden starke Ergebnisse erzielt
  • Bei ARC-AGI liegt es auf ähnlichem Niveau wie Deepseek r1 und unter Claude 3.7
  • Platz 1 im WeirdML-Benchmark; besonders stark beim Schreiben funktionierenden PyTorch-Codes für ungewöhnliche ML-Probleme
  • Auch im Aider Polyglot Benchmark an der Spitze

Reale Anwendungsfälle

  • Hervorragende Ergebnisse in verschiedenen Beispielen wie Wordle-Problemen, Shader-Erstellung, Flugsimulatoren, Rubik's Cube, Zombie-Spielen und Arcade-Spielen
  • Besonders bei der Spieleerstellung liefert es eine ausgefeilte Umsetzung auf hohem Qualitätsniveau

Gemini 2.5 Pro vs Claude 3.7 vs Grok 3 – Vergleich der Coding-Fähigkeiten

1. Springender Ball in einem 3D-Würfel (Three.js)

  • Gemini 2.5: Bestes Ergebnis mit flüssigen und realistischen Bewegungen
  • Grok 3: Anfangs ordentlich, aber mit der Zeit klebten die Bälle fest und funktionierten nicht mehr richtig
  • Claude 3.7: Das Setup war hervorragend, aber die Bälle stoppten und es fehlte an Interaktion

2. Minecraft-ähnliches Spiel (Pygame)

  • Gemini 2.5: Flüssiges und ausgereiftes Gameplay, alle Anforderungen erfüllt
  • Claude 3.7: Fortgeschrittenes Ergebnis mit visuellen Effekten und UI-Elementen
  • Grok 3: Funktionierte grundsätzlich, aber Bewegungen und Platzierung waren nicht flüssig

3. Task-Tracker-Webapp

  • Gemini 2.5: Hochwertige UI und natürlicher Ablauf
  • Claude 3.7: Sauber und visuell ansprechend
  • Grok 3: Erfüllte die Anforderungen, war aber weniger ausgereift als die anderen Modelle

Komplexe Reasoning-Fähigkeiten

1. Test auf kognitive Verzerrungen (Arzt-und-Sohn-Problem)

  • Claude 3.7 und Grok 3 lösten das Problem beide korrekt
  • Gemini 2.5 zeigte leichte Verwirrung

2. Optimalen Zug in Tic-Tac-Toe finden

  • Alle drei Modelle kamen zur richtigen Antwort, aber Grok 3 lieferte die klarste Analyse
  • Allerdings fand keines der Modelle alle vollständigen Lösungspunkte (3 und 5)

3. Komplexes Verwandtschaftsproblem

  • Claude 3.7 ermittelte korrekt die richtige Antwort von 12 Personen
  • Gemini 2.5 und Grok 3 lagen mit 15 Personen falsch, die Logik war jedoch nachvollziehbar

Mathematische Fähigkeiten

1. GCD einer unendlichen Zahlenfolge finden

  • Nur Gemini 2.5 fand die richtige Antwort
  • Grok 3 lag falsch

2. Auswertung eines Ausdrucks auf Basis der Anzahl von Vokalen

  • Claude 3.7 war das einzige Modell, das zur richtigen Antwort gelangte
  • Grok 3 verstand den Kontext nicht
  • Gemini 2.5 blieb unsicher

Zusammenfassung der mathematischen Fähigkeiten

  • Bei reinen Mathematikaufgaben ist Gemini 2.5 Pro stark
  • Bei Mathematikaufgaben mit zusätzlichem Reasoning ist Claude 3.7 Sonnet ausgewogener
  • Grok 3 zeigt die schwächste Mathematikleistung

Fazit

  • Googles Gemini 2.5 Pro ist ein hervorragendes, auf Code-Erstellung spezialisiertes Modell und zeigt auch in realen Anwendungsfällen starke Leistungen
  • Bei komplexem Reasoning und Denkaufgaben ist es im Vergleich zu Konkurrenzmodellen etwas schwächer
  • In Mathematik ist es stark, zeigt aber Leistungseinbußen, wenn logisches Schlussfolgern hinzukommt
  • Große Vorteile bietet es bei mehrsprachiger Verarbeitung und beim Umgang mit großen Eingaben
  • Coding-Leistung: sehr stark
  • Reasoning-Fähigkeiten: schwächer als Claude 3.7 und Grok 3
  • Mathematische Fähigkeiten: reine Rechenleistung ist stark

Noch keine Kommentare.

Noch keine Kommentare.