- Gemini 2.5 Pro ist beim Schreiben von Code überlegen
- Claude 3.7 Sonnet ist ebenfalls hervorragend, aber aktuell ist es vorteilhafter, Gemini 2.5 Pro zu verwenden
- Das Kontextfenster mit 1 Million Tokens und die kostenlose Verfügbarkeit sind große Vorteile
- Früher war Claude 3.7 Sonnet immer der Maßstab für Vergleiche, aber das hat sich inzwischen geändert
Kurze Einführung in Gemini 2.5 Pro
- Ein experimentelles Denkmodell, das Google am 26. März 2025 veröffentlicht hat
- Nach der Veröffentlichung sorgte es auf Twitter(X), YouTube usw. für sehr große Resonanz
- Platz 1 in der LMArena, mit sehr starker Leistung beim Schreiben von Code, in Mathematik, Wissenschaft, Bildverständnis usw.
- Bietet ein Kontextfenster mit 1 Million Tokens, später sind auch 2 Millionen Tokens angekündigt
- Erreicht laut SWE Bench eine Genauigkeit von 63,8 % und liegt damit über den 62,3 % von Claude 3.7 Sonnet
- Belegt seine starke Leistung mit verschiedenen Beispielen, etwa der von Google gezeigten Dinosaurier-Spiel-Demo
- Wird insgesamt als vielseitiges Modell bewertet, das sich nicht nur für Coding, sondern für alle intellektuellen Aufgaben eignet
Vergleich der Coding-Tests
1. Einen Flugsimulator erstellen
- Gemini 2.5 Pro
- Erstellt einen perfekt funktionierenden Simulator
- Erfüllt alle Anforderungen, einschließlich Flugzeugsteuerung und einer im Minecraft-Stil generierten Stadt
- Gesamtqualität 10/10
- Claude 3.7 Sonnet
- Probleme: Das Flugzeug fliegt seitwärts und verlässt die Stadt
- Geringere funktionale Vollständigkeit
- Zusammenfassung: Klarer Sieg für Gemini 2.5 Pro
2. Visualisierung und Lösung eines Rubik’s Cube
- Gemini 2.5 Pro
- Setzt Visualisierung und Lösung auf Anhieb korrekt um
- Nutzt Three.js und implementiert Würfelfarben, zufälliges Mischen, Animationen usw. vollständig
- Claude 3.7 Sonnet
- Scheitert an der Farbdarstellung und an der Lösung
- Ähnliche Grenzen wie andere LLMs
- Zusammenfassung: Auch in diesem Punkt ist Gemini 2.5 Pro deutlich überlegen
3. Visualisierung einer springenden Kugel in einem 4-dimensionalen Tesserakt
- Gemini 2.5 Pro
- Erfüllt alle Anforderungen einschließlich physikalischer Kollisionen und Hervorhebung von Flächen
- Sehr hohe Codequalität und sehr guter Laufzustand
- Claude 3.7 Sonnet
- Die Funktion arbeitet, fügt aber unnötige Farben hinzu
- Erfüllt die geforderten Funktionen trotzdem
- Zusammenfassung: Beide Modelle erfüllen die Anforderungen, Claude ist damit endlich ebenfalls erfolgreich
4. LeetCode-Problem: Maximale Summe durch Platzierung von 3 Türmen finden
- Gemini 2.5 Pro
- Schreibt komplexeren Code, liefert aber eine korrekte Lösung
- Berücksichtigt auch die Zeitkomplexität angemessen
- Claude 3.7 Sonnet
- Schreibt kompakten Code, läuft aber in ein Zeitlimit überschritten (TLE)
- Leicht verständlich, aber bei der Performance unzureichend
- Zusammenfassung: Gemini 2.5 Pro liegt sowohl bei Performance als auch Genauigkeit vorn
Fazit
- Gemini 2.5 Pro ist klar überlegen
- Beim Kontextfenster, der Genauigkeit und der Multitasking-Leistung liegt es vor Claude 3.7 Sonnet
- Claude bleibt weiterhin ein hervorragendes Modell, aber derzeit ist die Nutzung von Gemini effizienter
- Mit einer späteren Erweiterung auf ein Fenster mit 2 Millionen Tokens dürfte die Leistung weiter steigen
- Zusammen mit Googles aktuellem leichtgewichtigem Modell Gemma 3 27B bildet es ein starkes AI-Lineup
1 Kommentare
Hacker-News-Kommentare
Ich würde gern einen Wettbewerb mit Geldpreisen für echte Coding-Probleme veranstalten. Die Regeln müssten festgelegt werden. Ich bezweifle, dass ein LLM dieses Problem lösen kann.
Das Gemini-Modell ist das einzige Modell, das mitteilt, wann ein Gespräch abgebrochen wird
Ich habe Gemini 2.5 Pro verwendet und finde es ziemlich gut
Im Wettbewerb der KI-Modelle scheint Microsoft der Verlierer zu sein
Gemini 2.5 Pro erzielt hohe Werte im aider-polyglot-Coding-Leaderboard
Im Rubik's-Cube-Beispiel verwendet Gemini 2.5 eine auswendig gelernte Scrambling-Sequenz
Als ich in den 90ern Visual Basic verwendet habe, fand ich es spannend, neue Projekte aus Templates zu erstellen
Gemini 2.5 ist bei komplexem Cython-Code nicht besonders gut
Es gibt die Frage, ob eine unvoreingenommene Diskussion nötig ist
Alle Testaufgaben sind Greenfield-Projekte