Coding-Vergleich zwischen Gemini 2.5 Pro und Claude 3.7 Sonnet

(composio.dev)

9 Punkte von GN⁺ 2025-04-01 | 1 Kommentare | Auf WhatsApp teilen

Gemini 2.5 Pro ist beim Schreiben von Code überlegen
Claude 3.7 Sonnet ist ebenfalls hervorragend, aber aktuell ist es vorteilhafter, Gemini 2.5 Pro zu verwenden
Das Kontextfenster mit 1 Million Tokens und die kostenlose Verfügbarkeit sind große Vorteile
Früher war Claude 3.7 Sonnet immer der Maßstab für Vergleiche, aber das hat sich inzwischen geändert

Kurze Einführung in Gemini 2.5 Pro

Ein experimentelles Denkmodell, das Google am 26. März 2025 veröffentlicht hat
Nach der Veröffentlichung sorgte es auf Twitter(X), YouTube usw. für sehr große Resonanz
Platz 1 in der LMArena, mit sehr starker Leistung beim Schreiben von Code, in Mathematik, Wissenschaft, Bildverständnis usw.
Bietet ein Kontextfenster mit 1 Million Tokens, später sind auch 2 Millionen Tokens angekündigt
Erreicht laut SWE Bench eine Genauigkeit von 63,8 % und liegt damit über den 62,3 % von Claude 3.7 Sonnet
Belegt seine starke Leistung mit verschiedenen Beispielen, etwa der von Google gezeigten Dinosaurier-Spiel-Demo
Wird insgesamt als vielseitiges Modell bewertet, das sich nicht nur für Coding, sondern für alle intellektuellen Aufgaben eignet

Vergleich der Coding-Tests

1. Einen Flugsimulator erstellen

Gemini 2.5 Pro
- Erstellt einen perfekt funktionierenden Simulator
- Erfüllt alle Anforderungen, einschließlich Flugzeugsteuerung und einer im Minecraft-Stil generierten Stadt
- Gesamtqualität 10/10
Claude 3.7 Sonnet
- Probleme: Das Flugzeug fliegt seitwärts und verlässt die Stadt
- Geringere funktionale Vollständigkeit
Zusammenfassung: Klarer Sieg für Gemini 2.5 Pro

2. Visualisierung und Lösung eines Rubik’s Cube

Gemini 2.5 Pro
- Setzt Visualisierung und Lösung auf Anhieb korrekt um
- Nutzt Three.js und implementiert Würfelfarben, zufälliges Mischen, Animationen usw. vollständig
Claude 3.7 Sonnet
- Scheitert an der Farbdarstellung und an der Lösung
- Ähnliche Grenzen wie andere LLMs
Zusammenfassung: Auch in diesem Punkt ist Gemini 2.5 Pro deutlich überlegen

3. Visualisierung einer springenden Kugel in einem 4-dimensionalen Tesserakt

Gemini 2.5 Pro
- Erfüllt alle Anforderungen einschließlich physikalischer Kollisionen und Hervorhebung von Flächen
- Sehr hohe Codequalität und sehr guter Laufzustand
Claude 3.7 Sonnet
- Die Funktion arbeitet, fügt aber unnötige Farben hinzu
- Erfüllt die geforderten Funktionen trotzdem
Zusammenfassung: Beide Modelle erfüllen die Anforderungen, Claude ist damit endlich ebenfalls erfolgreich

4. LeetCode-Problem: Maximale Summe durch Platzierung von 3 Türmen finden

Gemini 2.5 Pro
- Schreibt komplexeren Code, liefert aber eine korrekte Lösung
- Berücksichtigt auch die Zeitkomplexität angemessen
Claude 3.7 Sonnet
- Schreibt kompakten Code, läuft aber in ein Zeitlimit überschritten (TLE)
- Leicht verständlich, aber bei der Performance unzureichend
Zusammenfassung: Gemini 2.5 Pro liegt sowohl bei Performance als auch Genauigkeit vorn

Fazit

Gemini 2.5 Pro ist klar überlegen
- Beim Kontextfenster, der Genauigkeit und der Multitasking-Leistung liegt es vor Claude 3.7 Sonnet
Claude bleibt weiterhin ein hervorragendes Modell, aber derzeit ist die Nutzung von Gemini effizienter
Mit einer späteren Erweiterung auf ein Fenster mit 2 Millionen Tokens dürfte die Leistung weiter steigen
Zusammen mit Googles aktuellem leichtgewichtigem Modell Gemma 3 27B bildet es ein starkes AI-Lineup

1 Kommentare

GN⁺ 2025-04-01

Hacker-News-Kommentare

Ich würde gern einen Wettbewerb mit Geldpreisen für echte Coding-Probleme veranstalten. Die Regeln müssten festgelegt werden. Ich bezweifle, dass ein LLM dieses Problem lösen kann.
- Es geht darum, eine GTK-4-Version von Solvespace zu erstellen
- Für jede Plattform gibt es eine einzelne C++-Datei
- Ziel ist es, die GTK3-Datei auf GTK4 umzuschreiben
- Wenn man die Leistungsfähigkeit von KI belegen will, würde ich empfehlen, die gesamte Sitzung zu dokumentieren und daraus ein YouTube-Video zu machen
- Der abschließende Test ist, ob der PR akzeptiert wird
Das Gemini-Modell ist das einzige Modell, das mitteilt, wann ein Gespräch abgebrochen wird
- ChatGPT neigt dazu, das Gespräch zu vergessen, wenn der Kontext voll ist
- Gemini hat zu wenige Tools, fühlt sich aber grundsätzlich wie das bessere Modell an
Ich habe Gemini 2.5 Pro verwendet und finde es ziemlich gut
- Claude 3.5 scheint Anweisungen besser zu befolgen
- Ich bin von Cursor und den Claude-CLI-Tools enttäuscht
- Mir gefällt, wie Gemini das Kontextfenster anzeigt
- Ich glaube, der Markt kann die Bewertungen der großen KI-Unternehmen nicht tragen
- Manchmal sind kostenlose Modelle besser
Im Wettbewerb der KI-Modelle scheint Microsoft der Verlierer zu sein
- Als ChatGPT die einzige Wahl war, galt Microsoft als führend
- Copilot ist ein Fehlschlag, und Bing konnte KI nicht gut nutzen
- Googles Sundar Pichai erwähnte, dass er mit den Modellen von Microsoft verglichen werden wolle
Gemini 2.5 Pro erzielt hohe Werte im aider-polyglot-Coding-Leaderboard
- Es wird hauptsächlich für die Arbeit am neuesten Release von aider verwendet
- Derzeit ist das größte Problem von Gemini die strenge Ratenbegrenzung
Im Rubik's-Cube-Beispiel verwendet Gemini 2.5 eine auswendig gelernte Scrambling-Sequenz
- Es wandelt die Scramble-Sequenz in die umgekehrte Reihenfolge um und löst so den Würfel
Als ich in den 90ern Visual Basic verwendet habe, fand ich es spannend, neue Projekte aus Templates zu erstellen
- AI Coding ist ähnlich, fühlt sich aber übertrieben an
- Es gibt eine Bemerkung darüber, dass Claude verwirrt gewesen sei, weil das Flugzeug seitlich stand
Gemini 2.5 ist bei komplexem Cython-Code nicht besonders gut
- Claude und o3 befolgen Anweisungen gut
- Gemini versucht irrelevante Änderungen vorzunehmen
Es gibt die Frage, ob eine unvoreingenommene Diskussion nötig ist
- Der Link des OP wirkt wie voreingenommene Werbung für Composio
- Es gibt übertriebene Beschreibungen von Gemini 2.5 Pro
Alle Testaufgaben sind Greenfield-Projekte
- Um LLMs zu verwenden, muss man in bestehenden Projekten Änderungen oder Korrekturen vornehmen
- Ich denke nicht, dass die Tests sinnvoll sind, um die Nützlichkeit der Modelle zu messen

Coding-Vergleich zwischen Gemini 2.5 Pro und Claude 3.7 Sonnet

Kurze Einführung in Gemini 2.5 Pro

Vergleich der Coding-Tests

1. Einen Flugsimulator erstellen

2. Visualisierung und Lösung eines Rubik’s Cube

3. Visualisierung einer springenden Kugel in einem 4-dimensionalen Tesserakt

4. LeetCode-Problem: Maximale Summe durch Platzierung von 3 Türmen finden

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare