9 Punkte von GN⁺ 2025-04-01 | 1 Kommentare | Auf WhatsApp teilen
  • Gemini 2.5 Pro ist beim Schreiben von Code überlegen
  • Claude 3.7 Sonnet ist ebenfalls hervorragend, aber aktuell ist es vorteilhafter, Gemini 2.5 Pro zu verwenden
  • Das Kontextfenster mit 1 Million Tokens und die kostenlose Verfügbarkeit sind große Vorteile
  • Früher war Claude 3.7 Sonnet immer der Maßstab für Vergleiche, aber das hat sich inzwischen geändert

Kurze Einführung in Gemini 2.5 Pro

  • Ein experimentelles Denkmodell, das Google am 26. März 2025 veröffentlicht hat
  • Nach der Veröffentlichung sorgte es auf Twitter(X), YouTube usw. für sehr große Resonanz
  • Platz 1 in der LMArena, mit sehr starker Leistung beim Schreiben von Code, in Mathematik, Wissenschaft, Bildverständnis usw.
  • Bietet ein Kontextfenster mit 1 Million Tokens, später sind auch 2 Millionen Tokens angekündigt
  • Erreicht laut SWE Bench eine Genauigkeit von 63,8 % und liegt damit über den 62,3 % von Claude 3.7 Sonnet
  • Belegt seine starke Leistung mit verschiedenen Beispielen, etwa der von Google gezeigten Dinosaurier-Spiel-Demo
  • Wird insgesamt als vielseitiges Modell bewertet, das sich nicht nur für Coding, sondern für alle intellektuellen Aufgaben eignet

Vergleich der Coding-Tests

1. Einen Flugsimulator erstellen

  • Gemini 2.5 Pro
    • Erstellt einen perfekt funktionierenden Simulator
    • Erfüllt alle Anforderungen, einschließlich Flugzeugsteuerung und einer im Minecraft-Stil generierten Stadt
    • Gesamtqualität 10/10
  • Claude 3.7 Sonnet
    • Probleme: Das Flugzeug fliegt seitwärts und verlässt die Stadt
    • Geringere funktionale Vollständigkeit
  • Zusammenfassung: Klarer Sieg für Gemini 2.5 Pro

2. Visualisierung und Lösung eines Rubik’s Cube

  • Gemini 2.5 Pro
    • Setzt Visualisierung und Lösung auf Anhieb korrekt um
    • Nutzt Three.js und implementiert Würfelfarben, zufälliges Mischen, Animationen usw. vollständig
  • Claude 3.7 Sonnet
    • Scheitert an der Farbdarstellung und an der Lösung
    • Ähnliche Grenzen wie andere LLMs
  • Zusammenfassung: Auch in diesem Punkt ist Gemini 2.5 Pro deutlich überlegen

3. Visualisierung einer springenden Kugel in einem 4-dimensionalen Tesserakt

  • Gemini 2.5 Pro
    • Erfüllt alle Anforderungen einschließlich physikalischer Kollisionen und Hervorhebung von Flächen
    • Sehr hohe Codequalität und sehr guter Laufzustand
  • Claude 3.7 Sonnet
    • Die Funktion arbeitet, fügt aber unnötige Farben hinzu
    • Erfüllt die geforderten Funktionen trotzdem
  • Zusammenfassung: Beide Modelle erfüllen die Anforderungen, Claude ist damit endlich ebenfalls erfolgreich

4. LeetCode-Problem: Maximale Summe durch Platzierung von 3 Türmen finden

  • Gemini 2.5 Pro
    • Schreibt komplexeren Code, liefert aber eine korrekte Lösung
    • Berücksichtigt auch die Zeitkomplexität angemessen
  • Claude 3.7 Sonnet
    • Schreibt kompakten Code, läuft aber in ein Zeitlimit überschritten (TLE)
    • Leicht verständlich, aber bei der Performance unzureichend
  • Zusammenfassung: Gemini 2.5 Pro liegt sowohl bei Performance als auch Genauigkeit vorn

Fazit

  • Gemini 2.5 Pro ist klar überlegen
    • Beim Kontextfenster, der Genauigkeit und der Multitasking-Leistung liegt es vor Claude 3.7 Sonnet
  • Claude bleibt weiterhin ein hervorragendes Modell, aber derzeit ist die Nutzung von Gemini effizienter
  • Mit einer späteren Erweiterung auf ein Fenster mit 2 Millionen Tokens dürfte die Leistung weiter steigen
  • Zusammen mit Googles aktuellem leichtgewichtigem Modell Gemma 3 27B bildet es ein starkes AI-Lineup

1 Kommentare

 
GN⁺ 2025-04-01
Hacker-News-Kommentare
  • Ich würde gern einen Wettbewerb mit Geldpreisen für echte Coding-Probleme veranstalten. Die Regeln müssten festgelegt werden. Ich bezweifle, dass ein LLM dieses Problem lösen kann.

    • Es geht darum, eine GTK-4-Version von Solvespace zu erstellen
    • Für jede Plattform gibt es eine einzelne C++-Datei
    • Ziel ist es, die GTK3-Datei auf GTK4 umzuschreiben
    • Wenn man die Leistungsfähigkeit von KI belegen will, würde ich empfehlen, die gesamte Sitzung zu dokumentieren und daraus ein YouTube-Video zu machen
    • Der abschließende Test ist, ob der PR akzeptiert wird
  • Das Gemini-Modell ist das einzige Modell, das mitteilt, wann ein Gespräch abgebrochen wird

    • ChatGPT neigt dazu, das Gespräch zu vergessen, wenn der Kontext voll ist
    • Gemini hat zu wenige Tools, fühlt sich aber grundsätzlich wie das bessere Modell an
  • Ich habe Gemini 2.5 Pro verwendet und finde es ziemlich gut

    • Claude 3.5 scheint Anweisungen besser zu befolgen
    • Ich bin von Cursor und den Claude-CLI-Tools enttäuscht
    • Mir gefällt, wie Gemini das Kontextfenster anzeigt
    • Ich glaube, der Markt kann die Bewertungen der großen KI-Unternehmen nicht tragen
    • Manchmal sind kostenlose Modelle besser
  • Im Wettbewerb der KI-Modelle scheint Microsoft der Verlierer zu sein

    • Als ChatGPT die einzige Wahl war, galt Microsoft als führend
    • Copilot ist ein Fehlschlag, und Bing konnte KI nicht gut nutzen
    • Googles Sundar Pichai erwähnte, dass er mit den Modellen von Microsoft verglichen werden wolle
  • Gemini 2.5 Pro erzielt hohe Werte im aider-polyglot-Coding-Leaderboard

    • Es wird hauptsächlich für die Arbeit am neuesten Release von aider verwendet
    • Derzeit ist das größte Problem von Gemini die strenge Ratenbegrenzung
  • Im Rubik's-Cube-Beispiel verwendet Gemini 2.5 eine auswendig gelernte Scrambling-Sequenz

    • Es wandelt die Scramble-Sequenz in die umgekehrte Reihenfolge um und löst so den Würfel
  • Als ich in den 90ern Visual Basic verwendet habe, fand ich es spannend, neue Projekte aus Templates zu erstellen

    • AI Coding ist ähnlich, fühlt sich aber übertrieben an
    • Es gibt eine Bemerkung darüber, dass Claude verwirrt gewesen sei, weil das Flugzeug seitlich stand
  • Gemini 2.5 ist bei komplexem Cython-Code nicht besonders gut

    • Claude und o3 befolgen Anweisungen gut
    • Gemini versucht irrelevante Änderungen vorzunehmen
  • Es gibt die Frage, ob eine unvoreingenommene Diskussion nötig ist

    • Der Link des OP wirkt wie voreingenommene Werbung für Composio
    • Es gibt übertriebene Beschreibungen von Gemini 2.5 Pro
  • Alle Testaufgaben sind Greenfield-Projekte

    • Um LLMs zu verwenden, muss man in bestehenden Projekten Änderungen oder Korrekturen vornehmen
    • Ich denke nicht, dass die Tests sinnvoll sind, um die Nützlichkeit der Modelle zu messen