18 Punkte von humblebee 2025-02-25 | 5 Kommentare | Auf WhatsApp teilen

Anthropic hat Claude 3.7 Sonnet veröffentlicht, sein bislang intelligentestes Modell. Es handelt sich um das erste hybride Reasoning-Modell auf dem Markt, das sowohl sofortige Antworten als auch einen für Nutzer sichtbaren schrittweisen Denkprozess liefern kann.

Wichtige Merkmale:

  • Deutlich verbesserte Leistung bei Coding und Frontend-Webentwicklung
  • Einführung des neuen Kommandozeilen-Tools „Claude Code“ – Entwickler können Claude Engineering-Aufgaben direkt im Terminal übertragen
  • Verfügbar in allen Claude-Plänen (Free, Pro, Team, Enterprise) sowie über die Anthropic API, AWS Bedrock und Google Cloud Vertex AI
  • Der erweiterte Denkmodus ist auf allen Plattformen außer der kostenlosen Stufe verfügbar
  • Preis unverändert zum Vorgängermodell: 3 $ pro eine Million Input-Token, 15 $ pro eine Million Output-Token (einschließlich Denk-Token)

Leistungsverbesserungen:

  • Bestwerte bei SWE-bench Verified und TAU-bench
  • In frühen Tests von Cursor, Cognition, Vercel, Replit und Canva wurden herausragende Fähigkeiten beim Umgang mit komplexen Codebasen, dem Einsatz fortgeschrittener Tools, der Planung und Änderung von Code sowie bei Full-Stack-Updates nachgewiesen
  • Zeigt Leistung bei der Generierung von produktionsreifem Code und der Verringerung von Fehlern
  • Verbesserungen in Mathematik, Physik und beim Befolgen von Anweisungen

Claude Code:

  • Kann Code durchsuchen und lesen, Dateien bearbeiten, Tests schreiben und ausführen, Code auf GitHub committen und pushen sowie Kommandozeilen-Tools verwenden
  • Besonders nützlich für testgetriebene Entwicklung, Debugging komplexer Probleme und umfangreiche Refactorings
  • Erledigt Aufgaben, die normalerweise mehr als 45 Minuten dauern, in einem Durchgang und verkürzt so die Entwicklungszeit deutlich
  • Derzeit als eingeschränkte Research Preview verfügbar

GitHub-Integration:

  • Die GitHub-Integration ist jetzt in allen Claude-Plänen verfügbar
  • Basiert auf einem tieferen Verständnis persönlicher, beruflicher und Open-Source-Projekte
  • Ein starker Partner bei Bugfixes, Feature-Entwicklung und Dokumentation
  • Bietet Unterstützung über die wichtigen GitHub-Projekte der Nutzer hinweg

Zu den Sicherheitsverbesserungen gehört, dass unnötige Ablehnungen im Vergleich zum Vorgängermodell um 45 % reduziert wurden und nun feinere Unterscheidungen zwischen schädlichen und harmlosen Anfragen möglich sind.

5 Kommentare

 
yeorinhieut 2025-02-25

Wurde auch zu Perplexity hinzugefügt.
Aber anscheinend kann man Inferenz noch nicht nutzen..

 
bearmett 2025-02-25

Ich habe Claude Code installiert und ausprobiert und wie im Video nach den Übersichten der beiden Projekte gefragt.

Total cost: $0.1151
Total cost: $0.0855

Es kostet also ungefähr 0,2 Dollar..?

Wenn das Beispiel im Video eine Aufgabe ist, die mehr als 45 Minuten dauert, wäre das wohl eine ziemlich teure Aufgabe gewesen.

 
riskatcher 2025-02-25

Extrem teuer, das Preis-Leistungs-Verhältnis stimmt nicht. Im praktischen Einsatz scheint mir o3-mini eher die bessere Wahl zu sein, aber wenn man es fürs Coding nutzen will, sind die kurze Inferenzphase und die Lösung für die Zwischentokens entscheidend, und für diesen Zweck scheint es das Beste zu sein. Der Preis allerdings ...

 
humblebee 2025-02-25

Erweiterter Denkmodus (Thinking Mode - Extended)

  • Eine Funktion, mit der das Modell vor der Antwort durch Selbstreflexion tiefer nachdenkt
  • Verbesserte Leistung bei verschiedenen Aufgaben wie Mathematik, Physik, Befolgung von Anweisungen und Coding
  • API-Nutzer können die Denkzeit des Modells bis zu 128K Token steuern
  • Bietet Flexibilität, um das Gleichgewicht zwischen Geschwindigkeit (Kosten) und Antwortqualität anzupassen
  • So wie Menschen schnelle Reaktionen und tiefes Nachdenken mit demselben Gehirn verarbeiten, bietet ein einziges Modell beide Modi ohne separates Modell

Es scheint ein anderer Ansatz zu sein als bei separaten Reasoning-Modellen wie OpenAIs o1 oder DeepSeeks R1. Offenbar wurden zwei Modi in ein einzelnes Modell integriert.

Zusätzlich habe ich das Modell direkt nach dem Cutoff-Datum der Trainingsdaten gefragt, und es antwortete, dass dieses Ende Oktober 2024 liege~!