1 Punkte von GN⁺ 2025-02-25 | 2 Kommentare | Auf WhatsApp teilen

Ankündigung

  • Claude 3.7 Sonnet und Claude Code wurden vorgestellt. Claude 3.7 Sonnet ist das erste hybride Reasoning-Modell auf dem Markt und bietet schnelle Antworten sowie schrittweises Denken. API-Nutzer können die Denkzeit des Modells fein abstimmen.
  • Claude 3.7 Sonnet zeigt besonders starke Leistung bei Coding und Frontend-Webentwicklung. Claude Code ist ein Kommandozeilen-Tool, mit dem sich Engineering-Aufgaben direkt im Terminal delegieren lassen, und wird als begrenzte Research Preview bereitgestellt.
  • Claude 3.7 Sonnet ist in allen Claude-Plänen sowie über die Anthropic API, Amazon Bedrock und Vertex AI von Google Cloud verfügbar. Der erweiterte Denkmodus ist auf allen Plattformen außer dem kostenlosen Claude-Tarif verfügbar.

Claude 3.7 Sonnet: praktisches Reasoning auf dem neuesten Stand der Technik

  • Claude 3.7 Sonnet wurde mit einer anderen Philosophie entwickelt als bisherige Reasoning-Modelle. So wie Menschen für schnelle Antworten und tiefes Nachdenken ein einziges Gehirn nutzen, sollte Reasoning nach dieser Auffassung eine integrierte Fähigkeit sein.
  • Claude 3.7 Sonnet vereint ein allgemeines LLM und ein Reasoning-Modell in einem System, sodass Nutzer zwischen normalen Antworten und tiefem Nachdenken wählen können. Im erweiterten Denkmodus verbessert sich die Leistung unter anderem in Mathematik, Physik und Coding.
  • Bei der Nutzung von Claude 3.7 Sonnet über die API können Nutzer ein Budget für das Denken festlegen. Dadurch lassen sich Geschwindigkeit und Qualität der Antworten steuern.
  • Claude 3.7 Sonnet konzentriert sich eher auf reale Business-Anwendungsfälle als auf Mathematik- und Informatikprobleme. In ersten Tests zeigte es hervorragende Ergebnisse bei den Coding-Fähigkeiten.

Claude Code

  • Claude Code ist ein Tool, das Entwicklern dabei hilft, Code zu durchsuchen, Dateien zu bearbeiten, Tests auszuführen sowie Code auf GitHub zu committen und zu pushen.
  • Claude Code ist besonders nützlich für testgetriebene Entwicklung, das Debugging komplexer Probleme und groß angelegte Refactorings. In ersten Tests verkürzte es die Entwicklungszeit deutlich.
  • Ziel von Claude Code ist es, zu verstehen, wie Entwickler Claude nutzen, und dies in künftige Modellverbesserungen einfließen zu lassen.

Mit Claude an Codebasen arbeiten

  • Das Coding-Erlebnis auf Claude.ai wurde verbessert. Die GitHub-Integration ist jetzt in allen Claude-Plänen verfügbar, sodass Entwickler ihre Code-Repositories direkt mit Claude verbinden können.
  • Claude 3.7 Sonnet wird durch sein tiefes Verständnis für private, geschäftliche und Open-Source-Projekte zu einem starken Partner bei Bugfixes, Feature-Entwicklung und Dokumentation.

Verantwortungsvoll entwickeln

  • Claude 3.7 Sonnet wurde in Zusammenarbeit mit externen Experten umfangreich getestet und evaluiert, um Sicherheit, Schutz und Zuverlässigkeit zu gewährleisten.
  • Es wird eine System Card bereitgestellt, die sich mit neuen Sicherheitsergebnissen befasst. Darin enthalten ist auch eine Bewertung der Responsible Scaling Policy, die von anderen AI-Laboren und Forschern angewendet werden kann.

In die Zukunft

  • Claude 3.7 Sonnet und Claude Code sind ein wichtiger Schritt hin zu AI-Systemen, die menschliche Fähigkeiten erweitern können. Sie erweitern menschliche Leistungen durch tiefgehendes Reasoning, autonome Arbeit und effektive Zusammenarbeit.
  • Man freut sich darauf, wie die neuen Funktionen erkundet und kreativ genutzt werden, und begrüßt Feedback für kontinuierliche Verbesserungen.

2 Kommentare

 
GN⁺ 2025-02-25
Hacker-News-Kommentare
  • Claude 3.7 Sonnet erreichte 60,4 % auf dem mehrsprachigen Aider-Leaderboard

    • Es erzielte eine hohe Punktzahl auch ohne Thinking und übertraf den Wert von Sonnet 3.5
    • Aider 0.75.0 unterstützt 3.7 Sonnet
    • Unterstützung für Thinking und Benchmark-Ergebnisse sollen bald folgen
  • Boris aus dem Claude-Code-Team wird Fragen zum Produkt beantworten

  • Der Kagi-LLM-Benchmark wurde mit Sonnet 3.7 im General-Purpose- und im Thinking-Modus aktualisiert

    • Es wird als das zweitstärkste General-Purpose-LLM nach Gemini 2.0 Pro bewertet
    • Im Thinking-Modus liegt es auf einem ähnlichen Niveau wie o1-mini und o3-mini
    • Insgesamt bietet es hohe Qualität und Geschwindigkeit zum gleichen Preis
    • Es soll innerhalb von 24 Stunden in Kagi Assistant aktiviert werden
  • Es gibt eine unterhaltsame Funktion zur Analyse von HN-Profilen

    • Sie wird genutzt, um den Humor des neuen Modells zu testen
  • OpenAI fokussiert sich darauf, wie LLMs in realen Unternehmen eingesetzt werden

    • Ziel ist zwar das „intelligenteste Modell“, tatsächlich werden sie aber vor allem für Lernhilfe, Datentransformation und das Schreiben von Code genutzt
    • Ein Gleichgewicht zwischen „Intelligenz“ und „Praxistauglichkeit“ ist wichtig
  • Es ist nachvollziehbar, dass Anthropic sich auf Code konzentriert

    • Ich bin gespannt, wie ein Devin-Konkurrent aussehen wird
  • Cursor wurde auf die neueste Version aktualisiert und "claude-3.7-sonnet" zur Modellliste hinzugefügt

    • "claude-3.7-sonnet-thinking" funktioniert ebenfalls
    • Eine Funktion zur Steuerung der Thinking-Zeit soll bald hinzugefügt werden
  • Der erste Kontakt mit Claude 3.7 Sonnet war sehr beeindruckend

    • Es half dabei, ein Problem mit CloudFlare Pages Functions zu lösen
    • Claude 3.7 identifizierte das Problem präzise und schlug eine Lösung vor
  • Claude hat in 30 Sekunden die Hälfte einer Bachelorarbeit neu geschrieben

    • Gemini Flash 2 ist gescheitert
  • o1 pro hat einige Male erstaunliche Ergebnisse gezeigt

    • Es half bei der Überprüfung von komplexem MCU-Code
    • o1 pro verstand Code mit SPI und wies auf Probleme hin
    • Der Thinking-Modus von Claude 3.7 war nicht besonders nützlich
    • o1 pro half bei der Lösung eines IPsec-VPN-Problems
    • ChatGPT und Claude werden vergleichend genutzt
 
riskatcher 2025-02-25

Zum Vergleich mit Flash 2 ist der Preisunterschied einfach zu groß … genau zwischen o1pro und o3-mini angesiedelt