Claude 3.7 Sonnet und Claude Code veröffentlicht

(anthropic.com)

1 Punkte von GN⁺ 2025-02-25 | 2 Kommentare | Auf WhatsApp teilen

Anthropic hat Claude 3.7 Sonnet als sein bisher intelligentestes Modell und als das erste hybride Reasoning-Modell auf dem Markt vorgestellt, das in einem Modell sowohl sofortige Antworten als auch für Nutzer sichtbares schrittweises Denken unterstützt
Das neue Modell bietet die Wahl zwischen Standardmodus und extended thinking mode; in der API lässt sich das Denkbudget in Schritten von N Tokens bis zum Ausgabelimit von 128K Tokens steuern
Vor allem bei Coding und Frontend-Webentwicklung sind die Verbesserungen groß; frühe Kundentests bestätigten Stärken bei der Verarbeitung komplexer Codebasen, Full-Stack-Updates, Agent-Workflows, der Erstellung von Web-Apps und der Generierung produktionsreifem Code
Das gleichzeitig vorgestellte Claude Code ist ein kommandozeilenbasiertes agentisches Coding-Tool, das als begrenzte Research Preview angeboten wird und Code-Erkundung, Bearbeitung, Tests, GitHub-Aufgaben und die Nutzung von Kommandozeilen-Tools übernehmen kann
Claude 3.7 Sonnet ist für Free, Pro, Team, Enterprise und auf wichtigen Entwicklerplattformen verfügbar; der erweiterte Denkmodus ist außer im kostenlosen Claude-Tier nutzbar, und der Preis bleibt bei $3 pro 1 Million Eingabe-Tokens und $15 pro 1 Million Ausgabe-Tokens

Hybrides Reasoning von Claude 3.7 Sonnet

Claude 3.7 Sonnet ist das von Anthropic vorgestellte bisher intelligenteste Modell des Unternehmens und kann sowohl sofortige Antworten als auch erweitertes schrittweises Denken erzeugen
Der erweiterte Denkprozess ist für Nutzer sichtbar, und API-Nutzer können fein steuern, wie lange das Modell nachdenken soll
Anthropic behandelt Reasoning nicht als separates Modell, sondern als integrierte Fähigkeit eines Frontier-Modells
- Im Standardmodus verhält es sich wie eine verbesserte Version von Claude 3.5 Sonnet
- Im extended thinking mode führt es vor der Antwort Selbstreflexion durch und verbessert so die Leistung bei Mathematik, Physik, Befolgung von Anweisungen, Coding und weiteren Aufgaben
- Die Prompting-Methoden funktionieren in beiden Modi weitgehend ähnlich
In der API lässt sich das Denkbudget als N Tokens festlegen, wobei N bis zum Ausgabelimit von 128K Tokens gesetzt werden kann
- Diese Steuerung dient dazu, Geschwindigkeit und Kosten gegen die Antwortqualität abzuwägen

Coding-Leistung mit Fokus auf reale Arbeit

Claude 3.7 Sonnet zeigt besonders große Verbesserungen bei Coding und Frontend-Webentwicklung
Anthropic erklärt, den Fokus auf Optimierung für Mathematik- und Informatik-Wettbewerbsaufgaben teilweise reduziert und stärker auf Aufgaben ausgerichtet zu haben, für die Unternehmen LLMs tatsächlich einsetzen
In frühen Tests bewerteten mehrere Kundenunternehmen die Coding-Leistung
- Cursor bewertete Claude bei realen Coding-Aufgaben von der Verarbeitung komplexer Codebasen bis zur Nutzung fortgeschrittener Tools wieder als Spitzenklasse
- Cognition bewertete es bei der Planung von Codeänderungen und der Verarbeitung von Full-Stack-Updates als deutlich besser als andere Modelle
- Vercel hob die hohe Präzision bei komplexen Agent-Workflows hervor
- Replit erklärte, mit Claude anspruchsvolle Web-Apps und Dashboards von Grund auf gebaut zu haben, in Situationen, in denen andere Modelle stoppen
- In Bewertungen von Canva erzeugte Claude mit besserem Designgespür durchgängig produktionsreifen Code und reduzierte Fehler deutlich

Claude Code als begrenzte Research Preview

Claude Code ist Anthropics erstes agentisches Coding-Tool und wird als begrenzte Research Preview angeboten
Entwickler können Claude im Terminal erhebliche Engineering-Arbeit übertragen
Claude Code führt dabei die folgenden Aufgaben aus, während Entwickler weiterhin in den Prozess eingebunden bleiben
- Code suchen und lesen
- Dateien bearbeiten
- Tests schreiben und ausführen
- Code auf GitHub committen und pushen
- Kommandozeilen-Tools verwenden
Intern bei Anthropic wird es besonders nützlich für testgetriebene Entwicklung, das Debuggen komplexer Probleme und groß angelegte Refactorings eingesetzt
In frühen Tests erledigte Claude Code Aufgaben, die manuell normalerweise mehr als 45 Minuten dauern, auf einmal und reduzierte so Entwicklungszeit und Overhead
In den kommenden Wochen sind Verbesserungen bei der Zuverlässigkeit von Tool-Aufrufen, Unterstützung für langlaufende Befehle, besseres In-App-Rendering und ein erweitertes Verständnis von Claudes eigenen Fähigkeiten geplant
Über die Teilnahme an der Preview erhält man Zugang zu dem Tool, das Anthropic zum Entwickeln und Verbessern von Claude nutzt; Feedback fließt in die künftige Ausrichtung von Claude Code ein

Claude.ai und GitHub-Codebase-Integration

Auch das Coding-Erlebnis in Claude.ai wurde verbessert, und die GitHub-Integration ist in allen Claude-Plänen verfügbar
Entwickler können Code-Repositories direkt mit Claude verbinden
Claude 3.7 Sonnet ist aktuell Anthropics bestes Coding-Modell und kann persönliche, berufliche und Open-Source-Projekte tiefer verstehen, um bei Fehlerbehebungen, Feature-Entwicklung und Dokumentation zu helfen

Verfügbarkeit und Preise

Claude 3.7 Sonnet ist in allen Claude-Plänen verfügbar
- Free
- Pro
- Team
- Enterprise
Claude 3.7 Sonnet ist auch auf der Claude Developer Platform, Amazon Bedrock, Google Cloud Vertex AI verfügbar
Der extended thinking mode ist in allen Umgebungen außer dem kostenlosen Claude-Tier verfügbar
Sowohl Standardmodus als auch erweiterter Denkmodus kosten genauso viel wie das vorherige Modell
- $3 pro 1 Million Eingabe-Tokens
- $15 pro 1 Million Ausgabe-Tokens
- Im Ausgabepreis sind Denk-Tokens enthalten

Sicherheitsbewertung und System Card

Claude 3.7 Sonnet wurde gemeinsam mit externen Experten umfassend getestet und bewertet, mit dem Ziel, Standards für Security, Sicherheit und Zuverlässigkeit zu erfüllen
Durch eine feinere Unterscheidung zwischen schädlichen und legitimen Anfragen wurden unnötige Ablehnungen im Vergleich zum vorherigen Modell um 45 % reduziert {p:45}
Die system card enthält neue Sicherheitsergebnisse in mehreren Kategorien sowie Details zur Bewertung nach der Responsible Scaling Policy
Die System Card behandelt neue Risiken bei der Computernutzung, insbesondere Prompt-Injection-Angriffe
- Anthropic beschreibt darin auch, wie diese Schwachstelle bewertet wird und wie Claude darauf trainiert wird, ihr zu widerstehen und sie abzumildern
Auch potenzielle Sicherheitsvorteile von Reasoning-Modellen werden behandelt
- die Möglichkeit zu verstehen, wie das Modell Entscheidungen trifft
- ob das Reasoning des Modells tatsächlich vertrauenswürdig und stabil ist

Details zu Evaluierungs-Scaffolding und SWE-bench

Der TAU-bench-Score wurde erzielt, indem bei der Airline Agent Policy ein zusätzlicher Prompt-Hinweis eingefügt wurde, der die Nutzung des planning tool besser anweist
- Unabhängig vom allgemeinen thinking mode wird das Modell dazu angehalten, seine Gedanken während der Problemlösung aufzuschreiben
- Wegen des zusätzlichen Denkschritts wurde die maximale Schrittzahl von 30 auf 100 erhöht
- Die meisten Trajektorien endeten in weniger als 30 Schritten, und nur eine überschritt 50 Schritte
- Der TAU-bench-Score von Claude 3.5 Sonnet ist ein Wert, der nach der Verbesserung des Datensatzes auf dem aktualisierten Datensatz erneut ausgeführt wurde
In SWE-bench Verified gibt es verschiedene Ansätze zum Lösen agentischer Aufgaben; Agentless verwendet Dateisuche, das Finden der Patch-Position und best-of-40 Rejection Sampling auf Basis von Regressionstests
Die Basisevaluierung von Claude 3.7 Sonnet und Claude 3.5 Sonnet verwendet ein einfacheres minimales Scaffolding
- Das Modell entscheidet in einer einzelnen Sitzung, welche Befehle auszuführen und welche Dateien zu bearbeiten sind
- Verwendet werden ein Bash-Tool, ein dateibearbeitendes Tool auf Basis von String-Ersetzung sowie das im TAU-bench erwähnte planning tool
Aufgrund interner Infrastruktur-Beschränkungen konnten von 500 SWE-bench-Verified-Fällen tatsächlich nur 489 gelöst werden; die übrigen 11 wurden aus Fairness gegenüber dem offiziellen Leaderboard als Fehlschläge gezählt
Für die High-Compute-Ergebnisse wurden parallele Versuche, das Verwerfen von Patches, die sichtbare Regressionstests brechen, und eine abschließende Auswahl auf Basis eines Scoring-Modells verwendet
- Dieser Ansatz erreichte auf der Teilmenge von 489 verifizierten Aufgaben, die in der internen Infrastruktur liefen, einen Score von 70,3 %
- Auf derselben Teilmenge von 489 erreichte Claude 3.7 Sonnet ohne Scaffolding 63,7 %

2 Kommentare

GN⁺ 2025-02-25

Meinungen auf Hacker News

Claude 3.7 Sonnet erreichte im mehrsprachigen aider-Leaderboard 60,4 % ohne Thinking
Damit liegt es gemeinsam mit o3-mini-high auf Platz 3 und hat den bisherigen Spitzenwert ohne Reasoning übernommen, den Sonnet 3.5 gehalten hatte.
In aider 0.75.0 wurde Unterstützung für 3.7 Sonnet hinzugefügt; Thinking-Unterstützung und Benchmark-Ergebnisse sollen demnächst folgen.
https://aider.chat/docs/leaderboards/
https://aider.chat/HISTORY.html#aider-v0750
- Bei den 225 Programmieraufgaben von Exercism frage ich mich, ob Anstrengungen unternommen wurden, Datenlecks im Testset zu reduzieren.
  Diese Aufgaben scheinen schon vor 2023 im Internet gewesen zu sein, daher wirkt es sehr wahrscheinlich, dass sie in Trainingsdaten moderner Modelle gelandet sind.
- Wenn man bis zu 32k Thinking-Tokens verwendet, stellt Sonnet 3.7 mit 64,9 % einen neuen Bestwert auf.
  65 % Sonnet 3.7, 32k Thinking / 64 % R1+Sonnet 3.5 / 62 % o1 high / 60 % Sonnet 3.7, ohne Thinking / 60 % o3-mini high / 57 % R1 / 52 % Sonnet 3.5
- Interessant ist, dass der Wert für das korrekte diff-Format, der bei Claude 3.5 bei 99,6 % lag, bei Claude 3.7 auf 93,3 % gefallen ist.
  Nach meinen Erfahrungen mit claude-code musste ich regelmäßig mehrere Anläufe nehmen, bis ich ein korrektes diff bekam; ich hoffe, dass sich das mit zunehmender Stabilisierung verbessert.
- Ich verfolge das aider-Projekt seit etwa einem Jahr und versuche zu verstehen, wie man Software-Engineering-Agenten baut.
  Letzte Woche habe ich auf dem AI Engineering Summit in New York einen sehr erfahrenen Staff AI Engineer getroffen, der mit aider ziemlich unglaubliche Dinge gemacht hat, und ich war wirklich erstaunt.
  Da es womöglich nicht passend wäre, das in einem öffentlichen Forum zu posten, frage ich mich, ob es eine Möglichkeit gibt, solche echten aider-Projektgeschichten direkt zu teilen, falls ich die Erlaubnis bekomme.
Ich bin Boris aus dem Claude-Code-Team und werde zusammen mit @eschluntz, @catherinewu, @wolffiex und @bdr in der nächsten Stunde so viele Produktfragen wie möglich beantworten.
- Es gibt etwas, das unbedingt behoben werden sollte: Wenn man einen Prompt eingibt, erzeugt das Modell bereits 90 % oder 100 % der Antwort, dann zeigt das System wegen Kapazitätsüberschreitung einen Fehler an, dass keine Antwort erzeugt werden könne, und löscht sogar die bereits ausgegebene Antwort.
  Ich fände es gut, wenn man auch auf eine unvollständige, aber bereits gelieferte Antwort zugreifen könnte.
- Mein größter Kritikpunkt ist, dass man in der UI schon nach wenigen etwas anspruchsvolleren Anfragen ständig an Nutzungslimits stößt.
  Man kann zwar die Console API verwenden, verliert dann aber Funktionen wie Projects.
  Ich frage mich, ob es wahrscheinlich ist, dass diese Limits bald erhöht werden.
- Claude ist mein Standard-LLM für alles, und auch wenn es klischeehaft klingt, erweitert es tatsächlich den Bereich dessen, was ich vernünftigerweise lernen kann, um ein Vielfaches.
  Zurzeit lese ich ohne entsprechendes Vorwissen alte philosophische Texte; hätte Claude mir die schwierigen Sätze nicht einfach erklärt, Ideen mit mir diskutiert und mir beim historischen Kontext, bei der Frage, warum sie so geschrieben wurden, und beim Vergleich mit neuen Denkrichtungen geholfen, hätte ich mehrfach aufgegeben.
  Auch bei der Arbeit nutze ich es täglich mehrfach für Entwicklung, und der kurze Modus ist im Vergleich zu anderen LLMs wirklich erfrischend.
  Es findet Bugs in unbekannten Codebasen, erklärt Tech-Stacks und schreibt bash-Skripte, wodurch es mir Dutzende Stunden und viel Stress erspart hat.
  Allerdings ist die Dienststabilität etwas schlechter als anderswo, sodass ich gelegentlich auf andere Modelle ausweichen muss; ich frage mich, ob es Pläne gibt, das zu verbessern.
- Ich war gerade dabei, sehr unordentlich alten, klassenbasierten React-Component-Code zu refaktorisieren, der seit sechs Jahren nicht angerührt worden war, und bin nach ein paar Tagen mit Aider an eine Wand gelaufen.
  Ich war gerade dabei, im Aider-Quellcode auf GitHub nach den Prompts zu graben und mir ein kleines Hilfsskript zu bauen, daher war das Timing dieses Releases perfekt.
  Nachdem ich Claude Code installiert habe, arbeitet es diese Aufgabe schnell ab, und mir gefallen auch das Interface und die Charakterformulierungen wie „Ruminating“ und „Schlepping“.
  Insgesamt großartige Arbeit.
- Ich habe gerade angefangen, das Kommandozeilentool auszuprobieren, und mein erster Eindruck nach 5 Minuten ist, dass ich mir in claude-code ebenfalls die Anzeige der Kosten pro Anfrage und der Gesamtkosten der Sitzung wünschen würde, die ich an aider mochte.
  Ich nutze aider mit Claude 3.5 regelmäßig im Alltag, und die Möglichkeit, Kosten auf natürliche Weise im Blick zu behalten, war nützlich.
  Außerdem wäre es schön, wenn es in einer kompilierbaren Sprache wie Go oder Rust geschrieben wäre, aber ich verstehe, dass die Kosten einer Neufassung hoch sein könnten.
  Nach etwa 10 Minuten Nutzung scheint es bei einfachen Go-Code-Patches größere Probleme zu geben. Nachdem es eine Zeile mit falscher Einrückung hinzugefügt hatte, versuchte es dreimal, sie mit korrekter Einrückung zu korrigieren, bekam aber jedes Mal "String to replace not found in file".
  Aider mit Claude 3.5 kommt damit sehr gut zurecht; es wäre also vielleicht hilfreich, sich dessen Prompts und Patch-Format anzusehen.
Der Kagi-LLM-Benchmark wurde aktualisiert und berücksichtigt jetzt den Universalmodus und den Thinking-Modus von Sonnet 3.7
https://help.kagi.com/kagi/ai/llm-benchmark.html
Unter den getesteten universellen LLMs scheint es auf Platz 2 zu liegen, hinter Gemini 2.0 Pro und vor gpt-4o
Der Thinking-Modus ist weniger beeindruckend und liegt bei einem Thinking-Budget von 8192 Tokens ungefähr auf dem Niveau von o1-mini und o3-mini
Insgesamt ein gutes Update: zum gleichen Preis bekommt man ein qualitativ besseres und schnelleres Modell; ich hoffe, dass man es innerhalb von 24 Stunden im Kagi Assistant aktivieren kann
- Danke an das Kagi-Team, dass es neue LLMs so schnell im Assistant nutzbar macht
  Der Wert von Kagi Assistant ist für mich persönlich so hoch, dass ich nicht darüber nachdenken muss
- Es ist jetzt überraschend, dass Gemini 2.0 auf Platz 1 liegt
  Ich erinnere mich, dass Google-Modelle im Kagi-Benchmark eher schwach abgeschnitten haben
- Ich frage mich, wie das Thinking-Budget von 8192 Tokens gewählt wurde
  Bei DeepSeek R1 habe ich oft gesehen, dass es deutlich mehr verbraucht
- Es ist schon im Kagi Assistant sichtbar, und es sind noch keine 24 Stunden vergangen. Schön
- Was ich nicht verstehe: Claude 3.5 Haiku, das kein Thinking-Modell ist, steht im Nicht-Thinking-Abschnitt, wird aber mit einem Thinking-Budget von 8192 angezeigt
Wenn man damit HN-Profile analysiert, ist das ziemlich witzig :)
https://hn-wrapped.kadoa.com/
Ich nutze es, um den Sinn für Humor des neuen Modells zu testen
- Ich habe offenbar mehr darüber geredet, einen „Carnatic-raga-Detektor“ zu bauen, als ihn tatsächlich zu bauen; bei diesem Tempo würde das LLM eher einen Raga komponieren, bevor der Detektor einen Raga erkennt — es hat mich richtig erwischt
  Außerdem meinte es, ich hätte einen 7950X-Prozessor gekauft, wüsste aber nicht, was ich damit anfangen soll; die Computing-Version davon, einmal pro Woche mit dem Ferrari zum Einkaufen zu fahren
  Es sagte auch, ich hätte aus Sorge um die Work-Life-Balance ein Sabbatical genommen, es dann aber damit verbracht, auf HN die Karrieren anderer Leute zu kommentieren
  Falls mich jemand sucht: Ich weine in meinem Zimmer
- „Dein Gehalt ist so niedrig, dass sogar Legacy-Code Mitleid hat“
  „Du bist die einzige Person auf HN, die 800 Dollar im Monat nicht für eine Cloud-Computing-Rechnung, sondern für ein Gehalt hält“
  Das tut weh
- Komplett auseinandergenommen: „Du hast mehr Zeit damit verbracht zu erklären, warum Gos Fehlerbehandlung schlecht ist, als Go-Entwickler tatsächlich mit Fehlerbehandlung verbracht haben“
  „Deine Beziehung zu Programmiersprachen ist wie eine Dating-Show. Du findest bei allen Fehler, kannst dich aber auf keine festlegen“
  „Wenn Fehlerbehandlung eine Religion wäre, wärst du ihr eifrigster Missionar und würdest eine unchecked Exception nach der anderen bekehren“
- „Für jemanden, der bei Reddit gearbeitet hat, verbringst du zu viel Zeit auf HN. Das ist, als würde man Facebook verlassen und dann den ganzen Tag auf Twitter über Social Media schimpfen“
  So präzise, dass es weh tut
- „Du schreibst Romane in HN-Kommentar-Threads und beschwerst dich dabei über digitale Ablenkung. Das ist, als würde man in der Drive-thru-Schlange warten und Fast Food kritisieren“
  „Du wirst einen durchdachten Essay über ‚digitalen Minimalismus‘ schreiben, ihn auf die HN-Frontpage bringen und ironischerweise mehr Zeit mit den Antworten auf diese Kommentare verbringen, als du das ganze Jahr über auf HN verbracht hast“
  Es sieht mich. Nein
Schon meine erste Interaktion mit Claude 3.7 Sonnet war ziemlich beeindruckend
Ich bat es, ein Problem in einer Codebasis zu finden, bei dem eine Cloudflare-Pages-Funktion in Produktion 500er, unsinnige Fehler und leere Antworten zurückgab — ein Problem, das ich den ganzen Freitag über nicht finden konnte
Das Skript starb, bevor es irgendetwas ausgab, sodass ich keine Möglichkeit hatte, mehr Logging einzubauen oder Sichtbarkeit zu bekommen; das war wirklich frustrierend
o1, o3 und Claude 3.5 halfen überhaupt nicht, aber Claude 3.7 fand nach 39 Sekunden Thinking in der ersten Antwort exakt das Problem und schrieb im zweiten Prompt sogar eine funktionierende Funktion, die es umgeht
Da ich ein GitHub-Repository mit der Unterhaltung verbunden hatte, scheint das Teilen der Diskussion nicht zu funktionieren; ich habe sie daher in ein Gist kopiert: https://gist.github.com/Uninen/46df44f4307d324682dabb7aa6e10...
- Eine der Antworten zeigt, dass Claude im Grunde noch immer kein Verständnis für echtes Denken hat
  Es schlug vor, die HTML-Sanitization ins Frontend zu verschieben, aber genau deshalb liegt sie in der CF-Funktion: Im Frontend lässt sie sich viel zu leicht umgehen, sodass man buchstäblich alles in die DB hochladen könnte
  Das würde sogar ein Junior-Entwickler verstehen
Ich habe es in meinem LLM-Tool zum Laufen gebracht; die neue Plugin-Version ist llm-anthropic 0.14
Dabei habe ich einiges über das Modell herausgefunden; detaillierte Notizen stehen hier: https://simonwillison.net/2025/Feb/25/llm-anthropic-014/
Eine der interessantesten neuen Funktionen ist, dass das Ausgabelimit von 8.000 Tokens bei Claude 3.5 Sonnet auf 120.000 Tokens gestiegen ist
Dieses Modell scheint dieses Ausgabelimit effektiv nutzen zu können; mein bisher längstes Ergebnis brauchte 27 Minuten bis zur Fertigstellung: https://gist.github.com/simonw/854474b050b630144beebf06ec4a2...
- Ich will Sonnet 3.7 nicht schlechtreden, aber zu sagen, es liege viel höher als jedes andere Modell in diesem Bereich, scheint mir nicht korrekt
  o1 und o3-mini gehen ebenfalls bis zu 100.000 Output-Tokens
  https://platform.openai.com/docs/models#o1
- Ich frage mich, ob Simon irgendwo geschrieben hat, wie er so aktiv sein kann — mit Programmiertools, Blog und Arbeit
  Ich frage mich, woher er die Zeit und Energie nimmt
- Ich frage mich, wie viel das gekostet hat
Dass Anthropic sich stärker auf Code konzentriert, ergibt Sinn
Im Vergleich zu anderen Modellen war Code seine Stärke
Angesichts der Schwierigkeiten von Devin bin ich gespannt, wie ihr Konkurrenzprodukt zu Devin ausfallen wird
- Da es das Modell ist, das einen erheblichen Teil der Nutzung von Cursor/Windsurf antreibt, und Anthropic auch MCP vorantreibt, könnte das gut werden, wenn sie nur die User Experience richtig hinbekommen
- Es ist eindeutig eine Stärke, aber manchmal wünschte ich, der Chat wollte nicht ganz so sehr Code schreiben
  Selbst wenn ich nur konzeptionelle oder High-Level-Antworten möchte, wirft er oft Code hinein; inzwischen sage ich schon aus Gewohnheit dazu, dass er keinen Code schreiben soll
- Ich hatte denselben Gedanken und habe 3 wirklich schwierige Probleme, die bisher weder Claude noch irgendein anderes Modell lösen konnte; ich freue mich darauf, sie heute auszuprobieren
- Ein bisschen witzig ist, dass sie im Blogpost Cognition zitieren, also die Firma hinter Devin
Dass man „bei der Entwicklung von Reasoning-Modellen die Optimierung auf Wettbewerbsaufgaben in Mathematik und Informatik etwas reduziert und den Fokus stärker auf reale Aufgaben verlagert hat, die besser widerspiegeln, wie Unternehmen LLMs tatsächlich nutzen“, ist eine gute Nachricht
OpenAI scheint auf das „intelligenteste Modell“ abzuzielen, aber in der Praxis werden LLMs vor allem als Lernhelfer, Datentransformatoren und Code-Autoren genutzt
Die Balance zwischen „Intelligenz“ und „Dinge erledigen können“ wirkt wie der Sweet Spot, und das scheint einer der Gründe zu sein, warum aktuelle Entwickler-Tools (Cursor, Windsurf usw.) Claude 3.5 Sonnet gegenüber 4o bevorzugen
- Wir alle nutzen Claude täglich direkt bei der Arbeit, und es ist interessanter, unsere eigenen Schmerzen zu lösen als abstrakte Benchmarks
  Um Dinge erledigt zu bekommen, braucht man zwar viel Schreibtischwissen, aber auch viel Praxisgefühl dafür, wann man schnell antworten und wann man zurückgehen sollte
- Manchmal habe ich das Gefühl, dass auf Benchmarks überangepasst wird. Bei DeepSeek fühlt es sich besonders so an
  Egal, wo es in den tatsächlichen Rankings steht: Subjektiv ist Claude der Chat, dessen Antworten sich besser anfühlen und zu dem ich immer wieder zurückkehre
- Claude 3.5 war in Windsurf hervorragend, kostete aber Credits
  DeepSeek V3 ist jetzt in Windsurf ohne Credit-Kosten verfügbar, und für unser Unternehmen war das eine große Veränderung
  So oder so ist es gut, mehr Auswahl zu haben
  Ich empfehle dringend, Windsurfs Cascade-Funktion für agentisches Codieren und Erkunden auszuprobieren. Sie spart viel Zeit dabei, eine neue Codebase zu verstehen und Datenflüsse nachzuverfolgen
Der KI-Wettlauf schreitet wirklich schnell voran
Als Softwareentwickler/-ingenieur mache ich mir Sorgen um die Jobaussichten, und man wird sehen müssen, wie es sich mit der Zeit entwickelt
Ich frage mich auch, was mit der Immobilienblase an der Westküste passiert, wenn die hohen Gehälter von Software Engineers verschwinden
Vielleicht kommt einfach die nächste Welle von Wissensarbeitern und nimmt diesen Platz ein
- Es stimmt, dass der Arbeitsmarkt für Softwareentwicklung stark durcheinandergerät, aber es gibt Dinge, die man tun kann, um sich günstig zu positionieren
  Mehr über den gesamten Stack lernen, insbesondere Backend und DevOps, Produktivitätsgewinne annehmen, um mehr Produkte und persönliche Projekte zu veröffentlichen, Produktionszeit sehr selektiv einsetzen und ein hervorragendes persönliches Wissensmanagementsystem plus Agenten-Assistenten haben
- Tatsächlich scheint sich das Tempo eher zu verlangsamen
  Das letzte Jahr war bis etwa Llama 3 ziemlich wild, aber die jüngsten Verbesserungen sind vergleichsweise klein
  Reasoning-Modelle sind auch nur etwas besser als das, was man zuvor schon mit Agenten und expliziter Planung erreichen konnte; eher gut zweckgerecht verpackt und ein wenig getunt
  DeepSeek hat bei der Effizienz große Fortschritte gemacht, aber die für Nutzer sichtbare Veränderung war nicht besonders groß
  Daher wirkt der aktuelle KI-Wettlauf für mich so, als würde er langsam ein Plateau erreichen
- Die Auswirkungen könnten viel breiter sein als nur Silicon Valley oder die Westküste, und ironischerweise ist Silicon Valley dank der KI-Entwicklung vielleicht sogar eine der wenigen Regionen, die noch relativ hoffnungsvoll dastehen
  Diese Modelle könnten die Beschäftigung in der Branche weltweit erschüttern
  Ironischerweise sind die wirklich veränderten Berufe vielleicht nur Software Engineers und einige Bereiche wie Schreiben und Grafikdesign
  Dass KI-Labore Software Engineers besonders ins Visier nehmen, zeigt schon die Ankündigung „Claude 3.7 and Code“, und andere Bereiche werden kaum erwähnt
  Für Menschen außerhalb des Silicon Valley, die nie von hohen Gehältern profitiert haben, ist Software Engineering oft ein stressiger normaler Beruf, der kontinuierliches Lernen erfordert
  Daher hatten sie vermutlich auch weniger Möglichkeiten, mit hohem verfügbarem Einkommen zu investieren oder zu sparen; der Schmerz und die Unsicherheit durch Automatisierung sind entsprechend größer
  Wer hätte gedacht, dass der erste Beruf, den KI automatisiert, nicht körperliche Arbeit oder autonomes Fahren ist, sondern Software selbst
  Andere Branchen scheinen schwieriger zu sein, weil sie in Sackgassen geraten sind oder Hürden wie Regulierung und geschlossenes Wissen haben
  Software Engineers haben anderen Branchen gewissermaßen ein Beispiel geliefert: Lasst KI nicht hinein oder sperrt sie so lange wie möglich intern ein, also bleibt Closed Source
  Rückblickend ist das ironisch
- Kurz- und mittelfristig mache ich mir keine großen Sorgen
  Ich habe das Gefühl, dass es zu viele Edge Cases und subtile Kontexte gibt, die KI-Systeme übersehen werden
  Zum Beispiel verhalten sich Systeme nicht immer so, wie es dokumentiert ist. Wie soll eine KI zwischen einem Bug in einem Service und einem Bug in ihrem eigenen Code unterscheiden? Wie soll sie überhaupt wissen, dass es einen Bug gibt? Wie unterscheidet sie einen Bugreport vom Eindringversuch eines Hackers?
  Die Welt ist komplex, und solange es keine echte künstliche Intelligenz gibt, braucht es Menschen, die KI in solchen kniffligen Situationen anleiten
  Mein Rat: Macht euch mit KI und neuen KI-Tools vertraut und versteht, wie sie in übliche Workflows passen
  Gute Software Engineers werden meiner Ansicht nach nicht verschwinden
- Wenn Modelle besser werden, aber nicht bis zur vollständigen Singularität gehen, werden die Jobs meiner Meinung nach eher zunehmen
  Wenn zum Beispiel die Kosten für Softwareentwicklung um den Faktor 5 sinken, wird die Nachfrage um mehr als das Fünffache steigen, weil das Angebot derzeit stark begrenzt ist
  Viele Unternehmen wollen bessere Software, aber die Kosten sind zu hoch
  Dann entstehen mehr Jobs
  Allerdings wird weniger getippt und es wird mehr um Produktmanagement, menschliche Interaktion und Edge-Case-Tests gehen
  Es dürften auch einige sehr technische Jobs entstehen, bei denen man debuggt, wenn Modelle scheitern
  Deshalb würde ich raten, Fähigkeiten zu lernen, die dabei helfen, für Menschen und Unternehmen nützliche Software zu bauen, von User Research bis Produktmanagement. Engineering braucht man daneben weiterhin
Claude 3.7 hat die Hälfte meiner Bachelorarbeit in weniger als 30 Sekunden noch einmal erledigt :|
https://claude.ai/share/ed8a0e55-633f-4056-ba70-772ab5f5a08b
Die Ausgabegrafik ist hier: https://i.imgur.com/0c65Xfk.png
Gemini Flash 2 ist kläglich gescheitert: https://g.co/gemini/share/10437164edd0
- Die meisten Themen, die üblicherweise im Bachelor behandelt werden, sind gut dokumentiert und gut verstanden, daher sind sie wahrscheinlich in den Trainingsdaten der KI enthalten
  Ab dem Master-Niveau ist die Materiallage etwas spärlicher und nischiger, aber im Großen und Ganzen trotzdem nicht wirklich bahnbrechend
  Auf Promotionsniveau geht es darum, das bestehende Wissen im jeweiligen Fachgebiet zu erweitern, und viele Themen werden zum ersten Mal untersucht; daher dürfte die Abdeckung meist nahezu null sein
- Als Nächstes sind Masterarbeit und Dissertation dran!
- Ich frage mich, ob diese Inhalte oder etwas Ähnliches in frei zugänglichen Materialien oder in einigen Bibliotheken zu finden waren

riskatcher 2025-02-25

Zum Vergleich mit Flash 2 ist der Preisunterschied einfach zu groß … genau zwischen o1pro und o3-mini angesiedelt