Anthropic stellt Computer-Use-Funktion sowie die Modelle Claude 3.5 Sonnet/Haiku vor

(anthropic.com)

10 Punkte von GN⁺ 2024-10-23 | 1 Kommentare | Auf WhatsApp teilen

Anthropic hat das verbesserte Claude 3.5 Sonnet und das neue Modell Claude 3.5 Haiku angekündigt
Neu eingeführt wurde die Funktion Computer Use als öffentliche Beta, mit der man Claude anweisen kann, einen Computer wie ein Mensch zu bedienen
Die Gesamtleistung wurde verbessert, während Preis und Geschwindigkeit unverändert bleiben

Einführung in die Computer-Use-Funktion

Entwickler können Claude über die API anweisen, einen Computer wie ein echter Mensch zu bedienen
Möglich sind Aufgaben wie das Betrachten des Bildschirms, das Bewegen des Cursors, das Klicken auf Schaltflächen und die Texteingabe
Derzeit befindet sich die Funktion noch in einem experimentellen Stadium und kann gelegentlich umständlich sein oder Fehler verursachen
Asana, Canva, Cognition, DoorDash, Replit und The Browser Company haben bereits begonnen, diese Möglichkeit für Aufgaben zu erproben, die Dutzende, manchmal Hunderte von Schritten erfordern

Claude 3.5 Sonnet: Software-Engineering auf Spitzenniveau in der Branche

Das aktualisierte Claude 3.5 Sonnet zeigt in Branchen-Benchmarks breite Verbesserungen und legt insbesondere bei agentischem Coding und Aufgaben mit Tool-Nutzung stark zu
Auf SWE-bench Verified stieg die Leistung von 33,4 % auf 49,0 % und erreichte damit einen höheren Wert als alle öffentlich verfügbaren Modelle
Auch auf TAU-bench verbesserte sich die Leistung von 62,6 % auf 69,2 % im Retail-Bereich und von 36,0 % auf 46,0 % im Airline-Bereich
Laut frühem Feedback von Kunden wie GitLab, Cognition und The Browser Company stellt Claude 3.5 Sonnet einen bedeutenden Sprung für AI-gestütztes Coding dar

Claude 3.5 Haiku: Modernste Technik kombiniert mit Wirtschaftlichkeit und Geschwindigkeit

Claude 3.5 Haiku ist die nächste Generation des schnellsten Modells
Es wurde in allen technischen Bereichen verbessert, bei denselben Kosten und ähnlicher Geschwindigkeit wie das Haiku der vorherigen Generation, und übertrifft das bisher größte Modell Claude 3 Opus
Besonders bei Coding-Aufgaben zeigt es Stärke und erreicht 40,6 % auf SWE-bench Verified, womit es viele Agenten übertrifft, die öffentlich verfügbare State-of-the-Art-Modelle wie das bisherige Claude 3.5 Sonnet und GPT-4o einsetzen
Dank niedriger Latenz, verbesserter Befolgung von Anweisungen und präziserer Tool-Nutzung eignet es sich für nutzerzentrierte Produkte, spezialisierte Sub-Agent-Aufgaben und die Erstellung personalisierter Erlebnisse aus großen Datenmengen

Claude beibringen, Computer verantwortungsvoll zu bedienen

Mit der Computer-Use-Funktion wird etwas grundlegend Neues ausprobiert
Anstatt spezifische Tools zu bauen, die einzelne Aufgaben erledigen, wird Claude allgemeine Computerkompetenz beigebracht
Entwickler können diese frühe Funktion nutzen, um wiederkehrende Prozesse zu automatisieren, Software zu entwickeln und zu testen sowie offene Aufgaben wie Recherche auszuführen
In OSWorld erreichte Claude 3.5 Sonnet 14,9 % in der Screenshot-only-Kategorie und lag damit deutlich vor dem zweitbesten AI-System mit 7,8 %
Die Computer-Use-Funktion ist noch unvollkommen und könnte neue Wege für Bedrohungen wie Spam, Desinformation und Betrug eröffnen, daher wird ein proaktiver Ansatz für eine sichere Bereitstellung verfolgt

Zukunftsausblick für Computer Use

Aus der ersten Auslieferung dieser noch frühen Technologie zu lernen, wird helfen, das Potenzial und die Auswirkungen immer leistungsfähigerer AI-Systeme besser zu verstehen
Nutzer werden eingeladen, die neuen Modelle und die öffentliche Beta der Computer-Use-Funktion auszuprobieren und Feedback zu teilen
Es wird erwartet, dass diese Entwicklungen neue Möglichkeiten für die Zusammenarbeit mit Claude eröffnen

Meinung von GN⁺

Die Computer-Use-Funktion ähnelt RPA (Robotic Process Automation), scheint aber einen flexibleren und allgemeineren Ansatz zu bieten
Sie dürfte Unternehmen bei der Automatisierung wiederkehrender Aufgaben stark helfen; anfangs ist es jedoch ratsam, wegen möglicher Fehler zunächst mit weniger kritischen Aufgaben zu beginnen
Es ist zu erwarten, dass diese Funktion mit bestehenden RPA-Tools wie Power Automate und UiPath konkurrieren wird und dass die Grenze zwischen AI und RPA künftig noch unschärfer wird
Aus Sicherheitsgründen kann die Vergabe von Computer-Steuerungsrechten an eine AI neue Risiken schaffen, weshalb strenge Zugriffskontrollen und Monitoring erforderlich erscheinen

1 Kommentare

GN⁺ 2024-10-23

Hacker-News-Kommentare

Sonnet belegt mit 84,2 % den ersten Platz im Code-Editing-Leaderboard von aider. Mit dem Modus "architect" setzt es den SOTA auf 85,7 %. Dabei wird DeepSeek als "editor"-Modell verwendet
- Sonnet erreicht auch im anspruchsvolleren Refactoring-Benchmark mit 92,1 % einen SOTA
Claude 3.5 Opus wird in der offiziellen Anthropic-Dokumentation nicht mehr erwähnt. Das deutet darauf hin, dass die Veröffentlichung verzögert wurde oder abgesagt ist
Als jemand, der ein AI-SaaS-Produkt entwickelt, dachte ich, dass API-Integrationen den Großteil der AI-Automatisierung lösen würden, habe aber in der Praxis festgestellt, dass viele Softwareprodukte direkt mit Menschen interagieren
- Zum Beispiel nutzt mein Schwager, ein Arzt, maßgeschneiderte Software mit MFC-Formularen unter Windows, und ein Buchhalter verwendet die leistungsstarke Software Cantax
- Wenn man im SaaS-Bereich arbeitet, glaubt man leicht, dass alle ein Client-Server-Backend mit API haben müssten, aber in der Realität ist das nicht so
Die Fähigkeit zur Computernutzung ist äußerst beeindruckend
- Es handelt sich nicht einfach um einen Agenten, der einen Computer als Werkzeug nutzt, sondern um einen autonomen Reasoning-Agenten, dem man ein Ziel setzt und der dann Computer und Browser einsetzt, um es zu erreichen
- Es könnte OpenAI GPT-o1 übertreffen
Der Fokus von Anthropic auf AI-Sicherheit ist interessant. Die AI besitzt die Fähigkeit, Computer und Browser zu verwenden, um angeforderte Ziele zu erreichen
Claude war in den letzten 8 Monaten besser als ChatGPT, hat aber eine kleinere Nutzerbasis
Der Unterschied zwischen Sonnet und Opus ist nicht klar. Auf der Anthropic-Website heißt es, Opus sei das fortschrittlichste Modell, an anderer Stelle dagegen, Sonnet sei das schnellste und fortschrittlichste Modell
- Bei manuellen Tests hatte ich den Eindruck, dass Opus etwas bessere Antworten liefert, sicher bin ich mir aber nicht
Die Coding-Demo mit Claude verdient mehr Diskussion
- Echtes Endnutzer-Programmieren und Produktmanager-Programmieren könnten bald Realität werden
Beim Training mit der neuen API sind einige amüsante Dinge passiert
- Claude stoppte eine lange Bildschirmaufnahme und verlor dadurch das gesamte Videomaterial oder schaute sich während einer Coding-Demo Fotos aus dem Yellowstone-Nationalpark an

Anthropic stellt Computer-Use-Funktion sowie die Modelle Claude 3.5 Sonnet/Haiku vor

Einführung in die Computer-Use-Funktion

Claude 3.5 Sonnet: Software-Engineering auf Spitzenniveau in der Branche

Claude 3.5 Haiku: Modernste Technik kombiniert mit Wirtschaftlichkeit und Geschwindigkeit

Claude beibringen, Computer verantwortungsvoll zu bedienen

Zukunftsausblick für Computer Use

Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare