- Anthropic hat das verbesserte Claude 3.5 Sonnet und das neue Modell Claude 3.5 Haiku angekündigt
- Neu eingeführt wurde die Funktion Computer Use als öffentliche Beta, mit der man Claude anweisen kann, einen Computer wie ein Mensch zu bedienen
- Die Gesamtleistung wurde verbessert, während Preis und Geschwindigkeit unverändert bleiben
Einführung in die Computer-Use-Funktion
- Entwickler können Claude über die API anweisen, einen Computer wie ein echter Mensch zu bedienen
- Möglich sind Aufgaben wie das Betrachten des Bildschirms, das Bewegen des Cursors, das Klicken auf Schaltflächen und die Texteingabe
- Derzeit befindet sich die Funktion noch in einem experimentellen Stadium und kann gelegentlich umständlich sein oder Fehler verursachen
- Asana, Canva, Cognition, DoorDash, Replit und The Browser Company haben bereits begonnen, diese Möglichkeit für Aufgaben zu erproben, die Dutzende, manchmal Hunderte von Schritten erfordern
Claude 3.5 Sonnet: Software-Engineering auf Spitzenniveau in der Branche
- Das aktualisierte Claude 3.5 Sonnet zeigt in Branchen-Benchmarks breite Verbesserungen und legt insbesondere bei agentischem Coding und Aufgaben mit Tool-Nutzung stark zu
- Auf SWE-bench Verified stieg die Leistung von 33,4 % auf 49,0 % und erreichte damit einen höheren Wert als alle öffentlich verfügbaren Modelle
- Auch auf TAU-bench verbesserte sich die Leistung von 62,6 % auf 69,2 % im Retail-Bereich und von 36,0 % auf 46,0 % im Airline-Bereich
- Laut frühem Feedback von Kunden wie GitLab, Cognition und The Browser Company stellt Claude 3.5 Sonnet einen bedeutenden Sprung für AI-gestütztes Coding dar
Claude 3.5 Haiku: Modernste Technik kombiniert mit Wirtschaftlichkeit und Geschwindigkeit
- Claude 3.5 Haiku ist die nächste Generation des schnellsten Modells
- Es wurde in allen technischen Bereichen verbessert, bei denselben Kosten und ähnlicher Geschwindigkeit wie das Haiku der vorherigen Generation, und übertrifft das bisher größte Modell Claude 3 Opus
- Besonders bei Coding-Aufgaben zeigt es Stärke und erreicht 40,6 % auf SWE-bench Verified, womit es viele Agenten übertrifft, die öffentlich verfügbare State-of-the-Art-Modelle wie das bisherige Claude 3.5 Sonnet und GPT-4o einsetzen
- Dank niedriger Latenz, verbesserter Befolgung von Anweisungen und präziserer Tool-Nutzung eignet es sich für nutzerzentrierte Produkte, spezialisierte Sub-Agent-Aufgaben und die Erstellung personalisierter Erlebnisse aus großen Datenmengen
Claude beibringen, Computer verantwortungsvoll zu bedienen
- Mit der Computer-Use-Funktion wird etwas grundlegend Neues ausprobiert
- Anstatt spezifische Tools zu bauen, die einzelne Aufgaben erledigen, wird Claude allgemeine Computerkompetenz beigebracht
- Entwickler können diese frühe Funktion nutzen, um wiederkehrende Prozesse zu automatisieren, Software zu entwickeln und zu testen sowie offene Aufgaben wie Recherche auszuführen
- In OSWorld erreichte Claude 3.5 Sonnet 14,9 % in der Screenshot-only-Kategorie und lag damit deutlich vor dem zweitbesten AI-System mit 7,8 %
- Die Computer-Use-Funktion ist noch unvollkommen und könnte neue Wege für Bedrohungen wie Spam, Desinformation und Betrug eröffnen, daher wird ein proaktiver Ansatz für eine sichere Bereitstellung verfolgt
Zukunftsausblick für Computer Use
- Aus der ersten Auslieferung dieser noch frühen Technologie zu lernen, wird helfen, das Potenzial und die Auswirkungen immer leistungsfähigerer AI-Systeme besser zu verstehen
- Nutzer werden eingeladen, die neuen Modelle und die öffentliche Beta der Computer-Use-Funktion auszuprobieren und Feedback zu teilen
- Es wird erwartet, dass diese Entwicklungen neue Möglichkeiten für die Zusammenarbeit mit Claude eröffnen
Meinung von GN⁺
- Die Computer-Use-Funktion ähnelt RPA (Robotic Process Automation), scheint aber einen flexibleren und allgemeineren Ansatz zu bieten
- Sie dürfte Unternehmen bei der Automatisierung wiederkehrender Aufgaben stark helfen; anfangs ist es jedoch ratsam, wegen möglicher Fehler zunächst mit weniger kritischen Aufgaben zu beginnen
- Es ist zu erwarten, dass diese Funktion mit bestehenden RPA-Tools wie Power Automate und UiPath konkurrieren wird und dass die Grenze zwischen AI und RPA künftig noch unschärfer wird
- Aus Sicherheitsgründen kann die Vergabe von Computer-Steuerungsrechten an eine AI neue Risiken schaffen, weshalb strenge Zugriffskontrollen und Monitoring erforderlich erscheinen
1 Kommentare
Hacker-News-Kommentare