10 Punkte von GN⁺ 2024-10-23 | 1 Kommentare | Auf WhatsApp teilen
  • Anthropic hat das verbesserte Claude 3.5 Sonnet und das neue Modell Claude 3.5 Haiku angekündigt
  • Neu eingeführt wurde die Funktion Computer Use als öffentliche Beta, mit der man Claude anweisen kann, einen Computer wie ein Mensch zu bedienen
  • Die Gesamtleistung wurde verbessert, während Preis und Geschwindigkeit unverändert bleiben

Einführung in die Computer-Use-Funktion

  • Entwickler können Claude über die API anweisen, einen Computer wie ein echter Mensch zu bedienen
  • Möglich sind Aufgaben wie das Betrachten des Bildschirms, das Bewegen des Cursors, das Klicken auf Schaltflächen und die Texteingabe
  • Derzeit befindet sich die Funktion noch in einem experimentellen Stadium und kann gelegentlich umständlich sein oder Fehler verursachen
  • Asana, Canva, Cognition, DoorDash, Replit und The Browser Company haben bereits begonnen, diese Möglichkeit für Aufgaben zu erproben, die Dutzende, manchmal Hunderte von Schritten erfordern

Claude 3.5 Sonnet: Software-Engineering auf Spitzenniveau in der Branche

  • Das aktualisierte Claude 3.5 Sonnet zeigt in Branchen-Benchmarks breite Verbesserungen und legt insbesondere bei agentischem Coding und Aufgaben mit Tool-Nutzung stark zu
  • Auf SWE-bench Verified stieg die Leistung von 33,4 % auf 49,0 % und erreichte damit einen höheren Wert als alle öffentlich verfügbaren Modelle
  • Auch auf TAU-bench verbesserte sich die Leistung von 62,6 % auf 69,2 % im Retail-Bereich und von 36,0 % auf 46,0 % im Airline-Bereich
  • Laut frühem Feedback von Kunden wie GitLab, Cognition und The Browser Company stellt Claude 3.5 Sonnet einen bedeutenden Sprung für AI-gestütztes Coding dar

Claude 3.5 Haiku: Modernste Technik kombiniert mit Wirtschaftlichkeit und Geschwindigkeit

  • Claude 3.5 Haiku ist die nächste Generation des schnellsten Modells
  • Es wurde in allen technischen Bereichen verbessert, bei denselben Kosten und ähnlicher Geschwindigkeit wie das Haiku der vorherigen Generation, und übertrifft das bisher größte Modell Claude 3 Opus
  • Besonders bei Coding-Aufgaben zeigt es Stärke und erreicht 40,6 % auf SWE-bench Verified, womit es viele Agenten übertrifft, die öffentlich verfügbare State-of-the-Art-Modelle wie das bisherige Claude 3.5 Sonnet und GPT-4o einsetzen
  • Dank niedriger Latenz, verbesserter Befolgung von Anweisungen und präziserer Tool-Nutzung eignet es sich für nutzerzentrierte Produkte, spezialisierte Sub-Agent-Aufgaben und die Erstellung personalisierter Erlebnisse aus großen Datenmengen

Claude beibringen, Computer verantwortungsvoll zu bedienen

  • Mit der Computer-Use-Funktion wird etwas grundlegend Neues ausprobiert
  • Anstatt spezifische Tools zu bauen, die einzelne Aufgaben erledigen, wird Claude allgemeine Computerkompetenz beigebracht
  • Entwickler können diese frühe Funktion nutzen, um wiederkehrende Prozesse zu automatisieren, Software zu entwickeln und zu testen sowie offene Aufgaben wie Recherche auszuführen
  • In OSWorld erreichte Claude 3.5 Sonnet 14,9 % in der Screenshot-only-Kategorie und lag damit deutlich vor dem zweitbesten AI-System mit 7,8 %
  • Die Computer-Use-Funktion ist noch unvollkommen und könnte neue Wege für Bedrohungen wie Spam, Desinformation und Betrug eröffnen, daher wird ein proaktiver Ansatz für eine sichere Bereitstellung verfolgt

Zukunftsausblick für Computer Use

  • Aus der ersten Auslieferung dieser noch frühen Technologie zu lernen, wird helfen, das Potenzial und die Auswirkungen immer leistungsfähigerer AI-Systeme besser zu verstehen
  • Nutzer werden eingeladen, die neuen Modelle und die öffentliche Beta der Computer-Use-Funktion auszuprobieren und Feedback zu teilen
  • Es wird erwartet, dass diese Entwicklungen neue Möglichkeiten für die Zusammenarbeit mit Claude eröffnen

Meinung von GN⁺

  • Die Computer-Use-Funktion ähnelt RPA (Robotic Process Automation), scheint aber einen flexibleren und allgemeineren Ansatz zu bieten
  • Sie dürfte Unternehmen bei der Automatisierung wiederkehrender Aufgaben stark helfen; anfangs ist es jedoch ratsam, wegen möglicher Fehler zunächst mit weniger kritischen Aufgaben zu beginnen
  • Es ist zu erwarten, dass diese Funktion mit bestehenden RPA-Tools wie Power Automate und UiPath konkurrieren wird und dass die Grenze zwischen AI und RPA künftig noch unschärfer wird
  • Aus Sicherheitsgründen kann die Vergabe von Computer-Steuerungsrechten an eine AI neue Risiken schaffen, weshalb strenge Zugriffskontrollen und Monitoring erforderlich erscheinen

1 Kommentare

 
GN⁺ 2024-10-23
Hacker-News-Kommentare
  • Sonnet belegt mit 84,2 % den ersten Platz im Code-Editing-Leaderboard von aider. Mit dem Modus "architect" setzt es den SOTA auf 85,7 %. Dabei wird DeepSeek als "editor"-Modell verwendet
    • Sonnet erreicht auch im anspruchsvolleren Refactoring-Benchmark mit 92,1 % einen SOTA
  • Claude 3.5 Opus wird in der offiziellen Anthropic-Dokumentation nicht mehr erwähnt. Das deutet darauf hin, dass die Veröffentlichung verzögert wurde oder abgesagt ist
  • Als jemand, der ein AI-SaaS-Produkt entwickelt, dachte ich, dass API-Integrationen den Großteil der AI-Automatisierung lösen würden, habe aber in der Praxis festgestellt, dass viele Softwareprodukte direkt mit Menschen interagieren
    • Zum Beispiel nutzt mein Schwager, ein Arzt, maßgeschneiderte Software mit MFC-Formularen unter Windows, und ein Buchhalter verwendet die leistungsstarke Software Cantax
    • Wenn man im SaaS-Bereich arbeitet, glaubt man leicht, dass alle ein Client-Server-Backend mit API haben müssten, aber in der Realität ist das nicht so
  • Die Fähigkeit zur Computernutzung ist äußerst beeindruckend
    • Es handelt sich nicht einfach um einen Agenten, der einen Computer als Werkzeug nutzt, sondern um einen autonomen Reasoning-Agenten, dem man ein Ziel setzt und der dann Computer und Browser einsetzt, um es zu erreichen
    • Es könnte OpenAI GPT-o1 übertreffen
  • Der Fokus von Anthropic auf AI-Sicherheit ist interessant. Die AI besitzt die Fähigkeit, Computer und Browser zu verwenden, um angeforderte Ziele zu erreichen
  • Claude war in den letzten 8 Monaten besser als ChatGPT, hat aber eine kleinere Nutzerbasis
  • Der Unterschied zwischen Sonnet und Opus ist nicht klar. Auf der Anthropic-Website heißt es, Opus sei das fortschrittlichste Modell, an anderer Stelle dagegen, Sonnet sei das schnellste und fortschrittlichste Modell
    • Bei manuellen Tests hatte ich den Eindruck, dass Opus etwas bessere Antworten liefert, sicher bin ich mir aber nicht
  • Die Coding-Demo mit Claude verdient mehr Diskussion
    • Echtes Endnutzer-Programmieren und Produktmanager-Programmieren könnten bald Realität werden
  • Beim Training mit der neuen API sind einige amüsante Dinge passiert
    • Claude stoppte eine lange Bildschirmaufnahme und verlor dadurch das gesamte Videomaterial oder schaute sich während einer Coding-Demo Fotos aus dem Yellowstone-Nationalpark an