1 Punkte von GN⁺ 2024-03-05 | 1 Kommentare | Auf WhatsApp teilen
  • Anthropic hat die Claude-3-Produktfamilie vorgestellt und präsentiert mit Haiku, Sonnet und Opus eine neue Modellreihe, bei der sich das Gleichgewicht aus Intelligenz, Geschwindigkeit und Kosten wählen lässt
  • Opus übertrifft in wichtigen Benchmarks wie MMLU, GPQA und GSM8K vergleichbare Modelle, und Claude 3 insgesamt verbessert Analyse, Vorhersage, Codegenerierung und nicht-englischsprachige Konversationen
  • Die Differenzierung über Geschwindigkeit ist eine zentrale Achse: Haiku kann ein arXiv-Paper mit etwa 10k Token in unter 3 Sekunden lesen, Sonnet ist bei den meisten Workloads 2-mal schneller als Claude 2 und 2.1
  • Claude 3 verarbeitet Vision-Eingaben wie Fotos, Diagramme, Grafiken und technische Schaubilder und bietet zum Start ein Kontextfenster von 200K sowie die Möglichkeit von Eingaben mit mehr als 1 Million Token
  • Opus und Sonnet sind sofort über claude.ai und die Claude API verfügbar, die API wird in 159 Ländern angeboten, Haiku soll in Kürze erscheinen

Modellaufbau und Verfügbarkeit

  • Die Claude-3-Produktfamilie besteht in aufsteigender Leistungsreihenfolge aus Claude 3 Haiku, Claude 3 Sonnet und Claude 3 Opus
  • Jedes Modell ist so konzipiert, dass sich je nach Anwendung das Gleichgewicht aus Intelligenz, Geschwindigkeit und Kosten wählen lässt
  • Opus und Sonnet sind über claude.ai und die Claude API verfügbar
    • Die Claude API ist allgemein verfügbar und wird in 159 Ländern angeboten
    • Haiku wird in Kürze verfügbar sein
  • Das kostenlose Erlebnis auf claude.ai läuft mit Sonnet, Opus ist für Claude-Pro-Abonnenten verfügbar
  • Sonnet ist auch auf Amazon Bedrock verfügbar und im Google Cloud Vertex AI Model Garden als private Preview erhältlich
    • Opus und Haiku werden beiden Plattformen ebenfalls bald hinzugefügt

Intelligenz, Geschwindigkeit und multimodale Leistung

  • Opus ist das intelligenteste Modell von Anthropic und übertrifft in zahlreichen Benchmarks zur Bewertung von AI-Systemen wie MMLU, GPQA und GSM8K vergleichbare Modelle
  • Die Claude-3-Modelle zeigen verbesserte Fähigkeiten bei Analyse und Vorhersage, fein abgestimmter Content-Erstellung, Codegenerierung sowie in nicht-englischsprachigen Konversationen wie auf Spanisch, Japanisch und Französisch
  • Dadurch erweitert sich der Einsatzbereich für Aufgaben, bei denen Echtzeitantworten wichtig sind
    • Live-Kundenchat
    • Autovervollständigung
    • Datenextraktion
  • Haiku ist das schnellste und kosteneffizienteste Modell in seiner Intelligenzkategorie und kann ein arXiv-Paper mit etwa 10k Token inklusive Diagrammen und Grafiken in unter 3 Sekunden lesen
  • Sonnet ist bei den meisten Workloads 2-mal schneller als Claude 2 und Claude 2.1 und bietet ein höheres Intelligenzniveau
    • Wissensabruf
    • Vertriebsautomatisierung
  • Opus bietet ein höheres Intelligenzniveau bei ähnlicher Geschwindigkeit wie Claude 2 und Claude 2.1

Vision-Eingaben, weniger Ablehnungen, bessere Genauigkeit

  • Die Claude-3-Modelle verfügen über Vision-Fähigkeiten auf einem ähnlichen Niveau wie andere führende Modelle
    • Fotos
    • Diagramme
    • Grafiken
    • technische Schaubilder
  • Für einige Enterprise-Kunden ist die neue Eingabeform besonders wichtig, da bis zu 50 % ihrer Wissensbasis in Formaten wie PDFs, Flussdiagrammen und Präsentationsfolien gespeichert sind
  • Frühere Claude-Modelle lehnten häufig unnötig ab, was wie mangelndes Kontextverständnis wirkte; bei Claude 3 ist die Wahrscheinlichkeit, dass Opus, Sonnet und Haiku auf Prompts nahe an den System-Guidelines antwortenverweigernd reagieren, im Vergleich zur vorherigen Generation deutlich geringer
  • Claude 3 wurde verbessert, um Anfragen feiner zu verstehen und tatsächlichen Schaden zu erkennen, sodass Ablehnungen bei harmlosen Prompts reduziert werden
  • Die Genauigkeitsbewertung verwendet komplexe Faktenfragensets, die gezielt auf bekannte Schwächen aktueller Modelle abzielen
    • Antworten werden als richtig, falsch bzw. Halluzination oder als Anerkennung von Unsicherheit klassifiziert
    • Opus verdoppelt im Vergleich zu Claude 2.1 die Trefferquote bei schwierigen offenen Fragen und reduziert zugleich das Niveau falscher Antworten
  • Den Claude-3-Modellen wird bald eine Zitatfunktion hinzugefügt, mit der sich zur Verifikation von Antworten auf exakte Sätze in Referenzmaterialien verweisen lässt

Langer Kontext und Erinnerungsvermögen

  • Die Claude-3-Produktfamilie bietet zum Start ein 200K-Kontextfenster
  • Alle drei Modelle können Eingaben mit mehr als 1 Million Token verarbeiten und könnten Kunden mit höherem Bedarf an Verarbeitungskapazität bereitgestellt werden
  • Um lange Kontext-Prompts korrekt zu verarbeiten, ist ein starkes Erinnerungsvermögen erforderlich
  • Die Needle In A Haystack(NIAH)-Bewertung misst die Fähigkeit, Informationen aus sehr großen Datenkorpora präzise abzurufen
    • Zur Erhöhung der Robustheit der Bewertung wird pro Prompt eines von 30 zufälligen Needle/Question-Paaren verwendet
    • Getestet wird mit verschiedenen crowdsourcten Dokumentkorpora
  • Claude 3 Opus erreicht bei NIAH mit über 99 % Genauigkeit ein nahezu perfektes Erinnerungsvermögen
  • In einigen Fällen erkennt das Modell sogar eine Grenze der Bewertung selbst, indem es bemerkt, dass der „Needle“-Satz so wirkt, als sei er künstlich von Menschen in den Originaltext eingefügt worden

Sicherheitsdesign und Umgang mit Bias

  • Anthropic legt den Fokus darauf, die Claude-3-Produktfamilie ebenso vertrauenswürdig wie leistungsfähig zu machen
  • Spezialisierte Teams verfolgen und mindern verschiedene Risiken
    • Desinformation
    • CSAM
    • biologischer Missbrauch
    • Wahlbeeinflussung
    • autonome Replikationsfähigkeit
  • Zur Erhöhung von Sicherheit und Transparenz der Modelle entwickelt Anthropic weiterhin Methoden wie Constitutional AI
  • Die Modelle wurden so angepasst, dass mögliche Datenschutzprobleme durch neue Eingabeformen gemindert werden
  • Gemessen am Bias Benchmark for Question Answering(BBQ) weist Claude 3 weniger Verzerrungen auf als frühere Modelle
  • Die Claude-3-Produktfamilie hat sich bei zentralen Messgrößen für biologisches Wissen, Cyber-bezogenes Wissen und Autonomie gegenüber früheren Modellen verbessert, verbleibt jedoch gemäß der Responsible Scaling Policy auf AI Safety Level 2(ASL-2)
  • Red-Team-Bewertungen kommen zu dem Schluss, dass das Potenzial der aktuellen Modelle für katastrophale Risiken gering ist
  • Weitere Sicherheitsdetails finden sich in der Claude 3 model card

Nutzbarkeit, Preise und Einsatzbereiche je Modell

  • Die Claude-3-Modelle befolgen komplexe mehrstufige Anweisungen besser
  • Sie eignen sich besser dafür, Brand Voice und Antwort-Guidelines einzuhalten und verlässliche kundennahe Erlebnisse zu schaffen
  • Die Fähigkeit zur Erzeugung strukturierter Ausgaben wie JSON wurde verbessert, wodurch Claude bei Anwendungsfällen wie Natural-Language-Klassifikation und Sentiment-Analyse einfacher anzuweisen ist
  • Claude 3 Opus

    • Claude 3 Opus ist das intelligenteste Modell und liefert Spitzenleistung bei hochkomplexen Aufgaben
    • Es verarbeitet offene Prompts und unbekannte Szenarien mit hoher Flüssigkeit und menschennahem Verständnis
    • Der Preis beträgt 15 US-Dollar pro 1 Million Input-Token und 75 US-Dollar pro 1 Million Output-Token
    • Das Kontextfenster beträgt 200K, für bestimmte Use Cases sind auch 1 Million Token möglich
    • Mögliche Anwendungsfälle
      • Planung und Ausführung komplexer Aufgaben über APIs und Datenbanken hinweg, interaktives Coding
      • Research-Review, Brainstorming, Hypothesengenerierung, Wirkstoffforschung
      • Fortgeschrittene Analyse von Diagrammen und Grafiken, Finanzen, Markttrends und Prognosen
  • Claude 3 Sonnet

    • Claude 3 Sonnet zielt auf ein Gleichgewicht aus Intelligenz und Geschwindigkeit und ist besonders auf Enterprise-Workloads ausgerichtet
    • Es bietet starke Leistung zu geringeren Kosten als vergleichbare Modelle und wurde auf hohe Nachhaltigkeit bei großflächigen AI-Deployments ausgelegt
    • Der Preis beträgt 3 US-Dollar pro 1 Million Input-Token und 15 US-Dollar pro 1 Million Output-Token
    • Das Kontextfenster beträgt 200K
    • Mögliche Anwendungsfälle
      • RAG oder Suche und Abruf über umfangreiche Wissensbestände
      • Produktempfehlungen, Vorhersagen, zielgerichtetes Marketing
      • Codegenerierung, Qualitätskontrolle, Parsing von Text aus Bildern
  • Claude 3 Haiku

    • Claude 3 Haiku ist das schnellste und kleinste Modell für nahezu unmittelbare Reaktionsfähigkeit
    • Es beantwortet einfache Anfragen und Requests sehr schnell und zielt darauf ab, reibungslose AI-Erlebnisse zu schaffen, die menschliche Interaktion nachahmen
    • Der Preis beträgt 0,25 US-Dollar pro 1 Million Input-Token und 1,25 US-Dollar pro 1 Million Output-Token
    • Das Kontextfenster beträgt 200K
    • Mögliche Anwendungsfälle
      • Schneller und präziser Kundensupport und Übersetzung in Live-Interaktionen
      • Content-Moderation zur Erkennung riskanten Verhaltens oder von Kundenanfragen
      • Logistikoptimierung, Bestandsmanagement, Wissensextraktion aus unstrukturierten Daten

Geplante Funktionen und Updates

  • Anthropic sieht die Modellintelligenz noch nicht nahe an ihren Grenzen und plant, in den kommenden Monaten häufige Updates für die Claude-3-Produktfamilie zu veröffentlichen
  • Für Enterprise-Anwendungsfälle und großflächige Deployments sind Funktionen geplant, die die Modellfähigkeiten erweitern
    • Tool-Nutzung, also Function Calling
    • interaktives Coding, also REPL
    • weiter fortgeschrittene Agent-Funktionen
  • Dabei soll die Grenze der AI-Fähigkeiten erweitert werden, während die Sicherheits-Guidelines mit den Leistungsverbesserungen Schritt halten
  • Der Einstiegspunkt für die Entwicklung mit Claude ist anthropic.com/claude

1 Kommentare

 
GN⁺ 2024-03-05
Meinungen auf Hacker News
  • Ich habe gerade ein Plugin veröffentlicht, das meinem LLM-Kommandozeilentool Unterstützung für Claude-3-Modelle hinzufügt.
    Nach der Einrichtung mit pipx install llm, llm install llm-claude-3, llm keys set claude kann man es etwa so ausführen: llm -m claude-3-opus '3 fun facts about pelicans'.
    Code: https://github.com/simonw/llm-claude-3
    Beschreibung von LLM: https://llm.datasette.io/

    • Auf dem Mac habe ich in Automator eine Schnellaktion erstellt, die ausgewählten Text entgegennimmt, an llm -m gpt-4 übergibt und das Ergebnis in einem osascript-Dialog anzeigt; das war sehr nützlich.
      Jetzt kann ich in jeder App Text markieren und dann im Dienste-Menü LLM ausführen; mit einem Tastaturkürzel nutze ich es inzwischen zum Interpretieren von Terminal-Fehlern, für spontane Recherchen und zum direkten Eingeben von Prompts in Texteditoren/IDEs.
    • Ich habe mein Hacker-News-Zusammenfassungsskript auf Claude 3 Opus umgestellt; die ursprüngliche Beschreibung steht hier: https://til.simonwillison.net/llms/claude-hacker-news-themes
      Es holt Beiträge und Kommentare über die hn.algolia.com-API, entfaltet sie mit jq und gibt sie dann an llm -m claude-3-opus weiter, um thematische Markdown-Zusammenfassungen und direkte Zitate zu erzeugen.
      Ergebnis eines Laufs über diesen Thread mit mehr als 300 Kommentaren: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
    • Da das Erstellen eines Anthropic-API-Keys kostenlos zu sein scheint, frage ich mich, ob man den Ablauf bis zur Eingabe des Keys nicht mit headless Chrome automatisieren könnte.
      Es würde mehr Software geben, die nach der Installation per pip oder apt sofort funktioniert; im Moment bleibt noch der lästige Schritt, dass ein Mensch den API-Key einfügen muss.
      Man könnte auch scherzen, dass es ganz im Sinne des KI-Zeitalters wäre, bei Annäherung an das API-Limit per GPU eine kleine Menge Bitcoin zu minen und damit automatisch zusätzliche API-Kapazität zu bezahlen.
    • Wenn man auf dem Mac Raycast nutzt, kann man ein eigenes Skript erstellen und über die Raycast-Oberfläche mit der LLM-CLI interagieren: https://gist.github.com/vladstudio/92efe283453f5f22d4606947b9f82719
  • Opus und frühere Claude-Modelle können das Sally-Problem immer noch nicht richtig lösen.
    Auf die Frage „Sally hat 3 Brüder, und jeder Bruder hat 2 Schwestern. Wie viele Schwestern hat Sally?“ schließt Claude, dass es außer Sally selbst keine Schwester gibt, und antwortet daher mit 0.
    https://imgur.com/a/EawcbeL

    • Auch die GPT-4-API und ChatGPT lagen standardmäßig falsch und antworteten „Sally hat 2 Schwestern“, aber mit einem System-Prompt, der schrittweises Denken verlangt, kamen sie korrekt auf 1.
      Wegen der Bedeutung der Prompting-Methode wird es ziemlich schwierig, die Spitzenleistung von Modellen zu vergleichen, und der Prompt-Stil, mit dem ein Modell seine beste Leistung erzielt, unterscheidet sich je nach Modell.
    • Ein lokales LLama 13B Q5 antwortete auf diese Aufgabe, Sally habe 1 Schwester, nämlich sich selbst; da jeder der 3 Brüder 3 Schwestern habe, seien es insgesamt 9, abzüglich Sallys Anteil also 8.
    • Wenn Sallys Eltern und die Eltern ihrer Brüder etwa durch Wiederheirat unterschiedlich sein können und eine Geschwisterbeziehung schon dann gilt, wenn nur ein Elternteil gemeinsam ist, muss es möglicherweise keine eindeutige richtige Antwort geben.
      Zum Beispiel könnten Sally und die drei Brüder dieselbe Mutter haben, aber verschiedene Väter; die Brüder hätten Sally und Mary als zwei Schwestern, während Mary und Sally wegen unterschiedlicher Elternmengen möglicherweise keine Schwestern wären.
    • Solche Beispiele machen mich skeptisch gegenüber KI-Hype.
      Es heißt zwar, die Intelligenz liege auf PhD-Niveau, aber selbst das obige Problem wird nicht korrekt erschlossen; Informationsmenge auf PhD-Niveau ist etwas anderes als fortgeschrittenes Schlussfolgern, und viele Menschen scheinen diesen Unterschied nicht zu erkennen.
      Beim autonomen Fahren ist es ähnlich: Einer Fahrspur zu folgen ist leicht, aber Spur- und Objekterkennung sind schwer; nur weil ein Auto grundlegende Aktionen ausführt, hält man es fälschlich für ein echtes Situationsverständnis. Bei LLMs wirkt es ähnlich.
    • Das ist eindeutig ein Problem, aber es ist auch eine Frage, die ziemlich viele normale Erwachsene auf der Straße falsch beantworten würden.
      Statt sich nur daran festzubeißen, dass das Modell Fehler macht, sollte man auch die erstaunlichen Dinge sehen, die es tatsächlich korrekt schafft.
  • Die 70,2 % von Claude 3 Opus im APPS-Benchmark zeigen, dass es beim Coding ziemlich nützlich sein kann
    APPS misst die Fähigkeit, Problembeschreibungen in Python-Code umzusetzen; die durchschnittliche Problemlänge liegt bei fast 300 Wörtern
    Interessanterweise haben andere Top-Modelle ihre Ergebnisse für diesen Benchmark nicht veröffentlicht
    Claude-3-Model-Card: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
    Table 1: https://twitter.com/karinanguyen_/status/1764666528220557320
    APPS-Datensatz: https://huggingface.co/datasets/codeparrot/apps
    APPS-Paper: https://arxiv.org/abs/2105.09938v3

    • Betrachtet man die Ergebnisse für AMC 10 und AMC 12 2023 in Table 2, liegt Claude 3 Opus besser als der durchschnittliche Highschool-Schüler, der an diesem Mathematikwettbewerb teilnimmt
      Der Durchschnitt der Schüler liegt bei 64,4 bzw. 61,5, während Opus 3 72 und 63 erreichte
      Die Teilnehmer am AMC 12 machen wahrscheinlich weniger als 100.000 der insgesamt 3 bis 4 Millionen Zwölftklässler in den USA aus; selbst wenn man annimmt, dass nur die Hälfte der Spitzenschüler teilnimmt, könnte der AMC-Durchschnitt die besten 2–4 % der US-Highschool-Schüler repräsentieren
      https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
    • Laut David Rein, dem Erstautor des GPQA-Benchmarks, erreichte Claude 3 bei GPQA etwa 60 % Genauigkeit, und diese Aufgaben seien wirklich schwierig
      Er erklärt, dass Promovierte aus anderen Fachgebieten trotz Internetnutzung und mehr als 30 Minuten Bearbeitungszeit nur 34 % erreichen, während Promovierte aus demselben Fachgebiet selbst mit Internet auf 65–75 % Genauigkeit kommen
      https://twitter.com/idavidrein/status/1764675668175094169
      GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
    • Aus der Perspektive von jemandem, der bei Anthropic arbeitet: Einen beträchtlichen Teil meines aktuellen Arbeitscodes schreibt Opus für mich
    • Wegen der Benchmarks und des Lobs habe ich mich heute für Pro angemeldet, aber in meinem üblichen Workflow war es eine komplette Katastrophe
      Im Vergleich zu ChatGPT-4 fühlte es sich um mehrere Größenordnungen schlechter an, und das tatsächliche Nutzungserlebnis wirkte wie ein deutlicher Rückschritt in die Vergangenheit
    • APPS hat je nach Schwierigkeitsgrad drei Teilmengen: introductory, interview und competition; unklar ist, auf welcher Teilmenge Claude 3 gemessen wurde
      Schon nur bei introductory wäre das eine gute Leistung, aber es wäre besser zu wissen, welcher Maßstab verwendet wurde
  • In der Beschreibung von Claude 3 stört mich weiterhin die Stelle, dass es weniger unnötige Ablehnungen als bei früheren Modellen gebe.
    Ich verstehe, dass ein Unternehmen kein Produkt verkaufen will, mit dem jeder lernen kann, wie man Drogen oder Bomben herstellt, aber wenn ein Modell, das auf meinem Computer läuft, eine von mir gewünschte Aufgabe ablehnt, finde ich das unangenehm.
    Um das gewünschte Ergebnis zu bekommen, muss man das Modell überzeugen oder austricksen; dass ein Werkzeug die Befehle seines Besitzers verweigert, fühlt sich wie eine Beleidigung des Verhältnisses zwischen Mensch und Werkzeug an.
    Wenn ich einen Hammer für Schrauben verwenden will, ist das meine Entscheidung und nicht die des Hammers. Ich verstehe nicht, warum man so darauf fixiert ist, AI-Tools wegen von Dritten definierter „Sicherheit“ Befehle ihrer Besitzer verweigern zu lassen.

    • Sie handeln nach einem ähnlichen Prinzip wie viele Entwickler, die sich weigern, bei der Entwicklung von Waffen zu helfen.
      Sie wollen nicht, dass das Handeln anderer mit ihren Tools ihr Gewissen belastet.
      Allerdings glauben viele Menschen an Gedankenverbrechen und haben puritanische Vorstellungen von Sexualität; wenn man sich dem nicht anpasst, entstehen Reputations- und Finanzierungskosten.
      Wenn Nutzer mit einem Modell Verbrechen begehen, soll das Rechtssystem damit umgehen; Big Brother muss meiner Ansicht nach nicht auch noch Gedankenverbrechen überwachen.
    • Die Hammer-Analogie ist schlecht, und eine Analogie wie „Wenn ich Atomwaffen einsetzen will, ist das meine Entscheidung und die Verantwortung für Missbrauch liegt bei mir“ ist ebenso schlecht.
      Im Moment mag die Hammer-Analogie weitgehend passend wirken, aber im Bereich AI Alignment geht man davon aus, dass diese Systeme bald, spätestens innerhalb von zehn Jahren, deutlich leistungsfähiger werden.
      Der Grundzustand eines Werkzeugs ist moralisch neutral, und es macht sowohl gute als auch schlechte Menschen effektiver; wenn Angriff und Verteidigung symmetrisch sind, ist das Problem kleiner, aber es gibt keinen Grund, warum das so sein sollte.
      Der Grund, warum es Regulierung für automatische Waffen mit hoher Feuerrate gibt, ist ebenfalls die zu große Asymmetrie zwischen der Angriffsfähigkeit eines einzelnen Übeltäters und der Unmöglichkeit der Verteidigung. Wenn AI-Angriffe viel einfacher werden als Verteidigung, kann die Ideologie der Offenheit in der Realität scheitern.
      Allerdings ist es problematisch, wenn Guardrails von wenigen Gruppen festgelegt werden; das wirkt wie eine Nebenwirkung davon, dass AI zu schnell aufgetaucht ist.
    • Wenn ein Hammerhersteller mit nahezu keinen Kosten verhindern könnte, dass Hämmer dazu benutzt werden, Menschen anzugreifen, würden wohl viele Unternehmen so eine Funktion einbauen.
      Das könnte schon wegen staatlichen Drucks oder wegen Wettbewerbsmarketing wie „Unser Hammer verletzt nicht versehentlich Babys“ passieren; dass Hämmer keine solche Funktion haben, ist möglicherweise keine Entscheidung, sondern ein Nebenprodukt von Grenzen.
    • Ich halte das für ein überzogenes Anspruchsdenken.
      Ist es auch unangenehm, dass Photoshop das Bearbeiten von Geldbildern verhindert? Das Modell gehört dem Nutzer nicht, und der Nutzer hat auch nicht Milliarden von Dollar in seine Entwicklung gesteckt.
      Wie bei kommerzieller Software üblich: Man nutzt sie zu den vom Entwickler festgelegten Bedingungen oder eben gar nicht.
    • Leute, die sich über Ablehnungen ärgern, scheinen nicht zu verstehen, wer die tatsächlichen Kunden im AI-Markt sind und wo das Geld liegt.
      Der Zielmarkt sind Großunternehmen, die durch die Automatisierung verschiedener Aufgaben Hunderte Millionen bis Milliarden Dollar an Personalkosten sparen wollen; was sie wollen, sind zuverlässige Modelle mit korrekten Informationen und guten Guardrails.
      Ein großer multinationaler Versicherer wird sicher nicht das Risiko eingehen, dass sein Kundensupport-Chatbot einem Kunden, der ihn zum Spaß dazu verleitet, Erotik schreibt.
      Die wichtigen Nutzer sind nicht Einzelpersonen, sondern Arbeitgeber, die Kundensupport-Mitarbeiter mit emotionaler Arbeit ersetzen wollen; sie wollen kontrollierte, freundliche menschliche Ersatzkräfte mit Guardrails.
  • Opus hat Gemini Pro und GPT-4 bei komplexen Fragen deutlich übertroffen.
    Es ging darum, in einem 43-seitigen PDF zu Lebensversicherungs-Investitionen mehrere Zahlen zu finden, und die anderen Modelle kamen nicht einmal in die Nähe.
    Nur Claude 3 Sonnet war nahe dran und verpasste lediglich eine Frage.

    • Ich frage mich, ob das auch mit dem 1-Million-Token-Kontextfenster von Gemini Pro 1.5 verglichen wurde.
      Für ein 43-seitiges PDF könnte das ideal sein, und da ich Zugriff habe, könnte ich es mit Pro 1.5 testen.
    • Ich habe Sonnet eine Frage zu GANs gestellt; es war ziemlich ordentlich und wirkte besser als GPT-3.5.
    • Ich habe Sonnet ausprobiert und fand es nicht besonders gut.
  • Ich habe Claude Pro abonniert, Opus getestet, komplexe Fragen zu Bildern und SDXL-Finetuning gestellt und Kostenvergleiche zwischen RTX 6000 Ada und H100 berechnen lassen; dabei gab es viele Fehler.
    Als ich einen Screenshot der Runpod-GPU-Preise gab, las es den Preis der RTX 6000 Ada fälschlich als $0.114 statt $1.14, und auch spätere Berechnungen wie .278 * $0.114 oder .116 * $4.69 passten nicht zu den angegebenen Gesamtsummen.
    ChatGPT 4 hingegen las die Preise aus demselben Screenshot korrekt, erkannte, dass die RTX 6000 Ada nicht verfügbar war, ersetzte sie selbstständig durch eine 4090 und rechnete konsistenter.

    • GPT scheint für Ein- und Ausgabe-Token separate Hilfsfunktionen auszuführen, um Tokenisierungsprobleme zu korrigieren.
      Es scheint keine Möglichkeit zu geben, dieses Problem zu beheben, außer Formelelemente zu finden, sie an einen handgebauten Parser und Funktionen zu schicken und das Ergebnis wieder in die Ausgabe-Token einzufügen.
      Hinweis: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
    • Als CISO von Anthropic danke ich für das Feedback; wenn du Details zum Bild teilen kannst, schick sie mir gern per privater Nachricht.
      Noch kein LLM hatte jemals einen emergenten Rechner.
    • Ich frage mich, was OpenAI genau meinte, als sie sagten, dass GPT-4 mit Vision intelligenter sei als GPT-4 ohne Vision.
      Bedeutet das, dass die Vision-Fähigkeit auch bei Aufgaben ohne Bildeingabe die Intelligenz erhöht?
    • Der Unterschied scheint vermutlich beim Lesen des Screenshots zu entstehen; wenn man nur Text gibt, wirkt es auf einem ähnlichen Niveau wie GPT-4.
      Bei einem komplexen arithmetischen Ausdruck lag die korrekte Rechnerantwort zum Beispiel bei 22.08555452004; GPT-4 ohne Python gab 22.3038 aus, Claude 3 Opus 22.0492.
    • Der echte wirtschaftliche Disruptor dürfte kommen, wenn Befehle wie „Investiere diese 1.000 Dollar, maximiere den Gewinn und mach das 100-Fache daraus“ möglich werden.
      Danach lässt man dann nach Belieben r/wallStreetBets-Bots laufen.
  • Ich habe einen einfachen Coding-Prompt getestet, bei dem DB und Frontend ineinandergreifen, und das kostenlose, schwächere Modell Claude 3 Sonnet lieferte eine bessere Antwort als ChatGPT Classic.
    Es verwendete die richtige Methode einer weniger bekannten SQL-ORM-Bibliothek, während GPT-4 die falsche Methode nutzte.
    Bei einem Prompt zur SQL-Generierung lieferte es allerdings eine schlechtere Antwort als ChatGPT Classic; sie wirkte zwar korrekt, war aber deutlich länger.
    ChatGPT-Link 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
    ChatGPT-Link 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba

    • In diesem Chat scheint GPT-3 oder ein schwächeres Modell verwendet worden zu sein.
      Das grüne Icon steht für das ChatGPT-Modell der ersten Generation, vermutlich sehr wahrscheinlich GPT-3.5 Turbo.
      Mit GPT-4 ausgeführt kommt das erwartete Ergebnis heraus: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
      Das ist ein gutes Beispiel dafür, dass viele im Internet kursierende ChatGPT-Fehlschläge Ergebnisse schwächerer Modelle sind.
      Das OpenAI-Icon mit grünem Hintergrund steht für GPT-3.5, schwarze oder violette Icons für GPT-4; GPT-4 Turbo in der API schnitt etwas besser ab, vielleicht weil es mehr Wissen über Drizzle hat.
  • Nachdem ich Opus ein wenig ausprobiert habe, beginne ich zu vermuten, dass Benchmarks systematisch von der realen Leistung abweichen.
    In der Praxis wirkt es nicht besser als GPT-4, sondern eher etwas schlechter.
    Bei grundlegenden Analysis-/Physikfragen nahm es konstante Verzögerung an, obwohl ausdrücklich gesagt wurde, dass die Verzögerung proportional zur Geschwindigkeit ist; und in einem Verkehrssimulationstest vergaß es das zuvor besprochene Richtungskonzept und war damit noch schlechter als die ohnehin schlechten Ergebnisse von GPT-4.
    Auch bei einem Test, in dem es nach einer Erklärung im Kontext die Grundfarben von Licht verstehen sollte, war es schlechter, und beim Coding lag es bei einer Aufgabe zur Berechnung der langfristigen Kapitalertragsteuer leicht hinter GPT-4.

    • AI Explained auf YouTube hat früher einmal ein Video veröffentlicht, in dem es hieß, die für LLM-Evaluationen verwendeten Tests seien voller falscher Antworten und nahezu nutzlos.
    • Es wirkt, als ob nach dem Training eines Modells, sobald Kennzahlen vorliegen, das Safety-Team es per RLHF bis zum Umfallen feinjustiert.
  • Claude 3 wurde dem Chat von https://double.bot hinzugefügt, sodass man es fürs Coding ausprobieren kann.
    Derzeit ist es kostenlos, und heute Nachmittag soll Claude 3 auch in die Autovervollständigung aufgenommen werden.
    Nach ersten Tests wirkt es wie die erste echte API-Alternative zu GPT-4, was eine große Sache ist.

    • Bedeutet das, Double ist wie Copilot, nur kostenlos? Ich frage mich, wo der Haken ist.
    • Ich würde gerne wissen, wie es im Vergleich zu Codeium abschneidet und ob Unterstützung für Vim/Neovim-Integration geplant ist.
      Codeium hat dafür bereits ziemlich ordentliche Unterstützung.
      https://www.codium.ai
      https://github.com/Exafunction/codeium.vim
    • Ich frage mich, ob Double auch plant, Open-Source-Modelle zu unterstützen, die lokal oder auf Cloud-Instanzen gehostet werden.
      Ich baue ein Produkt im selben Bereich und habe solche Anfragen schon ein paar Mal bekommen; bei einer IDE-Erweiterung sollte man sich wohl mit jedem AI-Modell verbinden können, egal wo es läuft.
    • Die API scheint derzeit weniger stabil zu sein als GPT-4, aber wenn ein Endpoint direkt nach dem Launch populär ist, ist das verständlich.
    • Genauer gesagt würde mich interessieren, ob das Claude 3 Opus oder das Sonnet-Modell ist.
  • Dass irgendein Modell GPT-4 übertrifft, ist eine große Sache, und es ist sehr beeindruckend, dass sie das geschafft haben.
    Allerdings ist GPT-4 ein Jahr alt, und OpenAI hat das Modell der nächsten Generation noch nicht veröffentlicht.

    • Es ist naheliegend zu erwarten, dass OpenAIs nächstes Modell die Führung zurückerobern wird, aber dass Anthropic so weit aufgeholt hat, ist sehr beeindruckend.
      Das GPT-3-Paper erschien 2020, und Anthropic wurde erst 2021 gegründet; während OpenAI also Erfahrung über drei Generationen gesammelt hatte, startete Anthropic praktisch bei null und liegt nun zumindest vorübergehend in einigen Benchmarks vorn.
      OpenAIs Modell der nächsten Generation dürfte bereits fertig trainiert sein und sich in Fine-Tuning und Sicherheitsbewertung befinden; da Sicherheit aber Anthropics Daseinszweck ist, ist schwer vorstellbar, dass sie diese Punkte nur deshalb halbherzig erledigt haben, um dieses Modell schnell herauszubringen.
    • ChatGPT-4 wird weiterhin aktualisiert, und die neuesten Versionen sind GPT-4-1106-preview und GPT-4-0125-preview.
      Referenz: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
    • Laut Fußnote im Blog berichteten Ingenieure, die Evaluations-Prompts und Few-Shot-Beispiele optimiert haben, bei neueren GPT-4T-Modellen von höheren Scores.
    • Menschen, die eine Schlüsselrolle bei der Entstehung von GPT gespielt haben, arbeiten inzwischen bei Anthropic.
    • In dieser Tabelle ist die praktisch wichtige Kennzahl MMLU, die stark mit Multi-Task-Reasoning-Fähigkeiten korreliert.
      Hier liegt es ganz knapp vor GPT-4, und da es bisher anscheinend kein anderes Modell geschafft hat, ist das schon für sich genommen beeindruckend.