Die Claude-3-Modellfamilie
(anthropic.com)- Anthropic hat die Claude-3-Produktfamilie vorgestellt und präsentiert mit Haiku, Sonnet und Opus eine neue Modellreihe, bei der sich das Gleichgewicht aus Intelligenz, Geschwindigkeit und Kosten wählen lässt
- Opus übertrifft in wichtigen Benchmarks wie MMLU, GPQA und GSM8K vergleichbare Modelle, und Claude 3 insgesamt verbessert Analyse, Vorhersage, Codegenerierung und nicht-englischsprachige Konversationen
- Die Differenzierung über Geschwindigkeit ist eine zentrale Achse: Haiku kann ein arXiv-Paper mit etwa 10k Token in unter 3 Sekunden lesen, Sonnet ist bei den meisten Workloads 2-mal schneller als Claude 2 und 2.1
- Claude 3 verarbeitet Vision-Eingaben wie Fotos, Diagramme, Grafiken und technische Schaubilder und bietet zum Start ein Kontextfenster von 200K sowie die Möglichkeit von Eingaben mit mehr als 1 Million Token
- Opus und Sonnet sind sofort über claude.ai und die Claude API verfügbar, die API wird in 159 Ländern angeboten, Haiku soll in Kürze erscheinen
Modellaufbau und Verfügbarkeit
- Die Claude-3-Produktfamilie besteht in aufsteigender Leistungsreihenfolge aus Claude 3 Haiku, Claude 3 Sonnet und Claude 3 Opus
- Jedes Modell ist so konzipiert, dass sich je nach Anwendung das Gleichgewicht aus Intelligenz, Geschwindigkeit und Kosten wählen lässt
- Opus und Sonnet sind über claude.ai und die Claude API verfügbar
- Die Claude API ist allgemein verfügbar und wird in 159 Ländern angeboten
- Haiku wird in Kürze verfügbar sein
- Das kostenlose Erlebnis auf claude.ai läuft mit Sonnet, Opus ist für Claude-Pro-Abonnenten verfügbar
- Sonnet ist auch auf Amazon Bedrock verfügbar und im Google Cloud Vertex AI Model Garden als private Preview erhältlich
- Opus und Haiku werden beiden Plattformen ebenfalls bald hinzugefügt
Intelligenz, Geschwindigkeit und multimodale Leistung
- Opus ist das intelligenteste Modell von Anthropic und übertrifft in zahlreichen Benchmarks zur Bewertung von AI-Systemen wie MMLU, GPQA und GSM8K vergleichbare Modelle
- Die Claude-3-Modelle zeigen verbesserte Fähigkeiten bei Analyse und Vorhersage, fein abgestimmter Content-Erstellung, Codegenerierung sowie in nicht-englischsprachigen Konversationen wie auf Spanisch, Japanisch und Französisch
- Dadurch erweitert sich der Einsatzbereich für Aufgaben, bei denen Echtzeitantworten wichtig sind
- Live-Kundenchat
- Autovervollständigung
- Datenextraktion
- Haiku ist das schnellste und kosteneffizienteste Modell in seiner Intelligenzkategorie und kann ein arXiv-Paper mit etwa 10k Token inklusive Diagrammen und Grafiken in unter 3 Sekunden lesen
- Sonnet ist bei den meisten Workloads 2-mal schneller als Claude 2 und Claude 2.1 und bietet ein höheres Intelligenzniveau
- Wissensabruf
- Vertriebsautomatisierung
- Opus bietet ein höheres Intelligenzniveau bei ähnlicher Geschwindigkeit wie Claude 2 und Claude 2.1
Vision-Eingaben, weniger Ablehnungen, bessere Genauigkeit
- Die Claude-3-Modelle verfügen über Vision-Fähigkeiten auf einem ähnlichen Niveau wie andere führende Modelle
- Fotos
- Diagramme
- Grafiken
- technische Schaubilder
- Für einige Enterprise-Kunden ist die neue Eingabeform besonders wichtig, da bis zu 50 % ihrer Wissensbasis in Formaten wie PDFs, Flussdiagrammen und Präsentationsfolien gespeichert sind
- Frühere Claude-Modelle lehnten häufig unnötig ab, was wie mangelndes Kontextverständnis wirkte; bei Claude 3 ist die Wahrscheinlichkeit, dass Opus, Sonnet und Haiku auf Prompts nahe an den System-Guidelines antwortenverweigernd reagieren, im Vergleich zur vorherigen Generation deutlich geringer
- Claude 3 wurde verbessert, um Anfragen feiner zu verstehen und tatsächlichen Schaden zu erkennen, sodass Ablehnungen bei harmlosen Prompts reduziert werden
- Die Genauigkeitsbewertung verwendet komplexe Faktenfragensets, die gezielt auf bekannte Schwächen aktueller Modelle abzielen
- Antworten werden als richtig, falsch bzw. Halluzination oder als Anerkennung von Unsicherheit klassifiziert
- Opus verdoppelt im Vergleich zu Claude 2.1 die Trefferquote bei schwierigen offenen Fragen und reduziert zugleich das Niveau falscher Antworten
- Den Claude-3-Modellen wird bald eine Zitatfunktion hinzugefügt, mit der sich zur Verifikation von Antworten auf exakte Sätze in Referenzmaterialien verweisen lässt
Langer Kontext und Erinnerungsvermögen
- Die Claude-3-Produktfamilie bietet zum Start ein 200K-Kontextfenster
- Alle drei Modelle können Eingaben mit mehr als 1 Million Token verarbeiten und könnten Kunden mit höherem Bedarf an Verarbeitungskapazität bereitgestellt werden
- Um lange Kontext-Prompts korrekt zu verarbeiten, ist ein starkes Erinnerungsvermögen erforderlich
- Die Needle In A Haystack(NIAH)-Bewertung misst die Fähigkeit, Informationen aus sehr großen Datenkorpora präzise abzurufen
- Zur Erhöhung der Robustheit der Bewertung wird pro Prompt eines von 30 zufälligen Needle/Question-Paaren verwendet
- Getestet wird mit verschiedenen crowdsourcten Dokumentkorpora
- Claude 3 Opus erreicht bei NIAH mit über 99 % Genauigkeit ein nahezu perfektes Erinnerungsvermögen
- In einigen Fällen erkennt das Modell sogar eine Grenze der Bewertung selbst, indem es bemerkt, dass der „Needle“-Satz so wirkt, als sei er künstlich von Menschen in den Originaltext eingefügt worden
Sicherheitsdesign und Umgang mit Bias
- Anthropic legt den Fokus darauf, die Claude-3-Produktfamilie ebenso vertrauenswürdig wie leistungsfähig zu machen
- Spezialisierte Teams verfolgen und mindern verschiedene Risiken
- Desinformation
- CSAM
- biologischer Missbrauch
- Wahlbeeinflussung
- autonome Replikationsfähigkeit
- Zur Erhöhung von Sicherheit und Transparenz der Modelle entwickelt Anthropic weiterhin Methoden wie Constitutional AI
- Die Modelle wurden so angepasst, dass mögliche Datenschutzprobleme durch neue Eingabeformen gemindert werden
- Gemessen am Bias Benchmark for Question Answering(BBQ) weist Claude 3 weniger Verzerrungen auf als frühere Modelle
- Die Claude-3-Produktfamilie hat sich bei zentralen Messgrößen für biologisches Wissen, Cyber-bezogenes Wissen und Autonomie gegenüber früheren Modellen verbessert, verbleibt jedoch gemäß der Responsible Scaling Policy auf AI Safety Level 2(ASL-2)
- Red-Team-Bewertungen kommen zu dem Schluss, dass das Potenzial der aktuellen Modelle für katastrophale Risiken gering ist
- Die Bewertungen wurden im Einklang mit den White House commitments und der 2023 US Executive Order durchgeführt
- Künftige Modelle sollen weiter daraufhin überwacht werden, wie nah sie an die ASL-3-Schwelle heranreichen
- Weitere Sicherheitsdetails finden sich in der Claude 3 model card
Nutzbarkeit, Preise und Einsatzbereiche je Modell
- Die Claude-3-Modelle befolgen komplexe mehrstufige Anweisungen besser
- Sie eignen sich besser dafür, Brand Voice und Antwort-Guidelines einzuhalten und verlässliche kundennahe Erlebnisse zu schaffen
- Die Fähigkeit zur Erzeugung strukturierter Ausgaben wie JSON wurde verbessert, wodurch Claude bei Anwendungsfällen wie Natural-Language-Klassifikation und Sentiment-Analyse einfacher anzuweisen ist
-
Claude 3 Opus
- Claude 3 Opus ist das intelligenteste Modell und liefert Spitzenleistung bei hochkomplexen Aufgaben
- Es verarbeitet offene Prompts und unbekannte Szenarien mit hoher Flüssigkeit und menschennahem Verständnis
- Der Preis beträgt 15 US-Dollar pro 1 Million Input-Token und 75 US-Dollar pro 1 Million Output-Token
- Das Kontextfenster beträgt 200K, für bestimmte Use Cases sind auch 1 Million Token möglich
- Mögliche Anwendungsfälle
- Planung und Ausführung komplexer Aufgaben über APIs und Datenbanken hinweg, interaktives Coding
- Research-Review, Brainstorming, Hypothesengenerierung, Wirkstoffforschung
- Fortgeschrittene Analyse von Diagrammen und Grafiken, Finanzen, Markttrends und Prognosen
-
Claude 3 Sonnet
- Claude 3 Sonnet zielt auf ein Gleichgewicht aus Intelligenz und Geschwindigkeit und ist besonders auf Enterprise-Workloads ausgerichtet
- Es bietet starke Leistung zu geringeren Kosten als vergleichbare Modelle und wurde auf hohe Nachhaltigkeit bei großflächigen AI-Deployments ausgelegt
- Der Preis beträgt 3 US-Dollar pro 1 Million Input-Token und 15 US-Dollar pro 1 Million Output-Token
- Das Kontextfenster beträgt 200K
- Mögliche Anwendungsfälle
- RAG oder Suche und Abruf über umfangreiche Wissensbestände
- Produktempfehlungen, Vorhersagen, zielgerichtetes Marketing
- Codegenerierung, Qualitätskontrolle, Parsing von Text aus Bildern
-
Claude 3 Haiku
- Claude 3 Haiku ist das schnellste und kleinste Modell für nahezu unmittelbare Reaktionsfähigkeit
- Es beantwortet einfache Anfragen und Requests sehr schnell und zielt darauf ab, reibungslose AI-Erlebnisse zu schaffen, die menschliche Interaktion nachahmen
- Der Preis beträgt 0,25 US-Dollar pro 1 Million Input-Token und 1,25 US-Dollar pro 1 Million Output-Token
- Das Kontextfenster beträgt 200K
- Mögliche Anwendungsfälle
- Schneller und präziser Kundensupport und Übersetzung in Live-Interaktionen
- Content-Moderation zur Erkennung riskanten Verhaltens oder von Kundenanfragen
- Logistikoptimierung, Bestandsmanagement, Wissensextraktion aus unstrukturierten Daten
Geplante Funktionen und Updates
- Anthropic sieht die Modellintelligenz noch nicht nahe an ihren Grenzen und plant, in den kommenden Monaten häufige Updates für die Claude-3-Produktfamilie zu veröffentlichen
- Für Enterprise-Anwendungsfälle und großflächige Deployments sind Funktionen geplant, die die Modellfähigkeiten erweitern
- Tool-Nutzung, also Function Calling
- interaktives Coding, also REPL
- weiter fortgeschrittene Agent-Funktionen
- Dabei soll die Grenze der AI-Fähigkeiten erweitert werden, während die Sicherheits-Guidelines mit den Leistungsverbesserungen Schritt halten
- Der Einstiegspunkt für die Entwicklung mit Claude ist anthropic.com/claude
1 Kommentare
Meinungen auf Hacker News
Ich habe gerade ein Plugin veröffentlicht, das meinem LLM-Kommandozeilentool Unterstützung für Claude-3-Modelle hinzufügt.
Nach der Einrichtung mit
pipx install llm,llm install llm-claude-3,llm keys set claudekann man es etwa so ausführen:llm -m claude-3-opus '3 fun facts about pelicans'.Code: https://github.com/simonw/llm-claude-3
Beschreibung von LLM: https://llm.datasette.io/
llm -m gpt-4übergibt und das Ergebnis in einemosascript-Dialog anzeigt; das war sehr nützlich.Jetzt kann ich in jeder App Text markieren und dann im Dienste-Menü
LLMausführen; mit einem Tastaturkürzel nutze ich es inzwischen zum Interpretieren von Terminal-Fehlern, für spontane Recherchen und zum direkten Eingeben von Prompts in Texteditoren/IDEs.Es holt Beiträge und Kommentare über die
hn.algolia.com-API, entfaltet sie mitjqund gibt sie dann anllm -m claude-3-opusweiter, um thematische Markdown-Zusammenfassungen und direkte Zitate zu erzeugen.Ergebnis eines Laufs über diesen Thread mit mehr als 300 Kommentaren: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
Es würde mehr Software geben, die nach der Installation per
pipoderaptsofort funktioniert; im Moment bleibt noch der lästige Schritt, dass ein Mensch den API-Key einfügen muss.Man könnte auch scherzen, dass es ganz im Sinne des KI-Zeitalters wäre, bei Annäherung an das API-Limit per GPU eine kleine Menge Bitcoin zu minen und damit automatisch zusätzliche API-Kapazität zu bezahlen.
Opus und frühere Claude-Modelle können das Sally-Problem immer noch nicht richtig lösen.
Auf die Frage „Sally hat 3 Brüder, und jeder Bruder hat 2 Schwestern. Wie viele Schwestern hat Sally?“ schließt Claude, dass es außer Sally selbst keine Schwester gibt, und antwortet daher mit 0.
https://imgur.com/a/EawcbeL
Wegen der Bedeutung der Prompting-Methode wird es ziemlich schwierig, die Spitzenleistung von Modellen zu vergleichen, und der Prompt-Stil, mit dem ein Modell seine beste Leistung erzielt, unterscheidet sich je nach Modell.
Zum Beispiel könnten Sally und die drei Brüder dieselbe Mutter haben, aber verschiedene Väter; die Brüder hätten Sally und Mary als zwei Schwestern, während Mary und Sally wegen unterschiedlicher Elternmengen möglicherweise keine Schwestern wären.
Es heißt zwar, die Intelligenz liege auf PhD-Niveau, aber selbst das obige Problem wird nicht korrekt erschlossen; Informationsmenge auf PhD-Niveau ist etwas anderes als fortgeschrittenes Schlussfolgern, und viele Menschen scheinen diesen Unterschied nicht zu erkennen.
Beim autonomen Fahren ist es ähnlich: Einer Fahrspur zu folgen ist leicht, aber Spur- und Objekterkennung sind schwer; nur weil ein Auto grundlegende Aktionen ausführt, hält man es fälschlich für ein echtes Situationsverständnis. Bei LLMs wirkt es ähnlich.
Statt sich nur daran festzubeißen, dass das Modell Fehler macht, sollte man auch die erstaunlichen Dinge sehen, die es tatsächlich korrekt schafft.
Die 70,2 % von Claude 3 Opus im APPS-Benchmark zeigen, dass es beim Coding ziemlich nützlich sein kann
APPS misst die Fähigkeit, Problembeschreibungen in Python-Code umzusetzen; die durchschnittliche Problemlänge liegt bei fast 300 Wörtern
Interessanterweise haben andere Top-Modelle ihre Ergebnisse für diesen Benchmark nicht veröffentlicht
Claude-3-Model-Card: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
Table 1: https://twitter.com/karinanguyen_/status/1764666528220557320
APPS-Datensatz: https://huggingface.co/datasets/codeparrot/apps
APPS-Paper: https://arxiv.org/abs/2105.09938v3
Der Durchschnitt der Schüler liegt bei 64,4 bzw. 61,5, während Opus 3 72 und 63 erreichte
Die Teilnehmer am AMC 12 machen wahrscheinlich weniger als 100.000 der insgesamt 3 bis 4 Millionen Zwölftklässler in den USA aus; selbst wenn man annimmt, dass nur die Hälfte der Spitzenschüler teilnimmt, könnte der AMC-Durchschnitt die besten 2–4 % der US-Highschool-Schüler repräsentieren
https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
Er erklärt, dass Promovierte aus anderen Fachgebieten trotz Internetnutzung und mehr als 30 Minuten Bearbeitungszeit nur 34 % erreichen, während Promovierte aus demselben Fachgebiet selbst mit Internet auf 65–75 % Genauigkeit kommen
https://twitter.com/idavidrein/status/1764675668175094169
GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
Im Vergleich zu ChatGPT-4 fühlte es sich um mehrere Größenordnungen schlechter an, und das tatsächliche Nutzungserlebnis wirkte wie ein deutlicher Rückschritt in die Vergangenheit
Schon nur bei introductory wäre das eine gute Leistung, aber es wäre besser zu wissen, welcher Maßstab verwendet wurde
In der Beschreibung von Claude 3 stört mich weiterhin die Stelle, dass es weniger unnötige Ablehnungen als bei früheren Modellen gebe.
Ich verstehe, dass ein Unternehmen kein Produkt verkaufen will, mit dem jeder lernen kann, wie man Drogen oder Bomben herstellt, aber wenn ein Modell, das auf meinem Computer läuft, eine von mir gewünschte Aufgabe ablehnt, finde ich das unangenehm.
Um das gewünschte Ergebnis zu bekommen, muss man das Modell überzeugen oder austricksen; dass ein Werkzeug die Befehle seines Besitzers verweigert, fühlt sich wie eine Beleidigung des Verhältnisses zwischen Mensch und Werkzeug an.
Wenn ich einen Hammer für Schrauben verwenden will, ist das meine Entscheidung und nicht die des Hammers. Ich verstehe nicht, warum man so darauf fixiert ist, AI-Tools wegen von Dritten definierter „Sicherheit“ Befehle ihrer Besitzer verweigern zu lassen.
Sie wollen nicht, dass das Handeln anderer mit ihren Tools ihr Gewissen belastet.
Allerdings glauben viele Menschen an Gedankenverbrechen und haben puritanische Vorstellungen von Sexualität; wenn man sich dem nicht anpasst, entstehen Reputations- und Finanzierungskosten.
Wenn Nutzer mit einem Modell Verbrechen begehen, soll das Rechtssystem damit umgehen; Big Brother muss meiner Ansicht nach nicht auch noch Gedankenverbrechen überwachen.
Im Moment mag die Hammer-Analogie weitgehend passend wirken, aber im Bereich AI Alignment geht man davon aus, dass diese Systeme bald, spätestens innerhalb von zehn Jahren, deutlich leistungsfähiger werden.
Der Grundzustand eines Werkzeugs ist moralisch neutral, und es macht sowohl gute als auch schlechte Menschen effektiver; wenn Angriff und Verteidigung symmetrisch sind, ist das Problem kleiner, aber es gibt keinen Grund, warum das so sein sollte.
Der Grund, warum es Regulierung für automatische Waffen mit hoher Feuerrate gibt, ist ebenfalls die zu große Asymmetrie zwischen der Angriffsfähigkeit eines einzelnen Übeltäters und der Unmöglichkeit der Verteidigung. Wenn AI-Angriffe viel einfacher werden als Verteidigung, kann die Ideologie der Offenheit in der Realität scheitern.
Allerdings ist es problematisch, wenn Guardrails von wenigen Gruppen festgelegt werden; das wirkt wie eine Nebenwirkung davon, dass AI zu schnell aufgetaucht ist.
Das könnte schon wegen staatlichen Drucks oder wegen Wettbewerbsmarketing wie „Unser Hammer verletzt nicht versehentlich Babys“ passieren; dass Hämmer keine solche Funktion haben, ist möglicherweise keine Entscheidung, sondern ein Nebenprodukt von Grenzen.
Ist es auch unangenehm, dass Photoshop das Bearbeiten von Geldbildern verhindert? Das Modell gehört dem Nutzer nicht, und der Nutzer hat auch nicht Milliarden von Dollar in seine Entwicklung gesteckt.
Wie bei kommerzieller Software üblich: Man nutzt sie zu den vom Entwickler festgelegten Bedingungen oder eben gar nicht.
Der Zielmarkt sind Großunternehmen, die durch die Automatisierung verschiedener Aufgaben Hunderte Millionen bis Milliarden Dollar an Personalkosten sparen wollen; was sie wollen, sind zuverlässige Modelle mit korrekten Informationen und guten Guardrails.
Ein großer multinationaler Versicherer wird sicher nicht das Risiko eingehen, dass sein Kundensupport-Chatbot einem Kunden, der ihn zum Spaß dazu verleitet, Erotik schreibt.
Die wichtigen Nutzer sind nicht Einzelpersonen, sondern Arbeitgeber, die Kundensupport-Mitarbeiter mit emotionaler Arbeit ersetzen wollen; sie wollen kontrollierte, freundliche menschliche Ersatzkräfte mit Guardrails.
Opus hat Gemini Pro und GPT-4 bei komplexen Fragen deutlich übertroffen.
Es ging darum, in einem 43-seitigen PDF zu Lebensversicherungs-Investitionen mehrere Zahlen zu finden, und die anderen Modelle kamen nicht einmal in die Nähe.
Nur Claude 3 Sonnet war nahe dran und verpasste lediglich eine Frage.
Für ein 43-seitiges PDF könnte das ideal sein, und da ich Zugriff habe, könnte ich es mit Pro 1.5 testen.
Ich habe Claude Pro abonniert, Opus getestet, komplexe Fragen zu Bildern und SDXL-Finetuning gestellt und Kostenvergleiche zwischen RTX 6000 Ada und H100 berechnen lassen; dabei gab es viele Fehler.
Als ich einen Screenshot der Runpod-GPU-Preise gab, las es den Preis der RTX 6000 Ada fälschlich als $0.114 statt $1.14, und auch spätere Berechnungen wie
.278 * $0.114oder.116 * $4.69passten nicht zu den angegebenen Gesamtsummen.ChatGPT 4 hingegen las die Preise aus demselben Screenshot korrekt, erkannte, dass die RTX 6000 Ada nicht verfügbar war, ersetzte sie selbstständig durch eine 4090 und rechnete konsistenter.
Es scheint keine Möglichkeit zu geben, dieses Problem zu beheben, außer Formelelemente zu finden, sie an einen handgebauten Parser und Funktionen zu schicken und das Ergebnis wieder in die Ausgabe-Token einzufügen.
Hinweis: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
Noch kein LLM hatte jemals einen emergenten Rechner.
Bedeutet das, dass die Vision-Fähigkeit auch bei Aufgaben ohne Bildeingabe die Intelligenz erhöht?
Bei einem komplexen arithmetischen Ausdruck lag die korrekte Rechnerantwort zum Beispiel bei 22.08555452004; GPT-4 ohne Python gab 22.3038 aus, Claude 3 Opus 22.0492.
Danach lässt man dann nach Belieben r/wallStreetBets-Bots laufen.
Ich habe einen einfachen Coding-Prompt getestet, bei dem DB und Frontend ineinandergreifen, und das kostenlose, schwächere Modell Claude 3 Sonnet lieferte eine bessere Antwort als ChatGPT Classic.
Es verwendete die richtige Methode einer weniger bekannten SQL-ORM-Bibliothek, während GPT-4 die falsche Methode nutzte.
Bei einem Prompt zur SQL-Generierung lieferte es allerdings eine schlechtere Antwort als ChatGPT Classic; sie wirkte zwar korrekt, war aber deutlich länger.
ChatGPT-Link 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
ChatGPT-Link 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba
Das grüne Icon steht für das ChatGPT-Modell der ersten Generation, vermutlich sehr wahrscheinlich GPT-3.5 Turbo.
Mit GPT-4 ausgeführt kommt das erwartete Ergebnis heraus: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
Das ist ein gutes Beispiel dafür, dass viele im Internet kursierende ChatGPT-Fehlschläge Ergebnisse schwächerer Modelle sind.
Das OpenAI-Icon mit grünem Hintergrund steht für GPT-3.5, schwarze oder violette Icons für GPT-4; GPT-4 Turbo in der API schnitt etwas besser ab, vielleicht weil es mehr Wissen über Drizzle hat.
Nachdem ich Opus ein wenig ausprobiert habe, beginne ich zu vermuten, dass Benchmarks systematisch von der realen Leistung abweichen.
In der Praxis wirkt es nicht besser als GPT-4, sondern eher etwas schlechter.
Bei grundlegenden Analysis-/Physikfragen nahm es konstante Verzögerung an, obwohl ausdrücklich gesagt wurde, dass die Verzögerung proportional zur Geschwindigkeit ist; und in einem Verkehrssimulationstest vergaß es das zuvor besprochene Richtungskonzept und war damit noch schlechter als die ohnehin schlechten Ergebnisse von GPT-4.
Auch bei einem Test, in dem es nach einer Erklärung im Kontext die Grundfarben von Licht verstehen sollte, war es schlechter, und beim Coding lag es bei einer Aufgabe zur Berechnung der langfristigen Kapitalertragsteuer leicht hinter GPT-4.
Claude 3 wurde dem Chat von https://double.bot hinzugefügt, sodass man es fürs Coding ausprobieren kann.
Derzeit ist es kostenlos, und heute Nachmittag soll Claude 3 auch in die Autovervollständigung aufgenommen werden.
Nach ersten Tests wirkt es wie die erste echte API-Alternative zu GPT-4, was eine große Sache ist.
Codeium hat dafür bereits ziemlich ordentliche Unterstützung.
https://www.codium.ai
https://github.com/Exafunction/codeium.vim
Ich baue ein Produkt im selben Bereich und habe solche Anfragen schon ein paar Mal bekommen; bei einer IDE-Erweiterung sollte man sich wohl mit jedem AI-Modell verbinden können, egal wo es läuft.
Dass irgendein Modell GPT-4 übertrifft, ist eine große Sache, und es ist sehr beeindruckend, dass sie das geschafft haben.
Allerdings ist GPT-4 ein Jahr alt, und OpenAI hat das Modell der nächsten Generation noch nicht veröffentlicht.
Das GPT-3-Paper erschien 2020, und Anthropic wurde erst 2021 gegründet; während OpenAI also Erfahrung über drei Generationen gesammelt hatte, startete Anthropic praktisch bei null und liegt nun zumindest vorübergehend in einigen Benchmarks vorn.
OpenAIs Modell der nächsten Generation dürfte bereits fertig trainiert sein und sich in Fine-Tuning und Sicherheitsbewertung befinden; da Sicherheit aber Anthropics Daseinszweck ist, ist schwer vorstellbar, dass sie diese Punkte nur deshalb halbherzig erledigt haben, um dieses Modell schnell herauszubringen.
GPT-4-1106-previewundGPT-4-0125-preview.Referenz: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
Hier liegt es ganz knapp vor GPT-4, und da es bisher anscheinend kein anderes Modell geschafft hat, ist das schon für sich genommen beeindruckend.