Google Bard steigt im LLM-Performance-Leaderboard auf Platz 2 direkt unter GPT-4 Turbo

xguru · 2024-01-28T09:41:59+09:00

Google Bard (Gemini Pro) hat GPT-4-0314/0613 und andere Modelle überholt und ist direkt unter GPT-4 Turbo (Arena ELO 1249) auf Platz 2 (1215) gesprungen Außerdem ist im HHEM-Leaderboard die Hallucination Rate von 12 % auf 4,9 % gesunken. (GPT-4/4 Turbo liegt bei 3,0 %, GPT 3.5 Turbo bei 3,5 %) Ich bin wirklich gespannt, wie Bard + Gemini Ultra veröffentlicht wird

(twitter.com/JeffDean)

7 Punkte von xguru 2024-01-28 | 1 Kommentare | Auf WhatsApp teilen

Google Bard (Gemini Pro) hat GPT-4-0314/0613 und andere Modelle überholt und ist direkt unter GPT-4 Turbo (Arena ELO 1249) auf Platz 2 (1215) gesprungen
Außerdem ist im HHEM-Leaderboard die Hallucination Rate von 12 % auf 4,9 % gesunken. (GPT-4/4 Turbo liegt bei 3,0 %, GPT 3.5 Turbo bei 3,5 %)
Ich bin wirklich gespannt, wie Bard + Gemini Ultra veröffentlicht wird

1 Kommentare

xguru 2024-01-28

Hacker-News-Kommentare

Leistungsbegrenzung von Google Bard: Ein Nutzer vermutet schon länger, dass die Leistung von Google Bard aus Kostengründen begrenzt wurde. Google bietet Bard kostenlos an und wollte vermutlich nicht auf Dauer für alle Nutzer kostenlos ein riesiges Modell betreiben. Möglicherweise gab es eine Innovation bei den Inferenzkosten, oder Google hat entschieden, die Kosten vorübergehend in Kauf zu nehmen, weil man es leid war, als im Wettbewerb zurückliegend zu gelten. Der Nutzer meint, Google sollte ein Abo starten, damit man öffentlich sehen kann, wie das beste Modell betrieben wird.

Laut einem Tweet von Jeff Dean wurde ein neues Modell namens "Gemini Pro-scale model" veröffentlicht und hat im unabhängigen lmsys-Leaderboard Platz 2 erreicht. Was "Pro-scale" genau bedeutet und ob bereits alle Nutzer dieses Modell verwenden, ist nicht klar.
Frühe Enttäuschung über Bard und spätere Verbesserungen: Bard war zum Start enttäuschend, aber es ist gut zu sehen, dass es besser wird. Nach persönlicher Erfahrung nutzt der Nutzer Claude 2 häufiger als GPT 4/Turbo und bevorzugt dessen Antwortstil und die Art, wie Fragen beantwortet werden. Bemerkenswert ist, dass Kagi Claude 1 auf demselben Niveau wie GPT 4 (nicht Turbo) einordnet und die Qualität von Claude 2 auf dem Niveau von 4 Turbo bewertet.
Geringe Zahl an Stimmen für das Bard-Modell: Das Bard-Modell hat vergleichsweise wenige Stimmen. Der Nutzer will abwarten, bis die Zahl der Stimmen ein ähnliches Niveau wie bei den anderen Modellen erreicht.
Weniger restriktiv bei Bard: Bard ist im Vergleich zu GPT-4 deutlich weniger eingeschränkt, und allein das fühlt sich viel besser an als GPT-4.
Nützlichkeit von Bard unter den kostenlosen LLMs: Unter allen kostenlosen LLMs hält der Nutzer Bard für am nützlichsten. ChatGPT 3.5 sei kein Vergleich und wirke faul.
Neugier auf die Benchmark-Methode: Der Nutzer fragt sich, wie der Benchmark durchgeführt wird. Er vermutet, dass er verbessert werden könnte, damit er die Erwartungen der Nutzer oder die tatsächliche Nutzbarkeit besser widerspiegelt.

Nachdem der Nutzer den Tweet von Jeff Dean gesehen hatte, probierte er Bard aus. Im Vergleich zu GPT-4 war er immer noch enttäuschend. Bard weicht von der Frage ab, merkt das aber nicht.
Als der Nutzer um die Erstellung eines Diagramms bat, antwortete Bard dreimal mit "Hier ist ein Diagramm", aber es gab kein tatsächliches Diagramm; am Ende sagte Bard, dass diese Funktion nicht existiere.
Widerspruch zur persönlichen Erfahrung: Nach persönlicher Erfahrung kehrt der Nutzer immer wieder zu GPT zurück, wenn er tatsächlich eine Antwort braucht. In den meisten Fällen bevorzugt er ChatGPT 3.5 gegenüber Google Bard, und GPT 4 ist seiner Meinung nach klar besser als Bard.
Vergleich zwischen Bard und ChatGPT: Persönlich hält der Nutzer Bard für deutlich besser als ChatGPT. Er würde gern unzensiertes Mistral verwenden.
Reaktionsfähigkeit von Bard und hinzugefügte Zensur: Früher reagierte Bard auf Anfragen und lehnte nicht ab. Es scheint, als sei eine Zensur-Schicht hinzugefügt worden. Der Nutzer vermisst das frühere Bard.

Google Bard steigt im LLM-Performance-Leaderboard auf Platz 2 direkt unter GPT-4 Turbo

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare