Google Bard steigt im LLM-Performance-Leaderboard auf Platz 2 direkt unter GPT-4 Turbo
(twitter.com/JeffDean)- Google Bard (Gemini Pro) hat GPT-4-0314/0613 und andere Modelle überholt und ist direkt unter GPT-4 Turbo (Arena ELO 1249) auf Platz 2 (1215) gesprungen
- Außerdem ist im HHEM-Leaderboard die Hallucination Rate von 12 % auf 4,9 % gesunken. (GPT-4/4 Turbo liegt bei 3,0 %, GPT 3.5 Turbo bei 3,5 %)
- Ich bin wirklich gespannt, wie Bard + Gemini Ultra veröffentlicht wird
1 Kommentare
Hacker-News-Kommentare
Leistungsbegrenzung von Google Bard: Ein Nutzer vermutet schon länger, dass die Leistung von Google Bard aus Kostengründen begrenzt wurde. Google bietet Bard kostenlos an und wollte vermutlich nicht auf Dauer für alle Nutzer kostenlos ein riesiges Modell betreiben. Möglicherweise gab es eine Innovation bei den Inferenzkosten, oder Google hat entschieden, die Kosten vorübergehend in Kauf zu nehmen, weil man es leid war, als im Wettbewerb zurückliegend zu gelten. Der Nutzer meint, Google sollte ein Abo starten, damit man öffentlich sehen kann, wie das beste Modell betrieben wird.
Frühe Enttäuschung über Bard und spätere Verbesserungen: Bard war zum Start enttäuschend, aber es ist gut zu sehen, dass es besser wird. Nach persönlicher Erfahrung nutzt der Nutzer Claude 2 häufiger als GPT 4/Turbo und bevorzugt dessen Antwortstil und die Art, wie Fragen beantwortet werden. Bemerkenswert ist, dass Kagi Claude 1 auf demselben Niveau wie GPT 4 (nicht Turbo) einordnet und die Qualität von Claude 2 auf dem Niveau von 4 Turbo bewertet.
Geringe Zahl an Stimmen für das Bard-Modell: Das Bard-Modell hat vergleichsweise wenige Stimmen. Der Nutzer will abwarten, bis die Zahl der Stimmen ein ähnliches Niveau wie bei den anderen Modellen erreicht.
Weniger restriktiv bei Bard: Bard ist im Vergleich zu GPT-4 deutlich weniger eingeschränkt, und allein das fühlt sich viel besser an als GPT-4.
Nützlichkeit von Bard unter den kostenlosen LLMs: Unter allen kostenlosen LLMs hält der Nutzer Bard für am nützlichsten. ChatGPT 3.5 sei kein Vergleich und wirke faul.
Neugier auf die Benchmark-Methode: Der Nutzer fragt sich, wie der Benchmark durchgeführt wird. Er vermutet, dass er verbessert werden könnte, damit er die Erwartungen der Nutzer oder die tatsächliche Nutzbarkeit besser widerspiegelt.
Widerspruch zur persönlichen Erfahrung: Nach persönlicher Erfahrung kehrt der Nutzer immer wieder zu GPT zurück, wenn er tatsächlich eine Antwort braucht. In den meisten Fällen bevorzugt er ChatGPT 3.5 gegenüber Google Bard, und GPT 4 ist seiner Meinung nach klar besser als Bard.
Vergleich zwischen Bard und ChatGPT: Persönlich hält der Nutzer Bard für deutlich besser als ChatGPT. Er würde gern unzensiertes Mistral verwenden.
Reaktionsfähigkeit von Bard und hinzugefügte Zensur: Früher reagierte Bard auf Anfragen und lehnte nicht ab. Es scheint, als sei eine Zensur-Schicht hinzugefügt worden. Der Nutzer vermisst das frühere Bard.