Llama 2 ist bei Zusammenfassungen so genau wie GPT-4 und 30-mal günstiger

xguru · 2023-08-30T11:08:02+09:00

Zusammenfassen ist eine der praktischsten Anwendungen von LLMs, aber man muss darauf vertrauen können, dass die Zusammenfassungen korrekt sind Wegen Kosten- oder Datenzugriffsproblemen möchte man Open-Source-LLMs wie Llama 2 verwenden, ist sich bei der Genauigkeit aber nicht sicher Durch Experimente wurde festgestellt, dass Llama-2-70b in seiner Faktentreue mit GPT-4 vergleichbar und deutlich besser als gpt-3.5-turbo ist Mit Anyscale Endpoint wurden Llama 2 7b/13b/70b und gpt-3.5/4 verglichen 373 Nachrichtenmeldungs-Sätze, die durch eine dreifache Prüfung verifiziert wurden, wurden annotiert und jeweils mit einer richtigen und einer falschen Antwort versehen Die einzelnen LLMs sollten auswählen, welche Aussage eine faktenbasierte, korrekte Zusammenfassung ist Zwei Probleme Kleine Modelle befolgen Anweisungen nicht gut. Größere Modelle halten sich besser an Vorgaben. Deshalb musste ein anderes LLM verwendet werden, um die Ausgaben kleiner LLMs zu interpretieren Reihenfolge-Bias: Je nachdem, was zuerst präsentiert wird, fällt die Auswahl unterschiedlich aus. Deshalb wurde auch mit vertauschter Reihenfolge geprüft Ergebnisse Menschen: 84 % (laut früheren Studien) gpt-3.5-turbo: 67,0 % richtige Antworten (starker Reihenfolge-Bias) gpt-4: 85,5 % richtige Antworten Llama-2-7b: extrem starker Reihenfolge-Bias, unter Zufallsgenauigkeit Llama-2-13b: 58,9 % richtige Antworten Llama-2-70b: 81,7 % Kosten (für die Zusammenfassung von 100K Wörtern) gpt-4: $5.48 gpt-3.5-turbo: $0.25 Llama-2-7b: $0.05 Llama-2-13b: $0.09 Llama-2-70b: $0.19

(anyscale.com)

12 Punkte von xguru 2023-08-30 | 5 Kommentare | Auf WhatsApp teilen

Zusammenfassen ist eine der praktischsten Anwendungen von LLMs, aber man muss darauf vertrauen können, dass die Zusammenfassungen korrekt sind
Wegen Kosten- oder Datenzugriffsproblemen möchte man Open-Source-LLMs wie Llama 2 verwenden, ist sich bei der Genauigkeit aber nicht sicher
Durch Experimente wurde festgestellt, dass Llama-2-70b in seiner Faktentreue mit GPT-4 vergleichbar und deutlich besser als gpt-3.5-turbo ist
Mit Anyscale Endpoint wurden Llama 2 7b/13b/70b und gpt-3.5/4 verglichen
- 373 Nachrichtenmeldungs-Sätze, die durch eine dreifache Prüfung verifiziert wurden, wurden annotiert und jeweils mit einer richtigen und einer falschen Antwort versehen
- Die einzelnen LLMs sollten auswählen, welche Aussage eine faktenbasierte, korrekte Zusammenfassung ist
Zwei Probleme
- Kleine Modelle befolgen Anweisungen nicht gut. Größere Modelle halten sich besser an Vorgaben. Deshalb musste ein anderes LLM verwendet werden, um die Ausgaben kleiner LLMs zu interpretieren
- Reihenfolge-Bias: Je nachdem, was zuerst präsentiert wird, fällt die Auswahl unterschiedlich aus. Deshalb wurde auch mit vertauschter Reihenfolge geprüft
Ergebnisse
- Menschen: 84 % (laut früheren Studien)
- gpt-3.5-turbo: 67,0 % richtige Antworten (starker Reihenfolge-Bias)
- gpt-4: 85,5 % richtige Antworten
- Llama-2-7b: extrem starker Reihenfolge-Bias, unter Zufallsgenauigkeit
- Llama-2-13b: 58,9 % richtige Antworten
- Llama-2-70b: 81,7 %
Kosten (für die Zusammenfassung von 100K Wörtern)
- gpt-4: $5.48
- gpt-3.5-turbo: $0.25
- Llama-2-7b: $0.05
- Llama-2-13b: $0.09
- Llama-2-70b: $0.19

5 Kommentare

mhj5730 2023-08-30

Die Kosten von GPT-4 sind im Vergleich zu anderen GPTs wirklich überwältigend hoch ...

xguru 2023-08-30

Ich habe es einfach ohne groß nachzudenken genutzt … und dann das monatliche $120-Kontingent überschritten und eine Erhöhung beantragt.
Im Moment ist es definitiv noch teuer. Hoffentlich fällt der Preis bald auf das Niveau von GPT-3.5, haha.

kuroneko 2023-08-30

Ich nutze für Zusammenfassungen eigentlich immer Kagis Universal Summarizer.
Irgendwie finde ich ihn auch praktischer als ChatGPT, und die Tokens sind unbegrenzt ...

Bei Koreanisch wird aber offenbar einfach nur das Ergebnis übersetzt, daher ist die Qualität im Koreanischen selbst im Vergleich zu GPT 3.5 deutlich schwächer.
Ein Enterprise-Modell, das nur kostenpflichtig verfügbar ist, scheint zwar besser zu sein, aber ich meine, es kostete 1 Dollar pro Zusammenfassung, und das war für die private Nutzung doch etwas belastend.

ragingwind 2023-08-30

Es scheint klar zu sein, dass die Zusammenfassungsfunktion bei LLMs ein wichtiges Auswahlkriterium ist.

xguru 2023-08-30

Das Problem ist ... In diesem Experiment hat das LLM nicht zusammengefasst, sondern die Zusammenfassung bewertet.
Wenn man es ausprobiert, ist GPT-4 bei der Zusammenfassungsleistung definitiv hervorragend. Auch die koreanische Übersetzung ist problematisch.
Wegen der GN⁺-Kosten war ich versucht, aber im Moment scheint man wohl doch einfach weiter GPT-4 nutzen zu müssen.

Llama 2 ist bei Zusammenfassungen so genau wie GPT-4 und 30-mal günstiger

Verwandte Beiträge

5 Kommentare