Ask HN: Wie waren eure Erfahrungen beim Wechsel von GPT zu eigenen Modellen?
(news.ycombinator.com)Zusammenfassung der Antworten auf eine Frage auf HN
- Hat Dutzenden von Kunden dabei geholfen, auf OpenPipe von GPT-4/GPT-3.5 auf eigene feinabgestimmte Modelle umzusteigen
- Die häufigste Reaktion war: "Wow, ich hätte nicht gedacht, dass das mit so wenig Aufwand so gut funktioniert"
- Für die meisten Aufgaben übertrifft ein feinabgestimmtes Mistral 7B GPT-3.5 bei deutlich geringeren Kosten
- In einigen Anwendungsfällen ist die Leistung ähnlich gut wie bei GPT-4 oder sogar besser (insbesondere bei Aufgaben wie Klassifizierung, Informationsextraktion und Zusammenfassung)
- Verwendet Mistral-Instruct-0.1 für die Zusammenfassung von Telefonaten/E-Mails, Mixtral für Contract Mining und OpenChat zur Unterstützung eines Agent-Chatbots mit RAG-Tools
- Die Erfahrungen waren hervorragend, und der INT8-Trade-off ist akzeptabel, bis Hardware-FP8(FP4) breiter verfügbar und günstiger wird
- Die On-Premise-Kosten waren bereits durch den Einsatz vorhandener A100- und V100-Legacy-Hardware für Millionen von Interaktionen abgefedert
- Verwendet Continue zusammen mit Ollama; das hauptsächlich genutzte LLM ist deepseek-coder 7b. Dieses Setup ist so gut wie ChatGPT 4, lokal zuerst und insgesamt zufriedenstellend
- Hat ein LLM für technische Aufgaben getunt, und es funktionierte sehr gut. Allerdings ist die Bewertung von LLMs überraschend schwierig, und es wurde festgestellt, dass GPT-4 im Allgemeinen gar nicht so großartig ist
- Bei Datenextraktion oder -verarbeitung für mehr als 10.000 Datensätze werden lokale Modelle bevorzugt. Gehostete Dienste wären an diesem Punkt langsam und fragil. Ein feinabgestimmtes Mistral 7B (OpenChat ist am besten) verarbeitet Daten schnell. Für die Zusammenfassung von Informationen aus komplexen Prompts wird ChatGPT-4 verwendet, das Ergebnis läuft dann auf dem lokalen Modell. Es wird erwartet, dass sich die Lage weiter verbessert
- Unterstützt sowohl die OpenAI-API als auch On-Device-Bibliotheken (z. B. llama.cpp) in Apps und Enterprise-Produkten. API und Bibliotheken sind sehr ähnlich, sodass der Wechsel für Nutzer fast transparent ist. APIs anderer Plattformen sollen bald ebenfalls unterstützt werden und lassen sich genauso leicht integrieren wie OpenAI
- Hat Mistral 7B während eines Flugs ohne WLAN genutzt; zum Finden benötigter Informationen war es ziemlich gut, bei Schritt-für-Schritt-Anweisungen war der Erfolg jedoch uneinheitlich
- Während des Baus von Double.bot wurden mehrere Modelle getestet, am Ende ging es aber zurück zu gpt4. Die anderen Modelle machen Spaß, aber es ist enttäuschend, wenn gpt4 1 von 100 Fragen löst und das andere Modell genau diese verpasst. Aktuell wird mehr Wert daraus gezogen, Funktionen rund um das Modell zu implementieren; das behebt Schwächen von GitHub copilot (Autovervollständigung mit korrekt geschlossenen Klammern, automatisches Importieren beim Annehmen von Vorschlägen, Deaktivieren von Vorschlägen beim Schreiben von Kommentaren, damit sie nicht stören, Vervollständigung in der Mitte einer Zeile usw.). Es wird gehofft, dass Open-Source-Modelle gpt4 innerhalb von 6 Monaten einholen
- Allgemein wird Llama 2, besonders in anderen Sprachen als Englisch, für ziemlich schlecht gehalten. Mit Mixtral für Chat wurden sehr gute Ergebnisse erzielt. Im Vergleich zu echtem ChatGPT fühlen sich aber alle wie Frankenstein an. Sie wirken ähnlich und funktionieren gut, liefern dann aber manchmal völlig kaputten Unsinn oder Artefakte, sodass man sich fragt, ob beim Fine-Tuning geschlampt wurde
- Führt den ersten Schritt mit einem eigenen Modell aus und eskaliert dann zu gpt, falls das Ergebnis des eigenen Modells unsicher ist
- Es wird erwartet, dass 2024 viel mehr Menschen OpenAI wegen Kosten und Latenz verlassen werden als zugunsten weniger erprobter/skalierten Wettbewerber. Geschwindigkeit und Qualität stehen oft im Widerspruch; es wurden mehrere Anbieter gesehen, die mehr als 3x schneller als OpenAI sind und mehr als ein Drittel der Qualität liefern
- Verwendet Mixtral 8x7b (q5) für Anwendungsfälle wie Scripting, Ideensuche und/oder Definitionen, die ohnehin immer gegengeprüft werden müssen. Aktuell läuft lmstudio auf einem M2 mit 96 GB RAM. Ein Wechsel zu Ollama oder einer anderen OSS-Lösung wird jedoch erwogen
1 Kommentare
Da es sich um HN handelt, sollte man bedenken, dass Englisch der Maßstab ist.