Ein Jahr nach dem Start von ChatGPT: Die Aufholjagd der Open-Source-LLMs
- Das Ende 2022 veröffentlichte ChatGPT hat im gesamten KI-Bereich große Veränderungen ausgelöst.
- Große Sprachmodelle (LLMs) werden durch überwachtes Lernen und Reinforcement Learning aus menschlichem Feedback abgestimmt und zeigten die Fähigkeit, in vielfältigen Aufgaben menschliche Fragen zu beantworten und Anweisungen zu befolgen.
- Nach diesem Erfolg ist das Interesse an LLMs in Wissenschaft und Industrie gestiegen, viele Startups konzentrieren sich auf LLMs, und Open-Source-LLMs entwickeln sich rasant. Es wird behauptet, dass sie bei bestimmten Aufgaben eine gleichwertige oder bessere Leistung als ChatGPT zeigen.
Auswirkungen auf Forschung und Business
- Obwohl Closed-Source-LLMs (z. B. OpenAIs GPT, Anthropics Claude) im Allgemeinen eine bessere Leistung als Open-Source-Modelle zeigen, entwickeln sich Open-Source-LLMs schnell, und es wird behauptet, dass sie bei einigen Aufgaben eine gleichwertige oder bessere Leistung erreicht haben.
- Diese Entwicklung hat nicht nur für die Forschung, sondern auch für das Business wichtige Auswirkungen.
Meinung von GN⁺
- Zum ersten Jahrestag von ChatGPT ist es wichtig, dass sich Open-Source-LLMs schnell weiterentwickeln und bei bestimmten Aufgaben eine ähnliche oder bessere Leistung als ChatGPT zeigen.
- Das hat sowohl für Forschung als auch Business erhebliche Auswirkungen und kann dazu beitragen, die Demokratisierung und Innovation der KI-Technologie zu fördern.
- Dieser Beitrag bietet interessante Inhalte für Menschen, die sich für die Entwicklung der KI-Technologie und ihre Auswirkungen auf die Gesellschaft interessieren.
1 Kommentare
Hacker-News-Kommentare
In den letzten Tagen wurden mehrere große und leistungsstarke Modelle veröffentlicht:
Demonstration der Fähigkeiten eines mit qlora feinabgestimmten 1,3-Milliarden-Parameter-llama2:
Es scheint notwendig zu werden, einen Prompt-Router vor mehrere spezialisierte Modelle (Code, Chat, Mathematik, SQL, Gesundheit usw.) zu setzen:
Aktuelle Modelle mit etwa 70B sind auf dem Niveau von ChatGPT 3.5; kleinere Modelle können anfangs ähnlich wirken, halluzinieren jedoch häufiger und haben weniger Wissen über die Welt
GPT 4 „versteht“ auf einer tieferen Ebene, und Open-Source-Modelle sind damit noch nicht vergleichbar
Open-Source-Technik verfügt über Funktionen zur Ausgabesteuerung, die OpenAI nicht implementiert (z. B. Grammatik in llama.cpp oder ControlNet); in dieser Hinsicht ist Open Source OpenAI voraus
Geteilte Erfahrung mit dem DeepSeek-67B-Modell:
Mistral OpenOrca ist bei kreativem Schreiben/Analysen fast auf dem Niveau von GPT4-turbo und neigt dazu, ähnlichen Text auszugeben
Langfristig ist es fast unvermeidlich, dass Open-Source-LLMs aufholen; die Open-Source-Community hat deutlich begrenztere Ressourcen, beschleunigt aber die Entwicklung von Modellen mit <30B Parametern erheblich
Nach persönlicher Erfahrung erreichen Open-Source-LLMs noch nicht die Qualität von GPT 3.5, sind aber schon heute nützlich und lassen sich lokal ausführen
Mit dem Neovim-Plugin gen.nvim werden einfache Aufgaben erledigt und viel Zeit gespart
Ausdruck von Vorfreude auf die Zukunft
Da GPT4 im letzten Monat kontinuierlich nachgelassen hat, besteht die Überzeugung, dass Open-Source-Modelle aufholen