Mistral-CEO bestätigt Leak eines neuen Open-Source-AI-Modells mit nahezu GPT-4-Leistung

(venturebeat.com)

10 Punkte von GN⁺ 2024-02-01 | 1 Kommentare | Auf WhatsApp teilen

Um den 28. Januar veröffentlichte der Nutzer "Miqu Dev" auf HuggingFace, einer Open-Source-Plattform zum Teilen von AI-Modellen und Code, einen neuen Dateisatz für ein Open-Source-Large-Language-Model (LLM) namens "miqu-1-70b"
Dieses Modell verwendet dasselbe "Prompt format" wie Mixtral 8x7b von Mistral, das derzeit als eines der leistungsstärksten Open-Source-AI-Modelle gilt
Am selben Tag veröffentlichte ein anonymer Nutzer auf 4chan einen Link zu den Dateien von miqu-1-70b
Einige Nutzer stellten fest, dass dieses Modell bei allgemeinen LLM-Aufgaben hervorragende Leistungen zeigt und an OpenAIs GPT-4 heranreicht

Mistral-Quantisierung?

Forschende im Bereich Machine Learning (ML) zeigten auf LinkedIn Interesse an der Frage, ob "miqu" für "MIstral QUantized" steht
Quantisierung ist eine Technik, bei der lange Zahlenfolgen in der Modellarchitektur durch kürzere ersetzt werden, damit AI-Modelle auf weniger leistungsfähigen Computern und Chips laufen können
Arthur Mensch, Mitgründer und CEO von Mistral, erklärte, dass das Modell "Miqu" von einem allzu enthusiastischen Mitarbeiter eines Early-Access-Kunden von Mistral geleakt wurde
- Mistral habe dieses Modell auf Basis von Llama 2 weitertrainiert und das Pretraining am Tag des Releases von Mistral 7B abgeschlossen; seither mache es gute Fortschritte
Interessanterweise hinterließ Mensch unter dem unrechtmäßigen HuggingFace-Post keinen Löschantrag, sondern einen Kommentar, man könne "eine Namensnennung in Betracht ziehen"

Ein bedeutender Moment für Open-Source-AI und darüber hinaus?

Die Veröffentlichung eines Open-Source-Modells mit Leistung auf GPT-4-Niveau könnte ein bedeutender Moment nicht nur für generative Open-Source-AI, sondern für das gesamte Feld der AI und Informatik sein
OpenAI kann seinen Wettbewerbsvorteil mit GPT-4 Turbo und GPT-4V (Vision) womöglich behalten, doch die Open-Source-AI-Community holt schnell auf

Meinung von GN⁺

Das Auftauchen des Modells "Miqu" zeigt neue Möglichkeiten im Bereich Open-Source-AI auf, die mit kommerziellen AI-Produkten konkurrieren können
Dieser Vorfall unterstreicht die Innovationskraft der Open-Source-Community und die schnelle technologische Entwicklung
Fortschritte bei Open-Source-Modellen könnten verändern, wie Unternehmen AI einsetzen, und damit erhebliche Auswirkungen auf die gesamte Tech-Industrie haben

1 Kommentare

GN⁺ 2024-02-01

Hacker-News-Kommentare

Ein Nutzer beobachtet die Seite von TheBloke und wartet darauf, das quantisierte Modell Miqu Q5 auf seinem MacBook ausführen zu können. Er nutzt Mixtral täglich und würde sein OpenAI-Abonnement kündigen, falls dieses Modell (oder eine neue offizielle Version) an GPT-4 herankommt. Er meint, dass Mistrals kleines Team die Konkurrenz übertrifft und so aussieht, wie „Open"AI sein sollte.

Tweet des Mistral-CEO: Ein übermäßig enthusiastischer Mitarbeiter eines Kunden mit frühem Zugang hat eine quantisierte (und mit Wasserzeichen versehene) Version eines älteren Modells geleakt. Er teilt mit, dass dieses Modell am Tag der Veröffentlichung von Mistral 7B neu auf Basis von Llama 2 trainiert wurde, sobald Zugriff auf den gesamten Cluster bestand, und dass seitdem gute Fortschritte erzielt wurden.
Ein Nutzer merkt an, dass es trotz fast eines Jahres seit der Veröffentlichung von GPT-4 sehr ermüdend wirke, wie kollektiv versucht werde, GPT-4 ohne besonderen Geheimtrick einzuholen. Das gelte umso mehr, da OpenAI jederzeit etwas deutlich Besseres herausbringen könnte.
Ein anderer Nutzer weist zur Behauptung, man sei nahe an GPT-4, darauf hin, dass Leaderboards eine große Lücke zwischen GPT4-0314 und GPT4-Turbo zeigen. Wenn man also nur knapp an GPT4-0314 herankomme, liege man gegenüber dem Stand der Technik immer noch etwa ein Jahr zurück.
Ein weiterer Nutzer erwähnt, dass das geleakte Modell in ein paar Monaten wahrscheinlich keine Bedeutung mehr haben werde. Nach Erscheinen des offiziellen Modells würden bessere Modelle veröffentlicht werden, und spannender als das Modell selbst sei für ihn das hohe Entwicklungstempo.
Ein Nutzer stellt infrage, warum dieses Modell als Open-Source-Modell bezeichnet werde. Es sei ein proprietäres Modell, das ins Internet geleakt wurde, und bleibe das so, bis Mistral es offiziell veröffentliche. Für die private Nutzung wäre ihm das wie bei Llama 1 egal, aber kein Unternehmen werde dieses Modell verwenden.
Ein anderer Nutzer sagt, Mistral erinnere ihn an die guten alten Tech-Unternehmen aus der Zeit vor 2015.
Ein Nutzer fragt sich, wie man sich eine Welt vorstellen könne, in der GPT so alltäglich wie die aktuelle Version von Apache oder MySQL geworden ist und wir zu Hunderttausenden Webhosts zurückkehren würden — Verzeihung, AI-Hosts.
Abschließend erwähnt ein Nutzer, dass GPT-4 vor fast einem Jahr veröffentlicht wurde und das hohe Tempo, mit dem OpenAI jeden Monat neue bahnbrechende Technologie herauszubringen schien, offenbar nachgelassen habe. Er fragt sich, was bei OpenAI gerade vor sich geht, ob das jüngste Chaos zu Verzögerungen im Unternehmen geführt hat oder ob dort an irgendeiner „Superwaffe“ gearbeitet wird.

Mistral-CEO bestätigt Leak eines neuen Open-Source-AI-Modells mit nahezu GPT-4-Leistung

Mistral-Quantisierung?

Ein bedeutender Moment für Open-Source-AI und darüber hinaus?

Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare